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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭 森 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 晶 
益 据 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 “出 版 要 为 教育 服务 ”"。 自 1998 年 始 ， 
华章 公司 就 将 工作 重点 放 在 了 赣 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum, Stroustrup, Kernighan, Jim Gray 
等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 皮 
藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 人 馆 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 ， 为 进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 针对 本 科 生 的 核心 课程 ， 剔 抉 外 版 菁华 而 成 “国外 经 典 教 
材 ” 系 列 ; 对 影印 版 的 教材 ， 则 单独 开辟 出 “经 典 原 版 书库 ;定位 在 高 级 教程 和 专业 参考 
的 “计算 机 科学 丛书 ”还 将 保持 原来 的 风格 ， 继 续 出 版 新 的 品种 。 为 了 保证 这 三 套 丛 书 的 权 
威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 
华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 海 交通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 
哈尔滨 工业 大 学 、 西 安 交 通 大 学 、 中 国人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山 
大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重 
点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 
题 意见 和 出 版 监督 。 


NV 


“国外 经 典 教材 ”是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 本 科 
教学 度 身 订 造 的 。 在 广泛 地 征求 并 听取 丛书 的 “专家 指导 委员 会 ”的 意见 后 ， 我 们 最 终 选 定 
了 这 20 多 种 篇 幅 内 容 适 度 、 讲 解 鞭 辟 人 里 的 教材 ， 其 中 的 大 部 分 已 经 被 M,I.T,. Stanford, 
U.C. Berkley、C.M.U. 等 世界 名 牌 大 学 采用 。 从 书 不 仅 涵盖 了 程序 设计 、 数 据 结 构 、 操 作 系 
统 、 计 算 机 体系 结构 、 数 据 库 、 编 译 原 理 、 软 件 工 程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国 
内 大 学 计算 机 专业 普遍 开设 的 核心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 
历 三 十 年 而 不 衰 、 有 的 已 被 全 世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 
下 ,读者 必 将 在 计算 机 科学 的 宫殿 中 由 登 堂 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 ; 


电子 邮件 : hzedu@ hzbook.com 

联系 电话 : (010) 68995265 

联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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十 分 高 兴 能 为 这 本 关于 并 行 计算 的 新 书 作 序 。 本 书 的 内 容 令 人 兴奋 ， 具 有 鲜明 的 时 代 特 
征 。 作 者 富有 见解 的 思路 ， 以 及 对 各 种 计算 机 体系 结构 所 做 的 系统 化 和 定量 化 分 析 ， 将 这 本 
书 与 先前 所 有 关于 并 行 计算 机 体系 结构 的 书 区 别 开 来 。 这 种 在 开头 4 章 里 英 定 的 基本 思路 有 
三 个 主要 的 创新 : 它 建立 在 近年 来 并 行 计算 机 体系 结构 的 融合 之 上 ; 它 以 应 用 作为 驱动 来 评 
价 和 分 析 体 系 结构 ; 它 植 根 于 一 种 坚实 的 性 能 评价 方法 论 之 中 。 

如 同 在 第 1 章 里 所 描述 的 一 样 ， 近 年 来 共享 存储 和 消息 传递 模式 的 融合 ,展现 了 一 种 在 
一 个 公共 的 框架 下 刻画 和 分 析 计 算 机 体系 结构 的 新 机 遇 。 基 于 这 种 融合 ， 作 者 描述 了 4 种 根 
本 的 设计 要 点 〈 对 通信 的 抽象 、 程 序 设计 模型 、 通 信和 复制 的 关系 、 性 能 的 追求 )。 这 种 做 
法 创建 了 一 个 用 以 讨论 各 种 体系 结构 和 具体 实现 的 框架 。 在 这 个 框架 中 ， 我 们 可 以 对 不 同体 
系 结构 的 做 法 进行 严格 的 比较 和 考察 。 

不 理解 应 用 和 体系 结构 的 相互 作用 ， 我 们 就 不 能 理解 多 处 理 器 的 设计 权衡 和 性 能 。 为 
此 ， 针 对 性 能 的 提高 ， 第 2、3 章 介绍 了 应 用 程序 并 行 化 的 过 程 以 及 一 组 并 行程 序 。 除 了 铺 
热 一 个 定量 性 评价 体系 结构 及 其 实现 的 基础 ， 这 几 章 勾画 了 并 行程 序 设计 的 过 程 和 它 带 来 的 
挑战 ， 它 们 对 于 理解 多 处 理 器 的 性 能 是 关键 的 。 通 过 展示 如 何 用 一 种 并 行 的 工作 负载 来 评价 
体系 结构 ， 第 4 章 进 一 步 盖 明了 上 述 观 念 。 作 者 还 描述 了 评价 并 行 计算 机 的 复杂 性 ， 包 括 由 
机 器 规模 和 工作 负载 的 扩展 所 带 来 的 若干 问题 。 这 3 章 一 起 形成 了 其 余 各 章 论 述 的 基础 。 

中 小 规模 共享 存储 系统 是 目前 的 主导 并 行 体系 结构 。 任 何 对 并 行 计算 感 兴趣 的 人 ， 理 解 
这 类 机 器 的 原理 和 设计 权 衔 是 至 关 重 要 的 。 第 5 章 描述 了 共享 存储 多 重 处 理 技术 的 主要 概 
a: 高 速 缓存 的 一 致 性 、 存 储 同 一 性 和 同步 。 然 后 作者 描述 了 基于 侦 听 的 共享 存储 多 处 理 器 
的 详细 设计 ， 包 括 第 6 章 两 个 详尽 的 案例 分 析 。 

设计 多 处 理 器 系统 ， 使 之 能 够 扩展 到 更 多 的 节点 ， 依 然 是 多 处 理 器 体系 结构 领域 最 具有 
挑战 性 和 争议 的 一 个 方面 。 第 7 章 专门 从 消息 传递 到 共享 存储 的 设计 领域 讨论 这 个 问题 。 第 
8 章 将 这 种 讨论 延伸 ,考察 了 目录 方案 的 使 用 ， 它 使 得 缓存 一 致 性 能 够 扩展 到 大 量 的 处 理 节 
点 。 第 8 章 还 讨论 了 基于 目录 的 一 致 性 的 基本 问题 ， 两 个 详尽 的 案例 分 析 形 成 了 本 章 的 核 
心 。 在 本 书 之 前 ， 针 对 基于 目录 的 高 速 缓存 一 致 性 技术 的 商品 计算 机 ， 还 没有 如 此 详细 的 和 
定量 的 分 析 。 

用 于 多 处 理 器 系统 的 某 些 最 重要 的 硬件 和 软件 技术 基本 上 是 独立 于 体系 结构 细节 的 。 因 
此 ， 作 者 用 3 章 的 篇 幅 探 讨 了 这 些 关键 技术 。 第 9 章 描述 了 存储 系统 中 软件 的 影响 、 硬 件 的 
需求 以 及 性 能 权衡 ， 包 括 同 一 性 问题 和 高 速 缓存 的 扩展 使 用 。 第 10 章 考 察 了 互 连 技 术 ， 这 
是 任何 多 处 理 器 系统 都 要 有 的 一 个 关键 组 成 部 分 。 最 后 ， 第 11 章 考察 了 用 于 时 延 包 容 的 技 
术 。 从 多 个 方面 来 讲 ， 这 是 并 行 计算 机 的 一 个 “ 普 适 ”的 设计 问题 。 

作为 结束 ， 本 书 给 出 了 关于 未 来 硬件 和 软件 挑战 的 一 个 富有 见识 的 讨论 。 首 先 ， 作 者 讨 
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论 了 可 能 的 发 展 情景 ， 包 括 硬件 和 软件 两 个 方面 。 然 后 作者 在 题 为 “ 遇 到 困难 ”的 两 段 文字 
中 转向 潜在 的 障碍 。 最 后 ， 他 们 考察 了 可 能 的 技术 突破 ! 我 发 现 最 后 一 章 既 有 局 发 性 ， 也 有 
思想 性 。 作 者 们 不 同 的 背景 和 互补 的 优势 使 得 这 一 章 既 有 洞察 力 ， 又 有 刺激 性 。 

总 而 言 之 ， 这 是 一 个 关于 多 处 理 器 系统 设计 领域 的 令 人 兴奋 并 且 反 映 时 代 特 征 的 探索 性 
成 果 。 体 系 结构 设计 方法 融合 的 趋势 同 作者 提出 的 框架 的 结合 ， 使 得 我 们 可 能 建立 一 种 公共 
的 基础 来 考察 多 样 化 的 现代 并 行 体系 结构 。 几 年 前 ， 由 于 各 种 体系 结构 的 设计 方法 相差 太 
远 ， 要 写 这 样 一 本 书 是 不 可 能 的 。 类 似 地 ， 如 果 没 有 注意 定量 的 性 能 评测 以 及 应 用 和 体系 结 
构 的 相互 作用 ， 这 本 书 也 就 不 会 这 么 突出 。 而 我 们 的 作者 恰好 利用 了 这 种 技术 的 融合 ， 并 将 
注意 力 集中 在 应 用 驱动 和 针对 性 能 的 分 析 上 ， 对 并 行 计算 机 体系 结构 领域 进行 了 一 次 独特 
的 、 富 有 见识 的 探索 。 这 种 做 法 ， 和 作者 们 独特 的 优势 和 经 验 结合 在 一 起 ， 产 生 了 这 部 论 
著 ， 同 其 他 任何 并 行 体系 结构 的 书 相 比 ， 它 体现 了 更 深刻 的 认识 。 我 向 作者 们 表示 祝贺 ， 并 
向 所 有 对 并 行 处 理 技术 的 理论 和 实践 ， 以 及 这 些 技术 的 现在 和 未 来 感 兴趣 的 读者 推荐 此 书 。 


John L. Hennessy, 33248 KFARA RÈ ELAS RK 


译 者 & 


翻译 这 本 书 的 念头 ， 源 于 1998 年 11 月 在 美国 弗 罗 里 达州 奥兰多 市 参加 超级 计算 (Su 
percomputing) 学 术 会 议 。 当 时 ， 摩 根 考 夫 曼 (Morgan Kaufmann) 出 版 社 的 工作 人 员 在 现场 展 
销 图 书 。 本 书 是 其 中 之 一 。 粗 粗 浏 览 ， 立 刻 被 书 中 新 颖 的 内 容 所 吸引 ， 当 即 买 下 一 本 。 回 过 
头 看 看 ， 除 了 对 上 述 印 象 有 进一步 的 加 深 外 ， 还 发 现 它 和 以 前 类 似 题材 的 教材 相 比 ， 语 言 
很 有 特色 : 在 陈述 种 种 技术 要 点 时 ， 还 展开 了 大 量 的 剖析 性 分 析 。 我 们 感到 ， 本 书 能 使 读者 
对 技术 的 脉络 有 更 深刻 的 把 握 。 于 是 ， 在 机 械 工 业 出 版 社 华章 公司 的 支持 下 ， 我 们 开始 了 本 
书 的 翻译 工作 。 

这 项 工作 基本 上 分 为 三 个 阶段 。 第 一 阶段 ， 由 李晓明 负责 翻译 序 、 前 言 、 第 2、3、5、 
6 章 和 附录 ， 钱 德 沛 翻译 第 4、9、10 章 ， 程 旭 翻 译 第 1、7、8 章 ， 崔 光 佐 翻译 第 11、12 章 。 
在 统一 了 一 些 名 词 的 译 法 后 ， 在 第 二 阶段 由 李晓明 修改 序 、 前 言 、 第 1、2、3、5、6 章 和 附 
录 ， 钱 德 沛 修改 第 4、7、8、9、10 章 ， 崔 光 佐 依 然 修 改 第 11、12 章 。 在 最 后 审定 阶段 由 李 
晓 明 负责 第 4、7、8、9、10、11、12 章 ， 钱 德 沛 负责 序 、 前 言 、 第 1、2、3、5、6 章 和 附 
录 。 清 样 出 来 后 主要 由 李晓明 和 钱 德 沛 负责 最 后 的 校对 。 

尽管 我 们 几 个 人 近年 来 一 直 在 从 事 和 计算 机 体系 结构 有 关 的 教学 和 科研 工作 ， 但 坦率 地 
说 ， 做 好 这 件 事 对 我 们 依然 是 很 难 的 。 一 方面 ， 本 书 的 内 容 十 分 广博 ， 有 一 些 是 我 们 以 前 了 
解 不 多 的 ; 男 一 方面 ， 本 书 的 写作 风格 倾向 于 口语 化 ， 描 述 性 强 ， 因 此 在 翻译 过 程 中 既 要 准 
确 地 表达 其 技术 含义 ， 又 要 尽量 兼顾 其 表述 风格 ， 对 我 们 是 个 很 大 的 挑战 。 在 一 些 难以 兼顾 
的 场合 ， 我 们 采用 了 “ 译 者 注 ”的 方式 来 处 理 ， 即 在 行文 中 基本 遵照 原文 句子 的 结构 ， 但 会 
对 其 技术 含义 作 进一步 的 解释 。 另 外 ， 在 翻译 过 程 中 我 们 作 了 几 次 词汇 译 法 的 讨论 和 统一 ， 
在 尽量 采用 国内 有 关 计 算 机 术语 常用 译 法 的 同时 ， 也 对 极 少数 术语 作 了 我 们 认为 更 合适 的 处 
理 。 最 典型 的 情况 有 两 个 ， 一 是 有 关 高 速 缓存 访问 的 “miss”"， 以 前 常用 的 是 “失效 ”"， 我 们 
这 里 统一 译 成 “ 扑 空 ”; 男 一 个 是 在 讨论 共享 存储 系统 时 常用 的 “coherence” 和 “consisten- 
cy ， 目 前 国内 的 译 法 都 是 “一 致 性 ”， 但 在 本 书 中 它们 多 次 同时 出 现 ， 翻 译 起 来 有 明显 困 
难 ， 因 此 我 们 分 别 译 成 “一 致 性 ”和 “同一 性 ”。 还 有 一 个 特别 的 词汇 scalability (scale, 
scalable)。 这 是 目前 几乎 到 处 都 在 用 的 词 ， 基 本 含义 是 当 系 统 规模 扩大 时 其 典型 应 用 性 能 改 
善 程度 的 度量 ， 具 体 指 在 保证 性 能 的 条 件 下 ， 典 型 应 用 的 规模 随 计算 系统 的 规模 扩大 而 扩大 
的 程度 ， 隐 含有 两 种 因素 (系统 规模 ， 应 用 性 能 ) 按 比例 变化 的 含义 。 在 本 书 的 翻译 中 ,大 
多 数 场 合 采用 了 常用 的 “可 扩展 性 "， 但 在 需要 强调 其 按 比 例 变化 含义 的 地 方 ， 有 时 也 译 成 
了 “可 扩 放 人 性"。 最 后 ， 在 翻译 过 程 中 我 们 得 到 了 原著 作者 提供 的 勘误 表 ， 其 内 容 也 反映 在 
此 译本 中 。 

历经 近 三 年 的 时 间 ，《 Parallel Computer Architecture: A Hardware! Software Approach, Second 
Edition》 中 译本 终于 出 版 了 ， 这 其 中 还 有 不 少 人 参加 了 相关 的 工作 。 北 京 大 学 和 西安 交大 一 
些 同 学 参加 了 本 书 翻 详 的 一 些 前 期 工作 和 后 期 索 引 整 理 的 工作 ， 北 京 大 学 的 黄 蕊 在 文字 校对 
中 花 了 许多 时 间 ， 为 我 们 纠正 了 不 少 欠 妥 之 处 ， 在 此 我 们 一 并 表示 感谢 。 
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REWE, INRE- ELRES IRA, MEERA. RA Ke A E h 
题 ， 提 出 建议 。 为 此 ， 我 们 计划 建立 并 维护 一 个 相关 网 站 http: //xm. cs. pku. edu. cn/pea/ AL 
映 读者 的 意见 和 建议 ， 在 上 面 提供 相关 章节 和 有 段落 的 更 新 或 修改 信息 ， 以 弥补 现时 由 于 我 们 
的 水 平和 时 间 所 限 可 能 造成 的 疏 误 。 


译 者 
2002 年 1 月 
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并 行 计算 已 经 成 为 20 世纪 90 年 代 计算 技术 的 一 个 至 关 重 要 的 组 成 部 分 。 在 接 下 来 的 20 
年 里 ， 它 所 产生 的 影响 将 有 可 能 和 微 处 理 器 在 前 20 年 里 产生 的 影响 相当 。 事实 上 ， 这 两 种 
技术 有 着 深刻 的 联系 ， 高 度 集成 的 微 处 理 器 和 存储 器 芯片 的 发 展 使 得 多 处 理 器 系统 日 益 具 有 
更 大 的 吸引 力 。 多 处 理 器 系统 已 经 代表 着 几乎 所 有 计算 市 场 层面 的 高 性 能 端 部 分 ， 从 最 快 的 
超级 计算 机 、 最 大 的 数据 中 心 到 部 门 级 服务 器 ， 到 单个 的 台式 机 。 若 于 PC、 工 作 站 ， 甚 至 
多 处 理 器 系统 紧密 集成 起 来 ， 所 形成 的 机 群 正 作为 可 扩展 因特网 服务 器 出 现 。 过去， 计算 机 
厂家 在 它们 的 产品 系列 中 利用 不 同 的 技术 和 处 理 器 体系 结构 来 满足 不 断 增加 的 系统 性 能 要 
Ro 今天, 产品 中 处 处 用 到 的 都 是 相同 的 微 处 理 器 。 在 一 个 相当 大 的 范围 内 ， 性 能 提高 的 基 
本 手段 是 增加 处 理 器 的 个 数 。 这 种 性 能 扩展 的 经 济 效益 使 其 极 具 吸引 力 。 很 快 地 ， 若 干 处 理 
器 将 会 集 在 一 个 芯片 上 ， 多 处 理 器 系统 将 会 比 今天 更 加 流行 。 

尽管 并 行 计算 的 学 术 历 史 在 时 间 上 不 算 短 ， 在 内 容 上 也 很 丰富 , 但 从 根本 上 改变 这 一 学 
科 现 状 的 是 和 商用 技术 的 紧密 结合 。 对 新 颖 体系 结构 和 特殊 技术 的 强调 已 经 让 位 于 定量 的 分 
析 ， 让 位 于 在 相同 处 理 节点 上 实现 不 同 的 程序 设计 模型 ， 让 位 于 仔细 的 工程 性 权衡 。 我 们 写 
此 书 的 目的 就 是 让 设计 人 员 掌 握 这 一 类 新 型 的 多 处 理 器 系统 的 设计 ,从 中 小 规模 的 并 行 台式 
计算 机 到 高 度 并 行 的 信息 服务 器 和 超级 计算 机 , 使 他 们 理解 根本 的 体系 结构 和 软件 问题 ， 以 
及 在 设计 中 进行 权衡 的 相关 技术 。 同 时 , 我 们 也 希望 为 软件 系统 和 应 用 的 设计 人 员 展 示 体 系 
结构 的 可 能 发 展 方向 ,那些 将 决定 硬件 设计 特定 路 线 的 动力 , 以 及 那些 发 展 对 面向 性 能 程序 
设计 上 的 影响 。 

近年 来 ， 在 并 行 计算 机 体系 结构 领域 最 令 人 激动 的 进展 是 传统 上 完全 不 同 的 各 种 做 法 的 
融合 ， 把 共享 存储 、 消 息 传递 、 数 据 并 行 和 数据 驱动 等 的 计算 都 融合 在 一 种 公共 的 机 器 结构 
上 。 这 种 融合 的 原因 部 分 在 于 共同 的 技术 和 经 济 力量 的 驱动 ， 部 分 在 于 对 并 行 软件 的 更 好 理 
解 。 它 使 得 我 们 能 开发 一 种 公共 的 框架 ， 在 其 中 来 理解 和 评估 体系 结构 方面 的 权衡 ， 而 不 是 
将 注意 力 集中 在 各 种 奇特 的 设计 和 分 类 法 上 。 再 者 ， 流 行 的 并 行程 序 设计 模型 在 许多 机 器 类 
型 上 都 适用 ， 这 使 得 并 行程 序 设计 更 加 可 移植 ， 从 而 使 我 们 得 以 发 展 有 意义 的 标准 测试 和 评 
佑 方法 。 这 种 领域 的 成 熟 使 得 硬件 和 软件 相互 作用 的 定量 和 定性 的 分 析 研究 成 为 可 能 。 事 实 
上 ， 领 域 的 发 展 本 身 也 要 求 我 们 这 样 做 。 针 对 一 组 对 所 有 并 行 体系 结构 都 很 关键 目 涉及 现代 
系统 设计 整个 范围 的 基本 问题 一 一 数据 访问 、 通 信 性 能 、 协 同 工 作 、 有 用 语义 的 正确 实现 
等 。 本 书 给 出 了 旨 在 解决 它们 的 硬件 和 软件 技术 , 并 考察 了 各 种 技术 是 如 何 相互 作用 的 。 仔 
细 选 择 的 、 深 入 的 案例 分 析 提供 了 一 种 关于 一 般 性 原理 的 具体 说 明 , 展示 了 不 同 机 制 间 的 具 
体 相 互 作 用 。 

写 这 本 书 的 动机 之 一 是 由 于 缺乏 一 种 足够 好 的 教材 ， 供 我 们 在 伯克利 、 普 林 斯 顿 、 斯 坦 
福 等 校 教学 使 用 。 有 些 教材 以 一 种 泛泛 的 方式 将 材料 呈现 出 来 , 综述 各 种 体系 结构 和 研究 成 
果 ， 但 没有 深入 分 析 它 们 ， 也 没有 提供 一 种 现代 工程 的 框架 。 另 外 一 些 教材 集中 在 专门 的 项 
HE, 但 没有 介绍 在 各 种 不 同 设计 方案 中 体现 的 基本 原理 。 在 这 个 领域 的 研究 报告 提供 了 大 
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量 想法 和 试验 数据 , 但 没 能 够 提炼 到 一 种 有 机 构成 的 境界 。 在 技术 和 体系 结构 融合 的 背景 
下 ， 通 过 将 注意 力 集中 在 最 重要 的 问题 上 , 而 不 是 集中 在 将 我 们 带 到 如 今 的 丰富 多 彩 的 历史 
中 , 我 们 希望 能 够 提供 一 种 关于 这 个 激动 人 心 且 迅速 变化 领域 的 更 深刻 、 更 清晰 的 理解 。 这 
是 一 个 协作 努力 的 结果 ， 它 反映 在 本 书 封面 上 我 们 的 名 字 次 序 上 。 


本 书 的 读者 


本 书 的 内 容 对 多 方面 的 读者 都 是 很 重要 的 ， 包 括 在 计算 机 体系 结构 、 系 统 软件 和 应 用 领 
域 工 作 的 研究 人 员 、 学 生 和 工程 技术 人 员 。 鉴 于 多 处 理 顺 系统 日 益 提 高 的 重要 性 ,这 些 内 容 
和 计算 机 系统 结构 设计 师 的 相关 性 是 明显 的 。 芯 片 设计 者 必须 理解 什么 能 成 为 一 个 多 处 理 器 
系统 的 有 效 基 本 模块 。 支配 总 线 和 存储 系统 设计 的 往往 也 是 一 些 和 并 行 性 相关 的 问题 。 LO 
系统 的 设计 必须 考虑 具有 可 扩展 性 的 高 速 网 络 、 机 群 的 构成 ， 以 及 那些 被 多 个 处 理 器 共享 的 
设备 。 

系统 软件 一 包括 操作 系统 、 编 译 器 、 程 序 设计 语言 、 运 行 系统 、 性 能 调试 工具 一 一 需 
要 考虑 新 的 情况 , 也 将 在 并 行 计 算 机 中 获得 新 的 发 展 机 会 。 这 样 ， 理 解体 系 结构 的 演化 以 及 
那些 导致 这 种 演化 的 力量 是 很 重要 的 。 在 编译 器 和 程序 设计 语言 的 研究 与 开发 方面 , 针对 并 
行 计算 的 工作 已 经 有 相当 一 段 时 间 。 然而 , 体系 结构 和 商用 技术 新 的 融合 也 许 意味 着 编译 和 
语言 问题 应 该 得 到 重新 审视 , 需要 在 一 个 更 一 般 的 背景 下 讨论 。 硬件 、 操 作 系 统 和 用 户 程 序 
之 间 的 传统 边界 也 正在 并 行 计算 的 意义 下 变化 , 为 了 更 好 的 性 能 , 程序 经 常 要 有 对 资源 更 直 
接 的 控制 。 

应 用 领域 , 诸如 计算 机 图 形 学 和 多 媒体 、 科 学 计算 、 计 算 机 辅助 设计 、 数 据 库 、 决 策 支 
持 和 事务 处 理 , 都 可 能 出 现 一 种 巨大 的 转变 。 这 种 转变 将 是 廉价 的 并 行 计算 能 够 提供 强大 的 
计算 能 力 的 结果 。 然而, 开发 健壮 的 并 行 应 用 , 在 当前 和 未 来 多 处 理 器 系统 上 都 能 表现 出 好 
的 加 速 比 ,是 一 个 挑战 性 任务 , 而 且 它 要 求 对 系统 相互 作用 和 体系 结构 发 展 方向 有 深刻 的 理 
解 。 本 书 试图 提供 这 样 一 种 理解 , 促进 应 用 领域 和 计算 机 系统 结构 之 间 的 交流 ,从 而 使 我 们 
能 设计 出 更 好 的 体系 结构 


本 书 的 组 织 


本 书 共有 12 章 。 第 1 章 给 出 了 并 行 体系 结构 的 一 个 概 狐 。 根 据 当 前 在 工艺 、 体 系 结构 和 
应 用 方面 的 趋势 , 它 首 先 讨 论 了 为 什么 并 行 计算 机 系统 越 来 越 重要 。 它 简要 介绍 了 那些 影响 
这 个 领域 的 各 种 多 处 理 器 体系 结构 (共享 存储 、 消 息 传递 、 数 据 并 行 、 数 据 流 和 脉动 阵 
列 ), 展现 了 工艺 和 体系 结构 的 发 展 趋 势 是 如 何 导致 了 一 种 领域 的 共识 , 即 并 行 计算 机 系统 
应 是 由 一 种 通信 体系 结构 互 连 起 来 的 一 组 通用 处 理 节 点 。 这 种 融合 并 不 意味 着 创新 的 结束 ， 
恰恰 相反 , 我 们 将 看 到 一 个 迅速 进展 的 时 期 。 设 计 人 员 开始 有 了 共同 语言 ,相互 交流 ， 而 不 
是 路 遇 而 无 视 之 。 为 了 理解 多 种 通信 体系 结构 和 实现 , 第 1 章 建立 了 一 种 层次 式 框架 (包括 
程序 设计 模型 、 通 信 抽 象 、 用 户 / 系 统 界面 和 硬件 /软件 界面 )。 从 这 个 框架 中 看 训 个 领域 的 合 
流 ， 第 1 章 的 最 后 部 分 展开 了 那些 必须 在 各 层 界面 中 都 要 考虑 的 根本 设计 要 癌 : 命名 、 定 
序 、 复 制 和 通信 性 能 (开销 、 时 延 和 带宽 )。 这 些 要 点 形成 了 一 种 贯穿 本 书 其 余部 分 的 基本 
主线 。 第 1 章 最 后 给 出 了 若 于 历史 文献 。 

第 2 章 介 绍 了 并 行程 序 设计 。 描 述 了 一 组 具有 启发 性 的 多 处 理 器 系统 应 用 的 例子 ， 在 本 
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书 的 其 他 部 分 也 将 用 到 它们 。 第 2 章 展 现 了 基于 各 种 主要 程序 设计 模型 的 并 行程 序 , APE 
有 系统 必须 支持 的 基本 成 分 。 我 们 用 案例 分 析 的 方法 解释 了 在 并 行程 序 设计 中 进行 分 解 、 分 
配 、 协 作 和 映射 的 步骤 , 且 指 出 了 这 些 步 又 中 关键 的 性 能 目标 。 

第 3 章 给 出 了 好 的 并 行程 序 设计 人 员 用 于 从 底层 体系 结构 中 改进 性 能 的 基本 技术 。 它 提 
供 了 一 种 对 硬件 /软件 权衡 的 理解 ， 解释 了 什么 样 的 性 能 特点 能 通过 体系 结构 方法 来 加 以 考 
FE, 什么 样 的 性 能 特点 必须 或 者 由 编译 器 或 者 由 程序 设计 人 员 才 能 解决 。 和 串 行 计算 的 一 个 
类 比 是 ， 体 系 结构 不 能 将 一 个 O(n ) 的 算法 变 成 一 个 0(nlogn) 算 法 , 但 它 能 够 改善 对 于 那 
些 公用 存储 访问 模式 的 平均 访问 时 间 。 第 3 章 清楚 地 表明 了 那些 存在 于 各 种 程序 设计 模型 的 
核心 算法 和 程序 设计 的 挑战 , 也 指出 了 和 特定 模型 相关 的 若干 问题 。 这 一 部 分 的 内 容 表明 了 
体系 结构 的 进步 除了 提高 性 能 外 ， 还 可 能 减轻 并 行程 序 设计 的 负担 。 程 序 设计 技术 在 任何 关 
于 设计 权衡 的 量化 评估 中 都 是 一 个 关键 的 因素 。 在 第 3 章 的 最 后 ， 把 这 些 编程 技术 应 用 到 典 
型 应 用 程序 中 ， 给 出 了 相应 的 高 性 能 程序 。 

第 4 章 讨论 了 在 进行 设计 权衡 时 采用 工作 负载 驱动 评估 方法 的 难题 。 即 使 对 现代 单 处 理 
器 来 说 ， 体 系 结构 的 评估 也 是 很 困难 的 , 通常 我 们 只 是 针对 一 组 固定 的 程序 , 在 一 定 范围 内 
考虑 设计 变化 的 影响 , 例如 流水 线 或 存储 系统 的 组 织 等 。 在 并 行 体系 结构 中 , 我 们 能 够 考虑 
变化 的 空间 自由 度 要 大 得 多 。 不 同 设计 侧面 之 间 的 相互 作用 更 加 深刻 , 硬件 和 软件 之 间 的 相 
互 作用 更 加 重要 ， 也 在 更 大 的 范围 里 有 影响 。 我 们 通常 对 机 器 和 程序 规模 变化 时 的 性 能 感 兴 
B, 而 改变 其 一 往往 都 要 影响 另 一 方面 。 如 果 我 们 的 评估 方法 不 合适 , 就 很 容易 导致 片面 的 
甚至 是 错误 的 结论 。 第 4 章 讨论 应 用 和 体系 结构 的 有 关 参 数 是 如 何 相互 作用 的 ,它们 应 该 怎 
样 一 起 改变 , 同时 还 给 出 了 将 用 于 其 后 各 章 的 基准 测试 程序 。 它 提供 了 方法 论 指南 ， 通 过 模 
拟 来 评估 真实 的 机 器 和 体系 结构 的 思想 。 附 录 给 出 了 若干 关于 并 行 性 能 基准 测试 的 参考 
材料 。 

第 5、6 章 是 关于 基于 总 线 的 对 称 共享 存储 多 处 理 器 (SMP) 的 一 个 完整 介绍 。 除 台式 机 
外 , 这 类 系统 几乎 是 所 有 现代 商用 机 器 的 基础 。 第 5 章 给 出 了 一 种 关于 “ 侦 听 ”总 线 协议 的 
高 层 逻 辑 设计 。 这 种 协议 保证 了 在 多 个 高 速 缓存 之 间 自 动 复制 数据 的 一 致 性 。 第 5 章 还 讨论 
了 一 个 重要 问题 ， 即 存储 一 致 性 问题 。 这 个 问题 使 我 们 开始 理解 对 算法 设计 人 员 来 说 共享 存 
储 到 底 意 味 着 什么 。 这 一 章 讨论 了 多 种 设计 选项 ,以 及 机 器 该 如 何 针对 在 用 户 程序 和 操作 系 
统 中 的 典型 存储 访问 模式 进行 优化 。 除了 对 SMP 的 概念 性 理解 外 , 第 5 章 还 反映 了 并 行 软件 
牵涉 的 问题 , 包括 应 用 软件 和 同步 支持 。 

第 6 章 进一步 考察 了 协议 的 要 点 以 及 基于 总 线 的 多 处 理 器 系统 的 物理 设计 。 它 深入 到 用 
最 新 总 线 的 多 级 高 速 缓存 支持 现代 微 处 理 器 中 出 现 的 工程 设计 问题 ， 这 些 高 速 缓存 是 高 度 流 
水 线 的 。 此 外 ， 还 讨论 了 第 5 章 提 出 的 高 层 协议 是 如 何在 这 些 系统 中 实现 并 扩充 的 。 第 6 章 
给 出 了 在 这 一 领域 中 有 关 设计 要 点 的 一 个 相当 完整 的 介绍 。 其 内 容 的 重要 性 不 仅 由 于 这 些小 
规模 的 设计 形成 了 大 规模 设计 的 基石 ， 还 由 于 这 里 的 许多 概念 在 本 书后 面 也 会 出 现 ， 只 不 过 
是 在 一 个 更 太 规 模 的 意义 上 ， 带 有 更 广泛 的 一 些 考虑 而 已 。 本 章 还 包含 了 关于 SCI Challenge 
和 Sun Enterprise 这 两 种 服务 器 的 独立 案例 分 析 。 

第 7~ 10 章 讨论 的 是 可 扩展 多 处 理 器 体系 结构 。 在 当前 , 它们 代表 的 是 高 端 计算 。 随 着 
技术 的 进步 , 它们 也 代表 着 未 来 中 等 水 平 的 计算 设施 。 

第 7 章 展 现 了 一 类 机 器 的 硬件 组 织 和 体系 结构 ,它们 能 够 扩展 到 很 大 的 配置 。 关 键 的 概 
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念 是 网 络 事务 , 其 重要 性 类 似 于 第 5、6 章 介绍 小 型 设计 中 的 总 线 事务 ， 都 是 具有 根本 意义 
的 。 然而 , 在 可 扩展 机 器 里 , 全 局 的 仲裁 和 全 局 可 见 的 信息 不 见 了 , 而 且 可 以 有 大 量 的 网 络 
事务 等 完成 。 第 7 章 讨 论 了 程序 设计 模型 是 如 何 通过 网 络 事务 的 方法 实现 的 , 按照 网 络 事务 
由 直接 硬件 解释 的 程度 , 研究 了 一 系列 设计 要 点 , 包括 对 nCUBE/2、Thinking Machine CM-5、 
Intel Paragon, Meiko CS-2、CRAY T3D 和 CRAY T3E 等 系统 的 案例 分 析 。 结合 Myrinet NOW 和 
DEC Memory Channel 的 案例 分 析 , 本 章 在 这 个 框架 下 还 考察 了 现代 机 群 。 此 外 ， 对 所 有 这 些 
设计 还 进行 了 一 个 性 能 比较 。 

第 8 章 将 前 面 几 章 的 结果 综合 起 来 , 展现 了 如 何在 可 扩展 系统 上 通过 自动 硬件 复制 和 高 
速 缓存 一 致 性 , 来 实现 一 个 共享 的 物理 地 址 空间 。 这 种 样式 的 机 器 在 业界 日 益 流行 。 第 8 章 
全 面 研 究 了 关于 基于 目录 的 高 速 缓存 一 致 性 协议 和 硬件 设计 备 选 方案 , 包括 对 SCI Origin2000 
和 Sequent NUMA-Q 的 案例 分 析 。 它 考察 了 在 这 些 机 器 上 工作 负载 的 行为 , 进一步 讨论 了 程序 
设计 的 内 含 和 同步 等 问题 。 

第 9 章 考 察 了 针对 共享 地 址 空间 系统 的 一 系列 备 选 方案 , 它们 扩展 了 硬件 /软件 权衡 的 
边界 以 获得 更 高 的 性 能 , 降低 硬件 的 成 本 和 复杂 性 ,或 两 者 兼 得 。 它 讨论 了 放松 存储 同一 性 
RE, 由 硬件 在 主 存 中 一 致 复制 数据 的 唯 有 高 速 缓存 的 存储 器 体系 结构 ,以 及 基于 软件 的 一 
致 性 复制 。 在 写本 书 的 时 候 , 这 里 的 许多 内 容 正在 经 历 一 个 从 学 术 研 究 到 商用 产品 的 过 渡 阶 
B, 它们 的 作用 将 随 着 机 群 技术 的 出 现 进一步 明确 。 它 揭示 了 若干 在 本 书 其 他 部 分 没有 涉及 
但 十 分 重要 的 设计 概念 。 

第 10 章 讨论 可 扩展 的 高 性 能 通信 网 络 的 设计 。 通信 网络 是 前 面 各 章 讨论 的 所 有 可 扩展 
机 器 的 基础 ,推迟 到 第 10 章 来 讲 , 是 因为 我 们 首先 需要 对 驱动 这 些 网 络 的 处 理 器 、 存 储 系统 
和 网 络 接口 的 设计 有 一 个 完整 的 了 解 。 第 10 章 建立 了 一 个 通用 的 框架 ， 来 理解 网 络 中 何 处 
会 出 现 硬件 成 本 、 传 送 延迟 和 带宽 的 限制 等 问题 。 针 对 这 些 性 能 价格 比 指标 ， 它 考察 了 各 种 
路 由 技术 、 交 换 机 设计 和 互 连 拓扑 之 间 的 权衡 。 这 些 权衡 道 过 最 近 的 一 些 设计 的 案例 分 析 得 
到 了 具体 体现 。 

基于 有 前 面 10 FRERE, 第 11 章 考 察 了 一 组 交叉 问题 ， 它 们 涉及 如 何 包容 多 处 理 
器 系统 中 出 现 的 显著 的 时 延 而 不 至 于 影响 总 体 性 能 。 这 些 技 术 有 两 个 基本 的 方面 ， 让 有 用 的 
工作 覆盖 时 延 ， 让 传送 的 数据 流水 传送 。 这 些 技 术 的 最 简单 的 形式 在 本 质 上 即 批量 传送 ， 大 
量规 则 的 数据 序列 流水 传送 ， 而 且 通 常 可 以 从 处 理 器 下 载 。 其 他 的 技术 试图 隐藏 在 多 个 独立 
的 装载 和 存储 操作 中 发 生 的 时 延 。 写 时 延 利用 弱 同 一 性 模型 的 特点 来 屏蔽 ， 这 种 模型 的 基本 
出 发 点 是 认识 到 程序 操作 的 序 关系 只 是 由 程序 中 对 共享 存储 的 一 个 小 的 访问 集合 来 表达 的 。 
读 时 延 由 隐 式 或 显 式 的 数据 预 取 来 屏 珊 ， 在 现代 动态 调度 的 处 理 器 中 ， 也 可 以 通过 前 脆 技 术 
来 屏蔽 。 这 其 中 有 些 技术 还 被 扩展 来 隐藏 同步 时 延 。 第 11 章 对 这 些 不 同 做 法 提供 了 一 个 透 
彻 的 分 析 ， 同 时 还 考虑 了 对 编译 技术 的 影 吃 ， 以 及 关于 有 效 性 的 定量 评估 。 

最 后 , 第 12 章 考察 了 那些 有 可 能 决定 这 个 领域 未 来 的 技术 、 体 系 结 构 、 软 件 系统 和 应 
用 方面 的 发 展 趋势 。 从 硬件 /软件 的 观点 ， 阐 述 了 这 个 领域 将 如 何 演化 ， 会 遇 到 什么 问题 以 
及 潜在 的 突破 。 


本 书 的 使 用 
本 书 的 这 种 组 织 方式 是 为 了 满足 多 方面 读者 的 需要 。 它 可 以 作为 研究 生 教材 、 工 程 师 的 
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专业 参考 书 , 以 及 一 般 的 参考 读物 , 对 那些 其 工作 日 益 和 并 行 计算 有 关 的 人 们 都 有 帮助 。 如 
果 深 入 到 各 个 方面 ,本 书 所 包含 的 材料 足以 用 于 一 年 的 并 行 计算 内 容 的 学 习 ， 从 各 种 机 器 的 
设计 到 并 行程 序 设 计 的 经 验 。 然 而， 本 书 也 能 分 成 几 部 分 来 使 用 。 

第 1 章 引 在 提供 一 个 独立 的 关于 并 行 计算 机 系统 结构 的 理解 ， 作 为 研究 生 或 者 大 学 高 年 
级 普通 计算 机 系统 结构 课程 的 一 部 分 是 很 合适 的 。 对 那些 需要 了 解 并 行 计 算 的 术语 和 基本 概 
念 ， 从 而 理解 这 种 技术 将 如 何 影 响 他 们 工作 的 工程 管理 人 员 或 公司 负责 人 ， 这 一 章 也 是 有 价 
值 的 。 它 清楚 地 告诉 你 当 对 于 并 行 计算 的 兴趣 和 需要 增加 时 该 怎样 进一步 地 学 习 。 第 1 章 还 
可 以 作为 编译 器 、 数 据 库 、 操 作 系 统 或 程序 设计 课程 在 并 行 体 系 结构 方面 的 基本 背景 。 第 1 
章 和 第 12 章 一 起 构成 了 一 个 关于 并 行 计算 机 体系 结构 领域 的 “外 层 框架 ”。 

面向 机 器 组 织 和 设计 的 并 行 体系 结构 课程 , 除了 第 1 章 的 概述 外 ,可 由 第 5、6、7、8、 
10 章 构成 ， 它 们 是 本 书 的 核心 。 然 而 ， 和 传统 课程 中 的 内 容 相 比 , 这 些 章节 在 设计 方面 要 深 
人 得 多 。 这 是 因为 我 们 所 用 的 材料 有 些 以 前 没有 发 表 过 ， 而 且 没有 以 一 种 面向 设计 的 框架 来 
HR, 这 些 材料 提供 了 关于 设计 权衡 的 详细 的 定量 性 讨论 。 对 于 高 速 缓存 一 致 性 系统 的 正确 
性 问题 , 第 5、6 章 提 出 了 关键 的 要 求 , 展示 了 如 何在 日 益 复 杂 的 设计 中 高 性 能 地 满足 它们 。 
第 7 章 分 析 了 可 扩展 机 器 ,所 采用 的 方式 和 通常 商业 做 法 和 发 表 的 研究 成 果 都 不 一 样 , 并且 
在 这 个 框架 中 讨论 了 新 兴 的 高 性 能 机 群 。 第 8 章 描述 主要 的 商用 分 布 存储 计算 机 中 的 高 速 组 
存 一 致 性 协议 ， 所 采用 的 框架 和 细节 层 度 也 是 在 其 他 书 中 没有 见 到 的 。 第 10 章 是 关于 网 络 
设计 的 一 个 简要 而 完整 的 讨论 。 这 几 章 中 的 讨论 足够 深入 ,即使 是 有 一 定 素养 的 系统 设计 人 
员 , 也 能 够 从 中 获得 一 个 新 的 理解 和 一 个 清晰 的 设计 框架 。 贯 穿 这 几 章 (还 有 第 9 章 的 开始 
部 分 ) 的 , 我 们 还 有 了 关于 存储 同一 性 模型 的 一 个 严谨 且 实 用 的 讨论 ， 例 如 讨论 同步 操作 的 
实现 。 第 11 章 是 关于 日 益 重 要 的 时 延 包容 问题 的 , 它 可 以 作为 这 些 关 于 机 器 组 织 和 设计 章节 
的 补充 。 

这 本 教材 为 教学 提供 了 令 人 兴奋 的 机 会 ， 在 核心 材料 有 机 结合 起 来 的 基础 上 ， 从 多 个 方 
问 来 加 强 基本 并 行 体系 结构 课程 都 是 可 能 的 。 首先 , 第 2、3 章 透 彻 的 处 理 使 我 们 跨越 了 硬件 
/软件 的 边界 。 这 就 使 学 习 体 系 结构 的 学 生 对 设计 决策 可 能 带 来 的 影响 有 更 深刻 的 理解 ,以 及 
了 解 并 行程 序 设计 到 底 是 什么 意思 。 这 也 使 课程 的 吸引 力 扩 大 到 包括 操作 系统 、 语 言 和 应 用 
在 内 的 学 生 ， 他 们 可 以 从 软件 的 观点 来 看 体系 结构 的 问题 。 第 二 个 使 得 基本 课程 能 得 以 加 强 
的 方向 是 硬件 和 软件 设计 决策 的 定量 化 性 能 分 析 。 基 于 对 第 2、3 章 的 理解 , 第 4 章 、 附 录 和 
后 面 儿 章 中 的 “并 行 软件 牵涉 的 问题 ”各 小 节 将 这 一 线索 自始至终 贯穿 于 核心 机 器 设计 材 
料 。 除 了 提供 性 能 评价 的 方法 论 指导 外 , 它们 还 提供 了 一 个 关键 的 视角 ,用 以 看 待 发 表 的 结 
Ro 第 三 个 方向 是 强调 硬件 /软件 的 权衡 。 这 是 由 定量 化 分 析 所 形成 的 一 个 基础 性 问题 , 在 各 
章 的 同步 和 程序 设计 小 节 中 得 到 了 进一步 论述 。 在 第 9 章 , 这 一 问题 更 加 明显 , 其 中 我 们 仔 
细 研 究 了 在 提供 一 致 的 共享 地 址 空间 时 责任 的 划分 。 在 第 11 章 所 讨论 的 容许 时 延 问题 也 是 
关于 这 一 方面 的 。 每 一 个 方向 都 代表 着 一 群 专业 人 员 , 他 们 有 日 益 增 加 的 需要 , 来 更 深刻 地 
理解 如 何 对 待 并 行 体系 结构 。 

本 书 也 能 作为 需要 实际 操作 的 并 行程 序 设计 课程 的 主要 教材 。 基 于 第 1 章 的 一 般 性 介 
绍 , 第 2、3 章 给 出 了 一 个 坚实 的 框架 , 来 理解 并 行程 序 的 行为 。 通 过 第 4 章 的 工作 负载 分 析 
以 及 第 5、7、8、9 章 的 “并 行 软件 牵涉 的 问题 ”各 小 节 , 这 一 点 进一步 得 到 加 强 。 这 一 部 分 
的 材料 应 该 由 用 于 课程 的 与 并 行程 序 设计 环境 相关 的 参考 书 来 补充 , 例如 MPI、 并 行 线程 或 
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者 HPF。 第 6~8 章 的 案例 分 析 提 供 了 一 个 关于 机 器 的 彻底 的 讨论 ， 学 生 很 可 能 使 用 。 第 11 
章 提 供 了 一 个 方便 的 框架 , 来 考察 在 并 行程 序 设计 中 解决 通信 任务 的 最 佳 途 径 。 

我 们 相信 并 行 计 算 机 体系 结构 在 研究 和 实践 方面 都 是 一 个 令 人 兴奋 的 核心 领域 , 它 的 重 
要 性 也 会 与 日 俱 增 。 它 已 经 达到 这 样 的 成 熟 程度 ,编写 一 本 严肃 的 基于 设计 和 工程 原理 的 教 
科 书 是 很 有 意义 的 。 基 于 多 年 积累 的 丰富 多 样 的 思想 和 方法 ,这 个 领域 正 出 现 一 种 急剧 融合 
的 趋势 。 现 在 已 经 到 了 超越 浏览 各 种 机 器 的 设计 , 进入 理解 基本 设计 原理 的 时 候 了 。 我 们 亲 
身 经 历 了 这 个 领域 的 融合 过 程 ; 这 本 书 来 自我 们 的 经 验 , 希望 它 传达 我 们 对 于 这 个 巨变 和 成 
长 中 的 领域 所 感受 到 的 某 些 兴 奋 之 情 。 由 于 并 行 体系 结构 变化 是 如 此 迅速 , 案例 分 析 、 性 能 
分 析 和 工作 负载 需要 定期 地 更 新 。 除 了 辅助 教学 材料 外 , 这 本 书 的 Web 站 点 还 将 提供 有 关 及 
时 更 新 的 材料 。 我 们 也 希望 你 能 够 通过 课程 和 商用 开发 的 高 质量 产品 ,对 这 个 站 点 做 出 
贡献 。 ” 

我 们 也 欢迎 读者 指出 任何 错误 或 疏漏 , 以 便 在 以 后 印刷 时 改正 它们 。 为 此 ， 请 发 电子 邮 
件 到 pcabugs@mkp.com。 同 时, 也 请 检查 www.mkp.com/pca 上 的 勘误 表 , 看 有 关 的 错误 是 否 已 
经 公布 和 更 正 。 
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过 去 十 多 年 来 ， 我 们 欣喜 地 见证 了 计算 机 系统 性 能 和 容量 的 爆炸 性 增长 。 促 成 这 种 巨大 
成 功 的 关键 是 底层 VLSI 技术 的 迅猛 发 展 ， 它 使 得 时 钟 频率 不 断 提 升 ， 单 一 芯片 中 集成 的 元 
器 件数 量 越 来 越 多 。 而 成 功 的 历程 则 是 围绕 计算 机 体系 结构 展开 的 ， 它 将 半导体 工艺 技术 的 
原始 潜能 转化 为 计算 机 系统 更 高 的 性 能 和 更 大 的 容量 。 并 行 性 的 开发 是 其 中 的 主要 角色 。 较 
多 的 资源 意味 着 可 以 按 并 行 方式 来 同时 执行 更 多 的 操作 。 并 行 计 算 机 体系 结构 所 研究 的 是 怎 
样 组 织 这 些 资 源 ， 才 能 使 它们 更 好 地 一 起 工作 。 各 种 类 型 的 计算 机 都 是 通过 更 加 有 效 地 利用 
并 行 性 ， 来 从 现 有 的 工艺 技术 中 获取 高 的 性 能 ， 并 且 开 发 并 行 性 的 层次 也 在 不 断 提升 。 另 一 
关键 的 角色 是 存储 系统 。 数 据 处 理 的 速度 越 来 越 快 ， 它 们 必须 存放 于 系统 的 某 处 。 因 而 ， 并 
行 处 理 的 研究 是 与 数据 局 部 性 和 通信 紧密 相连 的 。 在 计算 机 系统 不 同 层次 的 设计 中 ， 设 计 人 
员 必 须 把 握 这 些 不 断 变 化 的 关系 ， 才 能 在 不 同时 期 的 工艺 技术 和 成 本 的 约束 下 获得 最 高 性 能 
和 最 佳 的 可 编程 性 。 

并 行 性 的 概念 适用 于 设计 的 各 个 层次 。 在 本 质 上 ， 它 与 所 有 其 他 的 体系 结构 概念 之 间 都 
存在 相互 影响 ， 且 对 底层 工艺 技术 有 着 独特 的 依赖 性 ， 因 而 从 并 行 性 的 角度 来 理解 计算 机 体 
系 结构 很 有 意义 。 特 别 是 ， 在 并 行 计 算 机 系统 设计 的 许多 层次 ， 都 需要 考虑 局 部 性 、 带 宽 、 
时 延 、 同 步 等 基本 问题 。 于 是 ， 就 必须 针对 实际 应 用 工作 负载 ， 从 多 方面 进行 权衡 。 

同一 般 设 计 问题 一 样 ， 并 行 计算 机 体系 结构 也 由 一 些 功 能 单元 及 其 形态 来 刻画 。 如 下 的 
定义 是 一 个 很 好 的 概括 (Almasi and Gottlieb 1989) ; 

并 行 计算 机 是 “一 组 相互 通信 、 相 互 协作 以 快速 求解 大 型 问题 的 处 理 单元 ”。 

然而 ， 这 一 简单 定义 却 引发 了 许多 问题 。 我 们 所 说 的 一 组 单元 到 底 有 多 少 ? 每 个 处 理 单 
元 的 性 能 有 多 高 ? 处 理 单元 数 是 否 能 够 以 某 种 简单 方式 不 断 增 大 ? 这 些 单元 相互 之 间 如 何 通 
信和 协作 ? 处 理 器 之 间 如 何 传送 数据 ， 提 供 哪 种 类 型 的 互 连 方式 ， 以 及 可 以 使 用 哪些 操作 来 
确定 不 同 处 理 器 完成 动作 的 序列 ? 对 程序 员 而 言 ， 什 么 是 硬件 和 软件 提供 的 基本 抽象 ? 最 
后 ， 上 述 这 些 因素 如 何 影 响 性 能 ? 在 对 这 些 问 题 的 回答 中 ， 我 们 将 看 到 ， 从 满足 现代 计算 的 
需求 而 言 ， 无 论 是 少量 处 理 单元 的 系统 ， 还 是 中 等 或 者 大 量 处 理 单元 的 系统 都 有 各 自重 要 的 
作用 。 因 而 ， 完 整地 理解 不 同 规模 (从 小 规模 到 大 规模 ) 的 并 行 机 器 是 非常 重要 的 。 一 些 设 
计 原 则 适用 于 所 有 规模 的 并 行 性 ; 另 一 些 原则 却 与 特定 约束 ， 例 如 所 有 单元 集中 在 芯片 内 、 
机 箱 内 或 超大 型 机 器 ， 有 着 密切 关系 。 可 以 有 把 握 地 说 并 行 计算 机 展示 了 一 个 丰富 且 多 样 的 
设计 空间 。 这 种 多 样 性 使 得 这 一 领域 令 人 兴奋 ,但 同时 也 意味 着 发 展 一 个 适用 于 理解 多 种 设 
计 选 择 的 简明 框架 是 非常 重要 的 。 

并 行 体系 结构 本 身 变 化 很 快 。 历 史上 ， 并 行 机 器 通常 表现 为 : 在 给 定 的 工艺 技术 下 ， 系 
统 设计 人 员 为 追求 最 高 性 能 而 提出 的 创新 性 组 织 结 构 ， 它 们 通常 依赖 于 特定 编程 模型 。 在 许 
多 情况 下 ， 一 些 标新立异 的 机 器 组 织 方 法 被 认为 是 合理 的 ， 其 理由 是 半导体 工艺 技术 的 发 展 
就 快 到 头 了 。 事 实说 明 ， 这 些 大胆 的 预测 太 言 过 其 实 了 ， 例 如 逻辑 单元 密度 、 交 换 机 速度 一 
直 在 不 断 改 进 并 且 可 以 在 更 低 的 级 别 上 发 据 更 加 适度 的 并 行 性 ， 这 些 技术 都 保证 了 处 理 器 性 
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能 持续 不 断 地 得 以 改进 。 尽 管 如 此 ， 实 际 应 用 对 计算 性 能 的 需求 增长 还 是 超出 了 单个 处 理 器 
可 以 提供 的 性 能 范围 ， 因 而 多 处 理 器 系统 在 主流 计算 中 占据 着 越 来 越 重要 的 位 置 。 一 个 重要 
的 变化 是 ， 这 些 并 行 计 算 机 的 体系 结构 不 再 那么 追求 标新立异 ， 即 使 当今 的 大 规模 并 行 机 器 
也 是 利用 工作 站 和 个 人 计算 机 所 用 的 基本 部 件 建造 而 成 的 。 它 们 遵从 相同 的 工程 原理 和 性 能 
价格 比 权衡 。 此 外 ， 为 了 获得 最 大 可 能 的 性 能 ， 并 行 机 器 必须 力求 充分 发 据 它 的 每 个 组 成 部 
件 的 全 部 潜在 的 性 能 。 因 而 ,理解 现代 并 行 计算 机 体系 结构 就 必然 包括 对 工程 设计 权衡 的 深 
层次 把 握 ， 而 并 非 仅 仅 是 根据 描述 机 器 结构 的 分 类 性 术语 。 

并 行 体系 结构 将 在 信息 处 理 中 发 挥 越 来 越 核心 的 作用 。 这 个 论点 并 非 过 分 基于 单个 处 理 
器 性 能 将 很 快 到 头 这 一 假设 ， 而 更 主要 是 基于 对 今后 系统 设计 的 考虑 ， 即 随 着 芯片 密度 的 增 
长 ， 在 一 个 芯片 上 集成 多 处 理 器 将 越 来 越 具有 吸引 力 。 本 书 的 目的 就 是 阐明 在 多 处 理 器 层次 
的 计算 机 设计 的 原理 。 本 书 将 讨论 有 关 各 种 系统 部 件 〈 处 理 器 、 存 储 系统 和 网 络 ) 的 设计 问 
题 及 这 些 部 件 之 问 的 关系 。 其 中 的 一 大 要 点 是 理解 在 并 行 机 器 演化 中 硬件 和 软件 之 间 的 职责 
划分 。 理 解 这 一 划分 要 求 读 者 熟悉 并 行程 序 对 机 器 的 要 求 ， 各 种 机 器 设计 因素 之 间 的 相互 作 
用 以 及 并 行程 序 设计 的 实践 。 

学 习 计算 机 体系 结构 的 过 程 通常 被 比喻 为 条 洋葱 皮 ， 这 一 类 比 对 于 并 行 计算 机 体系 结构 
更 是 适合 。 在 理解 体系 结构 的 每 一 层次 时 ， 我 们 都 能 发 现 一 个 具有 许多 相互 作用 的 侧面 的 完 
整体 系 ， 这 些 侧面 包括 机 器 的 结构 、 它 们 的 抽象 、 它 们 所 依赖 的 技术 、 演练 它们 的 软件 以 及 
描述 它们 性 能 的 模型 。 然 而 ， 如 果 我 们 深 和 人 钻研 其 中 任何 一 个 侧面 ， 我 们 都 会 发 现 另 一 设计 
层次 和 新 的 一 类 相互 作用 情况 。 并 行 计算 机 体系 结构 的 这 种 整体 性 和 多 层次 性 使 得 这 一 领域 
对 学 习 和 讲授 都 具有 挑战 性 。 人 们 不 可 避免 地 会 感知 这 种 一 层 接 一 层 的 结构 。 

本 章 为 导论 ， 主 要 介绍 并 行 计算 机 体系 结构 的 “表层 ”。 它 首先 概要 说 明 为 什么 并 行 机 
器 将 可 能 变 得 非常 普及 ， 从 桌面 型 计算 机 到 超级 计算 机 ， 无 处 不 在 。 另 外 ， 本 章 还 将 考察 有 
关 计 算 机 的 微 电 子 工 艺 方面 、 体 系 结构 方面 和 经 济 方面 的 趋势 ， 这 些 趋势 导致 了 计算 机 体系 
结构 发 展 到 今天 的 现状 ， 同 时 它们 也 为 预测 未 来 的 并 行 计算 机 体系 结构 提供 了 基础 。 本 章 
1.1 节 重 点 讲述 推动 处 理 器 性 能 迅猛 发 展 的 动力 ， 以 及 整个 计算 机 工业 围绕 通用 微 处 理 器 进 
行 的 结构 调整 。 这 些 动力 包括 对 计算 性 能 无 止境 的 应 用 需求 、VLSI 芯片 密度 和 集成 水 平 的 
不 断 改 进 、 体 系 结构 在 越 来 越 高 的 层次 利用 并 行 性 。 

接着 本 节 简 要 概括 了 几 种 重要 的 体系 结构 风格 ， 它 们 丰富 了 体系 结构 研究 的 历史 ， 并 对 
从 现代 眼光 来 理解 并 行 机 器 是 非常 有 益 的 。 在 这 种 设计 的 多 样 性 中 ， 出 现 了 一 组 共同 的 设计 
原则 和 权衡 ， 它 们 也 同样 受到 潜在 工艺 技术 发 展 的 驱动 。 这 些 动力 正在 迅速 引导 系统 结构 设计 
领域 的 融合 ， 这 一 现象 形成 了 本 书 的 重点 。1.2 节 纵 观 了 传统 的 并 行 机 器 ， 包 括 共享 存储 型 、 
消息 传递 型 、 数 据 并 行 型 、 脉 动 阵列 型 和 数据 流 型 ， 并 举例 说 明 这 些 不 同类 型 的 结构 解决 体系 
结构 共同 问题 的 不 同 策略 。 这 些 讨论 展 现 了 并 行 体系 结构 依赖 于 底层 工艺 技术 ， 更 重要 的 是 ， 
这 些 讨论 证 明了 围绕 微 处 理 器 的 统治 地 位 ， 以 及 目前 并 行 体系 结构 已 经 发 生 的 融合 势 态 。 

建立 在 这 种 融合 之 上 ，1.3 节 考 察 了 贯穿 并 行 机 器 设计 的 基本 问题 ; 作为 通信 和 协作 的 
基础 ， 在 机 器 级 别 可 以 对 什么 命名 ; 执行 通信 和 协作 操作 的 时 延 ; 它们 所 要 求 的 整体 速率 和 
带宽 。 这 种 从 概念 结构 到 性 能 要 素 的 转化 为 并 行 机 器 结构 的 研究 提供 的 不 仅 是 定性 描述 ， 而 
是 定量 的 框架 。 
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有 了 上 面 对 并 行 体系 结构 的 广泛 理解 ， 后 面 各 章 将 更 加 深入 地 研究 技术 细节 。 第 2、3 
章 详细 考虑 并 行程 序 的 结构 和 要 求 ， 是 理解 并 行 体系 结构 和 应 用 之 间 相 互 作用 的 基础 。 第 4 
章 建立 了 一 个 基于 应 用 要 求 和 性 能 测量 的 评估 设计 决策 的 框架 。 第 5、6 章 全 面 地 研究 了 中 
小 规模 的 商用 多 处 理 器 〔 从 几 个 到 儿 十 个 处 理 器 ) 的 并 行 计算 机 体系 结构 。 这 里 介绍 的 概念 
和 结构 葛 定 了 在 最 后 5 章 中 讨论 更 大 规模 设计 的 基础 。 


1.1 为 什么 要 用 并 行 体系 结构 


计算 机 体系 结构 、 微 电子 工艺 技术 以 及 应 用 需求 竞相 发 展 ， 并 互相 影响 。 并 行 计算 机 体 
系 结构 也 不 例外 。 在 设计 中 ， 要 考虑 一 个 新 的 因素 一 一 处 理 器 的 个 数 一 一 及 在 一 定 成 本 下 对 
性 能 的 追求 驱动 着 设计 。 不 管 一 个 单 处 理 器 的 性 能 如 何 ， 原 则 上 讲 ， 更 高 的 性 能 可 以 通过 利 
用 多 个 这 样 的 处 理 器 来 达到 。 所 能 获得 的 性 能 增益 和 附加 的 成 本 取决 于 许多 因素 ， 我 们 将 在 
本 书 的 其 他 部 分 经 常 讨论 到 这 些 因素 。 

为 了 更 好 地 理解 这 种 相互 影响 ， 让 我 们 考虑 一 下 多 处 理 器 构建 模块 的 性 能 特征 。 图 1-19 
说 明了 不 同类 型 的 处 理 器 的 性 能 随 着 时 间 的 变化 (Hennessy and Jouppi 1991), HAW A 
的 区 域 说 明了 处 理 器 发 展 的 趋势 。 尽 管 我 们 不 应 该 草率 地 从 这 些 有 限 的 数据 中 得 出 什么 定量 
的 结论 , 但 图 1-1 给 出 的 基本 信息 是 有 价值 的 。 








1965 1970 1975 1980 1985 1990 1995 


图 1-1 微型 机 、 小 型 机 、 大 型 机 和 超级 计算 机 的 性 能 趋势 。 从 20 世纪 80 年 代 中 期 以 来 ， 微 处 理 
器 的 性 能 以 每 年 大 约 50% 的 速度 增长 。 传 统 的 大 型 机 和 超级 计算 机 性 能 以 每 年 大 约 25% 的 
速度 增长 。 结 果 我 们 看 到 适合 并 行 计 算 机 体系 结构 的 处 理 器 同时 也 是 性 能 提高 的 领头 羊 。 

来 源 : Hennessy and Jouppi 1991。 


首先 ， 高 度 集成 的 单 芯 片 CMOS 微 处 理 器 性 能 不 断 提高 ， 并 超过 了 规模 更 大 ， 价 格 也 更 
昂贵 的 对 手 。 微 处 理 器 的 性 能 以 每 年 大 约 50% 的 速度 增长 。 用 小 的 廉价 的 .大 量 生产 的 





〇 ”此 图 源 于 一 篇 很 有 影响 力 的 论文 (Hennessy and Jouppi 1991) ， 旨 在 揭示 计算 机 业 所 发 生 的 巨大 变化 。 由 于 跨越 -一 
个 大 的 时 间 和 市 场 范围 ， 所 用 的 性 能 度量 有 些 难 以 理解 。 这 项 研究 的 数据 来 源 于 通用 基准 测试 程序 ， 例 如 ， 
SPEC 基准 测试 ， 它 们 常用 来 评估 技术 性 计算 应 用 的 性 能 (Hennessy and Patterson 1996)。 在 论文 发 表 后 ， 微 处 理 获 
A a BIA, 而 大 型 机 和 超级 计算 机 经 历 了 很 大 的 危机 ， 最 后 出 现 了 用 多 个 CMOS 微 处 理 器 来 实现 系 
SE BAA  .. 
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处 理 器 作为 一 个 多 处 理 器 计算 机 系统 基本 单元 的 优势 是 明显 的 。 尽 管 如 此 ， 适 合并 行 计算 机 
的 处 理 器 的 性 能 曾经 总 是 赶不上 最 快 的 单 处 理 器 系统 性 能 的 增长 。 但 现在 这 种 情况 已 经 改 
变 。 和 早期 人 们 建造 的 各 种 不 同 规模 的 并 行 计算 机 相 比 ， 今 天 利用 并 行 技术 来 获得 高 性 能 会 
越 来 越 可 行 ， 因 为 我 们 现在 有 了 更 适合 并 行 系统 的 基本 处 理 器 模块 。 

其 次 ， 可 能 是 更 基本 的 看 法 是 “变化 " 。 变 化 ， 甚 至 是 剧烈 的 变化 ， 是 计算 机 体系 结构 
的 基本 特征 。 不 断 变化 的 过 程 对 研究 计算 机 体系 结构 有 深刻 的 影响 ， 因 为 我 们 不 但 要 理解 系 
统 是 如 何 工 作 的 ， 还 要 知道 它 将 来 是 如 何 演变 的 和 为 什么 会 出 现 相 应 的 变化 。 变 化 也 是 对 我 
们 写 这 本 书 的 一 个 最 大 挑战 ， 也 是 一 个 主要 的 促 动 因素 。 并 行 计算 机 体系 结构 领域 已 经 相当 
成 熟 ， 到 了 需要 从 基本 的 工程 原理 和 性 能 与 成 本 定量 评价 的 角度 来 研究 的 时 机 了 。 它 们 被 归 
纳 为 事实 和 数据 、 测 量 、 实 际 计算 机 的 设计 等 几 个 方面 。 不 幸 的 是 ， 现 有 的 数据 和 设计 随 着 
这 个 领域 的 发 展 将 会 过 时 。 为 了 提供 一 个 清晰 的 基础 ， 本 书 提供 的 数据 和 实际 的 计算 机 设计 
都 是 20 世纪 90 年 代 后 期 的 。 尽 管 如 此 ， 在 分 析 具 体 的 设计 和 权衡 时 所 采用 的 评估 方法 是 跨 
越 年 代 的 。 

20 世纪 90 年 代 后 期 是 一 个 有 特殊 意义 的 时 期 。 随 着 单个 芯片 的 微 处 理 器 在 计算 的 各 个 
层面 逐步 占有 统治 地 位 ， 也 随 着 并 行 计算 在 主流 计算 许多 领域 的 普及 ， 我 们 正 处 于 技术 重新 
融合 的 一 个 时 期 。 当 然 ， 飞 速 的 变化 应 该 使 我 们 道 慎 地 预测 未 来 。 这 一 节 的 剩余 部 分 更 深入 
的 前 述 了 并 行 计 算 机 体系 结构 进入 计算 的 主流 领域 的 力量 和 趋势 。 我 们 首先 关注 应 用 对 计算 
性 能 增长 的 需求 ， 然 后 关注 努力 满足 这 些 需求 的 技术 和 体系 结构 的 趋势 。 我 们 看 到 随 着 计算 
机 的 集成 度 越 来 越 高 ， 并 行 处 理 不 仅 具 有 天 生 的 魅力 ， 而 且 开 发 和 利用 的 层次 在 不 断 提 高 。 
最 后 ， 本 节 将 看 一 下 并 行 性 在 最 高 性 能 计算 机 中 的 作用 。 


1.1.1 计算 机 应 用 发 展 的 趋势 


应 用 对 计算 机 性 能 不 断 提高 的 要 求 ， 对 计算 的 各 个 方面 来 说 都 是 一 个 推动 。 硬 件 能 力 的 
提高 使 应 用 的 新 功能 成 为 可 能 ， 于 是 对 计算 机 体系 结构 提出 了 新 的 更 多 的 要 求 。 这 种 循环 驱 
使 大 量 的 设计 、 工 程 和 制造 技术 的 进步 ， 使 得 微 处 理 器 的 性 能 得 以 呈 指 数 级 增长 。 而 且 它 更 
强烈 地 推动 并 行 计算 机 体系 结构 的 发 展 ， 因 为 并 行 计算 机 体系 结构 要 满足 最 高 要 求 应 用 的 需 
求 。 随 着 处 理 器 性 能 每 年 50% 的 增长 ， 在 10 年 以 后 ， 有 着 上 百 个 处 理 器 的 并 行 计算 机 将 会 
被 广泛 使 用 ; 在 20 年 后 ， 有 上 千 个 处 理 器 的 并 行 计算 机 也 会 普及 起 来 。 

广泛 的 应 用 需求 使 计算 机 厂商 提供 各 种 不 同性 价 比 的 机 器 。 大 量 的 机 器 和 客户 都 在 低 
端 ， 要 求 最 高 的 应 用 由 高 端 服务 器 来 解决 。 这 个 “平台 金字 塔 ”的 一 个 效果 是 对 性 能 的 要 求 
绝 大 多 数 在 高 端 并 且 是 通过 少数 重要 的 应 用 来 体现 。 在 微 处 理 器 以 前 ， 性 能 是 通过 新 颗 的 电 
路 和 机 器 组 织 来 实现 。 今 天 ， 为 了 获得 比 当代 微 处 理 器 更 高 的 性 能 ， 主 选 就 是 用 多 个 处 理 
器 ， 而 且 最 高 要 求 的 应 用 都 是 写成 并 行程 序 。 这 样 ， 并 行 计算 机 体系 结构 和 并 行程 序 设计 都 
是 要 获得 高 性 能 。 

对 体系 结构 设计 者 和 应 用 开发 者 来 说 ， 一 个 关键 点 是 如 何 才能 用 并 行 性 提高 应 用 的 性 
能 。 我 们 可 以 定义 p 个 处 理 器 的 加 速 比 为 

加 速 比 〈P 个 处 理 器 ) = FE Ce PACE) 0-1) 
对 于 一 个 固定 的 问题 ， 机 器 的 性 能 和 时 间 是 成 倒数 关系 的 ， 所 以 我 们 有 下 面 的 公式 ; 
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、 时 间 (1 个 处 理 带 ) 
DOI Kaena (p 个 处 理 器 ) = 时 间 (p 个 处 理 器 ) (1-2) 
1. 科学 和 工程 计算 


许多 领域 的 进展 都 直接 依赖 于 计算 机 性 能 水 平 的 不 断 提 高 ， 这 一 点 在 计算 科学 和 工程 领 
域 表 现 得 尤为 突出 。 在 计算 领域 ， 计 算 机 被 用 来 模拟 那些 要 么 是 不 可 能 ， 要 么 要 花 很 大 代价 
才能 观测 到 的 物理 现象 。 典 型 的 例子 包括 建立 全 球 长 期 气候 变化 的 模型 、 星 系 的 演化 、 物 质 
的 原子 结构 、 发 动机 的 燃烧 效率 、 交 通 工 具 表面 的 气流 、 由 于 碰撞 造成 的 损害 和 精密 电子 仪 
器 的 行为 。 计 算 建 模 ， 使 我 们 可 以 更 深入 地 分 析 有 关 的 设计 。 计 算 机 的 性 能 和 通过 模拟 所 能 
研究 的 问题 之 间 通 常 有 一 个 直接 的 关系 。 图 1-2 总 结 了 联邦 科技 政策 办 公 室 下 属 的 物理 、 数 
学 和 工程 科学 委员 会 1993 年 的 研究 结果 。 它 指出 了 解决 一 些 重要 的 科学 与 工程 问题 所 需 的 
计算 机 速度 和 存储 容量 。 即 便 处 理 器 性 能 会 大 幅度 提高 ， 在 不 久 的 将 来 ， 也 需要 非常 大 规模 
的 并 行 体 系 结构 来 处 理 这 些 问 题 。 而 再 往 后 ， 我 们 会 看 到 新 的 、 更 大 的 挑战 。 
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图 1-2 重大 挑战 性 应 用 的 需求 。 这 是 一 类 对 计算 机 性 能 和 存储 容量 有 不 同 需求 的 重大 

的 科学 和 工程 问题 。 给 定 处 理 器 性 能 和 容量 的 指数 增长 , 两 个 轴 都 和 时 间 对 应 。 

在 轴 的 右上 端 是 美国 高 性 能 计算 和 通信 (HPCC) 计划 指出 的 重大 挑战 性 应 用 
并 行 体系 结构 已 经 成 为 科学 计算 的 中 流 碟 柱 ， 包 括 物 理 、 化 学 、 材 料 科 学 、 生 物 学 、 天 
文学 、 地 球 科 学 和 其 他 科学 。 对 物理 现象 建 模 的 工具 也 被 应 用 到 工程 应 用 中 ， 包 括 石 油 ( 油 
藏 模拟 )、 汽 车 (碰撞 模拟 、 牵 引 分 析 、 燃 料 效 益 ) 、 航 空 〈 气 流 分 析 、 引 苟 效 率 、 结 构 力 
学 、 电 磁 学 )、 制 药学 (分子 建 模 ) 和 其 他 。 在 大 多 数 这 些 应 用 中 ， 要 求 计算 的 结果 可 视 化 ， 

这 也 是 并 行 计算 的 一 个 需求 应 用 。 

可 视 化 成 分 使 得 传统 领域 ,例如 科学 和 工程 更 加 接近 娱乐 业 。 在 1995 年 ， 第 一 个 计算 
机 动画 电影 《玩具 总 动员 》( Toy Story)， 是 在 由 数 百 台 Sun 工作 站 组 成 的 并 行 计算 机 系统 上 


























6 HITR BRA tH 





制作 的 。 这 种 应 用 成 为 可 能 的 原因 在 于 底层 技术 和 体系 结构 已 经 越过 了 三 个 主要 台阶 ， 所 需 
计算 的 成 本 已 经 减少 到 和 拍 电影 的 预算 相当 ; 单个 计算 机 的 性 能 已 足够 高 ; 以 及 一 定 规 模 的 
并 行 性 使 得 计算 可 以 在 可 接受 的 时 间 内 完成 (在 几 百 台 计 算 机 上 计算 几 个 月 )。 每 个 科学 和 
工程 应 用 在 计算 能 力 和 成 本 方面 都 有 一 个 类 似 的 台阶 ， 只 有 越过 了 这 个 台阶 ， 用 计算 机 来 求 
解 这 样 的 问题 才 有 生命 力 . 

让 我 们 用 前 述 重大 挑战 问题 中 的 一 个 例子 来 理解 应 用 、 体 系 结构 和 工艺 技术 在 并 行 计算 
机 中 的 相互 影响 。1995 年 的 一 项 研究 (Pfeiffer et al. 1995) 考察 了 多 种 并 行 计 算 机 在 各 种 应 
用 上 的 有 效 性 ， 这 些 应 用 中 包括 一 个 分 子 动力 学 程序 包 ， 称 为 AMBER (Assisted Model Build- 
ing through Energy Refinement), AMBER 被 广泛 地 用 来 模拟 大 的 生物 模型 的 运动 ， 例 如 看 白质 
和 DNA， 它 们 是 由 残 基 (分 别 是 氨基 酸 和 核酸 ) 序列 组 成 ， 每 个 都 由 若干 原子 组 成 。 原 始 
代码 是 在 CRAY 超级 向 量 计 算 机 上 开发 的 ， 这 台 计 算 机 有 定制 的 处 理 器 ， 容 量 很 大 且 昂 贵 的 
SRAM 内 存 〈 蔡 代 高 速 缓存 )， 以 及 可 以 在 一 个 数据 序列 〈 称 为 向 量 ) 上 完成 算术 运算 和 数 
据 传送 的 机 器 指令 。 图 1-3 表示 了 这 个 程序 在 由 128 个 Intel 微 处 理 器 构成 的 并 行 系统 (Intel 
Paragon) 上 的 三 种 不 同 版 本 的 加 速 比 。 上 有 具体 的 测试 问题 涉及 到 模拟 一 个 溶 于 水 的 蛋白 质 。 测 
试 包括 99 个 氨基 酸 和 3 375 个 水 分 子 ， 大 约 有 11 000 个 原子 。 








—O— 版 本 12/94 
一 个 一 版 本 9/94 
一 4 一 版 本 8/94 





50 100 
处 理 器 数目 


图 1-3 三 种 版 本 的 并 行程 序 的 加 速 比 。 在 Intel Paragon 上 执行 分 子 动力 学 代码 的 三 个 版 本 的 加 速 比 曲线 


这 段 代码 最 初 的 并 行 化 (版 本 8/94) 对 于 小 规模 的 系统 配置 有 很 好 的 加 速 比 ， 但 对 大 规 
模 的 系统 加 速 比 很 小 。 稍 做 些 努 力 ， 用 第 2 章 要 讨论 的 技术 对 每 个 处 理 器 的 工作 量 进 行 平 
衡 ， 应 用 的 可 扩展 性 就 得 到 了 大 大 提高 (版 本 9%94)。 进 一 步 的 努力 ， 将 通信 进行 优化 ,我 
们 得 到 了 高 可 扩展 性 的 程序 (版 本 12/94)。 这 128 个 处 理 器 版 本 达到 的 性 能 是 406 MFLOPS; 
以 前 在 CRAY C90 向 量 处 理 器 上 获得 的 最 好 结果 是 145 MFLOPS。 同 样 的 应 用 在 CRAY T3D 上 
(一 个 更 高 效 的 并 行 计算 机 ) ，128 个 处 理 器 达到 891 MFLOPS。 这 种 不 断 改进 的 过 程 在 重大 应 
用 的 并 行 化 方面 是 相当 典型 的 ， 反 映 了 应 用 和 体系 结构 之 间 的 相互 作用 。 应 用 程序 的 编写 人 
员 研究 应 用 的 特性 ， 理 解 它 对 体系 结构 提出 的 要 求 以 及 如 何在 给 定 的 计算 机 上 改善 性 能 。 体 
系 结构 设计 者 也 要 研究 不 同 的 需求 来 理解 如 何 设计 指令 集 才能 对 给 定 应 用 的 机 器 更 有 效 。 我 
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们 所 追求 的 理想 是 使 应 用 程序 的 最 终 用 户 能 够 感受 到 这 两 方面 努力 带 来 的 好 处 。 

对 性 能 不 断 提出 新 的 要 求 是 建 模 和 模拟 工作 的 一 个 自然 趋势 。 例 如 ， 在 电子 CAD 中 ， 
随 着 芯片 上 器 件数 目的 增长 ， 要 模拟 的 内 容 显 然 越 来 越 多 。 另 外 ， 设 计 复 杂 性 的 增加 需要 有 
更 多 的 测试 向 量 ， 并 且 由 于 高 级 功能 在 芯片 内 的 组 合 ， 每 个 测试 要 花费 更 多 的 时 钟 周 期 。 进 
而 ， 由 于 生产 的 成 本 极 高 ， 需 要 对 模拟 结果 有 更 大 的 信心 。 这 种 综合 的 效果 是 ， 设 计 一 代 新 
型 微 处 理 器 对 计算 的 要 求 不 断 提高 ， 其 速率 甚至 高 于 微 处 理 器 本 身 性 能 提高 的 速率 。 

2. 商业 计算 

商业 计算 在 高 端 也 要 依赖 并 行 体系 结 构 。 尽 管 并 行 性 的 规模 不 如 科学 计算 ,但 其 应 用 面 
要 更 宽 。 早 在 20 世纪 OOF RPI, SAHARA WIAA Te LRA. TEX 
领域 ， 计 算 机 系统 的 速度 和 容量 直接 转移 到 系统 支持 的 商业 规模 中 。 一 个 商业 企业 所 拥有 的 
计算 能 力 和 它 的 事业 规模 的 关系 可 以 通过 事务 处 理性 能 委员 会 (‘Transaction Processing Perfor- 
mance Council, TPC) 的 在 线 事务 处 理 (OLTP) 基准 测试 程序 反映 出 来 。 这 些 基 准 测试 程序 
能 够 以 每 分 钟 的 事务 量 (tpm) 表示 的 系统 吞吐 量 来 评估 系统 的 性 能 。TPC-C 测试 程序 是 一 
个 融 交 互 和 批 处 理 于 一 体 的 订购 系统 ， 包 括 一 些 实际 应 用 中 的 特性 ， 如 事务 队列 ， 事务 的 取 
消 和 其 他 特性 (Gray 1991) 。 基 准 测试 程序 包括 显 式 的 可 扩展 性 的 指标 ， 从 而 使 它 更 加 实际 ， 
例如 数据 库 的 规模 和 用 户 终端 的 数量 可 以 随 tpmC (在 TPC-C 上 的 tpm) 值 的 增加 而 增加 。 这 
样 ， 一 个 更 快 的 系统 必须 在 一 个 更 大 的 数据 库 上 操作 ， 并 能 给 更 多 的 用 户 提供 服务 才 是 合理 的 。 

图 1-4 所 示 为 TPC 在 1996 年 3 月 发 布 的 一 个 结果 ， 给 出 了 一 些 系 统 的 tpmC 值 。 纵 轴 代 
表 吞 吐 量 ， 横 轴 代 表 处 理 器 数目 。 这 个 数据 反映 了 若干 不 同系 统 的 情况 ， 来 源 于 不 同 的 硬件 
和 软件 厂商 。 由 于 基准 测试 中 所 求解 的 问题 随 系统 性 能 扩大 ， 我 们 不 能 简单 地 比较 时 间 。 为 
此 ， 我 们 用 系统 的 吞吐 量 来 比较 ， 如 例 1.1 所 示 。 
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图 1-4 TPC-C EHEM TPC 上 处 理 器 的 数量 。1996 年 3 月 TPC 的 报告 表明 了 一 系列 系统 的 
事务 处 理性 能 。 图 中 给 出 了 处 理 器 的 个 数 ， 并 特别 列 出 了 5 个 主要 的 产品 系列 。 尽 
管 并 行 性 高 低 不 同 ， 但 所 有 主要 的 数据 库 厂 家 都 用 多 处 理 器 来 作为 获得 高 性 能 的 方案 
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例 1.1 Tandem 公司 的 Himalaya 和 IBM 的 PowerPC 系统 的 tpmC 值 如 表 所 示 。 每 个 系统 
的 加 速 比 各 是 多 少 ? 


i ANT cS A ce dc Cc 








处 理 器 数目 IBM RS6000 PowerPC Himalaya K 10000 

1 735 
4 1 438 
8 3 119 

16 3 043 

32 6 067 

64 12 021 

112 20 918 


解答 : 对 于 IBM 系统 ， 我 们 可 以 相对 于 单机 系统 给 出 加 速 比 ; 对 于 Tandem 的 Himalaya, 
我 们 只 能 以 16 个 处 理 器 的 系统 为 基准 来 计算 加 速 比 。 当 从 1 个 处 理 器 到 4 个 处 理 器 时 ，IBM 
的 机 器 在 并 行 数据 库 的 实现 上 看 来 有 很 大 的 开销 问题 ， 然 而， 从 4 个 到 8 个 处 理 器 时 的 可 扩 
展 性 相当 好 (BATE). Tandem 系统 的 可 扩展 性 很 好 ， 但 在 100 个 处 理 器 范围 时 加 速 比 趋 于 
HFE 





处 理 器 数目 IBM RS6000 PowerPC Himalaya K 10000 


1 1 

4 1.96 

8 4.24 

16 1 

32 1.99 
64 3.95 
112 6.87 


可 以 从 TRC 的 数据 中 观察 出 一 些 重要 的 信息 。 首 先 ， 并 行 体系 结构 的 应 用 是 普遍 的 ， 
基本 上 所 有 提供 数据 库 硬 件 或 软件 的 厂商 都 用 多 处 理 器 系统 来 作为 得 到 高 性 能 的 手段 。 其 
次 ， 不 仅仅 是 大 规模 并 行 性 是 重要 的 ， 而 且 从 有 几 十 个 处 理 器 的 适度 规模 的 多 处 理 器 和 即使 
只 有 两 个 或 4 个 处 理 器 的 小 规模 多 处 理 器 ， 也 都 很 重要 。 最 后 ， 即 使 是 对 于 一 类 特定 的 系 
统 ， 在 一 个 特定 的 时 间 点 所 作 的 一 套 良 好 文档 的 测量 也 没 法 完全 反映 技术 的 情况 。 技 术 发 展 
很 快 ， 系 统 需要 时 间 来 开发 和 布 署 ， 并 且 实 际 的 系统 还 有 一 个 生命 周期 的 问题 。 这 样 ， 在 任 
何 时 刻 ， 来自 厂商 最 好 的 系统 处 于 它们 生命 期 的 不 同 点 上 。 例 如 ， 在 1996 年 3 月 的 TPC H 
告 中 ，DEC Alpha 和 IBM PowerPC 系统 要 比 Tandem Himalaya 系统 新 得 多 。 因 此 ， 我 们 不 可 以 
轻率 地 做 出 结论 ， 例 如 说 Tandem 的 Himalaya 系统 由 于 其 设计 中 的 可 扩展 性 问题 ， 导 致 它 的 
效率 从 根本 上 要 低 些 。 然 而 ， 我 们 可 以 说 ， 即 使 是 大 规模 的 系统 也 要 不 断 地 跟踪 工艺 技术 的 
发 展 来 维持 它 的 优势 。 

向 并 行程 序 设计 的 过 渡 ， 包 括 新 算法 的 设计 或 对 现 有 算法 中 通信 和 同步 需求 的 关注 , 已 
经 在 计算 的 高 性 能 端 普遍 展开 。 这 种 过 渡 在 商业 软件 中 也 正在 进行 。 典 型 地 ， 工 程 和 商业 应 
用 把 目标 定 在 适度 规模 的 多 处 理 器 ， 这 些 多 处 理 器 统治 着 服务 器 市 场 。 在 商业 界 ， 所 有 主要 
的 数据 库 厂商 都 在 它们 的 高 端 产品 中 支持 并 行 计算 机 。 一 些 主要 的 数据 库 厂商 还 支持 “什么 
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也 不 共享 ”的 大 规模 并 行 机 和 通过 高 速 网 络 连接 的 工作 站 (通常 叫做 机 群 ); 另外 ， 多 处 理 
器 也 在 多 道 程序 系统 中 用 来 提高 吞吐 量 。 甚 至 桌面 机 的 应 用 也 表现 出 多 个 并 发 进程 的 操作 模 
式 ， 例 如 多 个 活动 窗口 和 守护 程序 。 经 常 ， 一 个 用 户 会 让 他 的 任务 在 局 域 网 的 多 个 计算 机 上 
运行 。 所 有 的 这 些 趋势 显示 了 一 种 实 实在 在 的 应 用 需求 ， 即 需要 不 同 规模 的 并 行 计算 机 体系 
结构 。 


1.1.2 微 电 子 技术 趋势 


为 了 满足 不 断 提高 的 性 能 要 求 ， 我 们 可 以 通过 对 底层 技术 和 体系 结构 进展 的 理解 来 进 一 
步 明确 并 行 的 重要 性 。 趋 势 表 明 通过 “单机 速度 的 提高 来 提供 高 性 能 ”是 困难 的 ， 而 通过 并 
行 体系 结构 是 可 能 的 。 另 外 ， 这 些 考察 表明 在 并 行 计 算 机 体系 结构 中 采用 的 微 电 子 技术 和 那 
些 “ 串 行 ” 计 算 机 中 的 很 类 似 ， 例 如 预算 如 何在 计算 功能 单元 ， 开 发 局 部 性 的 高 速 缓存 ， 以 
及 在 提供 通信 带宽 的 连 线 中 分 配 芯 片面 积 的 资源 。 

主要 的 技术 进步 在 于 基本 的 VLSI 的 线 宽 稳 步 碱 小 。 这 使 得 晶体 管 、 门 和 电路 越 来 越 快 ， 
越 来 越 小 ,所 以 在 同样 的 面积 内 能 容纳 更 多 的 单元 。 另 外 ， 可 用 的 晶片 尺寸 在 增长 ， 所 以 有 
更 多 的 空间 可 用 。 直 觉 上 说 ， 时 钟 频率 的 提高 和 线 宽 的 减 小 是 成 正比 的 ， 而 晶体 管 的 数目 和 
线 宽 的 减 小 是 平方 增长 的 ， 而 增加 整个 晶片 的 面积 ， 晶 体 管 数目 还 会 更 多 。 这 样 ， 从 长 远 的 
观点 看 ， 通 过 同时 用 许多 晶体 管 〈 即 并 行 性 ) 比 通 过 提高 单 处 理 器 时 钟 频率 更 能 提高 处 理 器 
的 性 能 。 12 | 

这 种 直 党 可 以 通过 对 商用 处 理 器 的 比较 得 出 。 图 1-5 显示 了 几 种 重要 的 微 处 理 器 家 族 的 
时 钟 频率 和 晶体 管 数量 的 增长 。 用 于 微 处 理 器 的 时 钟 频率 以 每 年 大 约 30% 的 速度 增长 ， 唱 
体 管 的 数量 以 每 年 大 约 40% 的 规模 增长 。 这 样 ， 如 果 我 们 看 一 个 芯片 上 的 原始 计算 能 力 
(每 秒 晶体 管 开关 的 总 数 )， 在 过 去 的 20 年 里 ， 晶 体 管 数量 增长 的 贡献 要 比 时 钟 频率 提高 的 
贡献 高 一 个 数量 级 ” 。 在 标准 基准 测试 程序 上 微 处 理 器 性 能 的 提高 比 时 钟 频 率 的 提高 要 快 。 
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图 1-5 微 处 理 器 中 逮 辑 单元 的 增长 和 时 钟 频率 的 提高 。 光 刻 技 术 、 工 艺 技术 、 电 路 设 
计 和 数据 通路 设计 的 改进 在 逻辑 单元 的 密度 和 时 钟 频率 已 经 产生 一 个 持续 的 提高 





O 为 什么 晶体 管 数 量 没有 以 时 钟 频率 的 平方 关系 增加 ， 其 原因 是 多 方面 的 。 其 一 是 处 理 器 大 量 的 面积 被 连 线 占用 ， 
用 来 在 片 内 分 布控 制 、 数 据 或 者 时 钟 信号 ( 即 芯 片 内 的 通信 )。 我 们 会 看 到 通信 问题 在 并 行 计算 机 系统 结构 的 每 
个 层次 都 会 出 现 。 


(13 | 
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最 常用 的 测量 工作 站 性 能 的 基准 测试 程序 是 PEC 程序 集 ， 它 包含 若干 实际 的 整数 程序 和 浮 
点 运算 程序 (SPEC 1995), SPEC 上 整数 测试 程序 的 性 能 以 每 年 大 约 55% 的 速度 增长 ， 而 浮 
点 性 能 以 每 年 75% 的 速度 增长 。LINPACK 基准 测试 程序 (Dongarra 1994) 被 广泛 用 来 评价 系 
统 在 数值 应 用 上 的 性 能 。LINPACK 的 浮 点 性 能 以 每 年 超过 80% 的 速度 增长 。 因 此 ， 处 理 器 
越 来 越 快 的 原因 在 很 大 程度 上 是 由 于 更 有 效 地 利用 了 越 来 越 多 的 计算 资源 。 

对 这 些 技术 趋势 的 简单 分 析 表 明 ， 作 为 系统 基本 单元 的 芯片 还 会 提供 更 大 的 计算 能 力 
一 一 在 2000 年 将 会 有 近 1 亿 个 晶体 管 。 这 种 增长 将 会 使 我 们 能 在 芯片 内 放置 更 多 的 计算 机 
系统 的 部 件 ， 包 括 内 存 和 VO 支持 ， 或 者 能 在 一 个 片上 放 多 个 处 理 器 (Gwennap 1994a) 。 前 


- 者 导致 小 的 、 更 易 封 装 的 并 行 体系 结构 的 构造 模块 ， 后 者 使 单个 芯片 上 有 并 行 的 体系 结构 














(Gwennap 1994b)。 这 两 种 情形 在 商业 上 都 有 可 能 出 现 ， 例 如 我 们 看 到 片上 系统 (SOC) ER 
人 式 系 统 、 便 携 式 系统 和 低 端 PC 产品 中 首先 被 使 用 。 而 在 一 个 芯片 上 用 多 个 处 理 器 的 实践 
正在 数字 信号 处 理 领 域 普及 起 来 ( Feigel 1994), 

性 能 和 容量 之 间 的 变化 在 内 存 技术 中 更 为 深刻 。 从 1980 ~ 1995 年 ，DRAM 芯片 的 容量 增 
长 了 1000 倍 , 每 3 年 翻 4 倍 ， 而 存储 周期 只 缩短 了 一 或 两 倍 。 在 一 台 有 1 亿 个 晶体 管 的 处 
理 堪 中 ， 我 们 期 望 有 千 兆 位 容量 的 DRAM 芯片 ， 但 是 处 理 器 周期 和 内 存 周期 的 差距 就 更 大 
了 。 这 样 ， 处 理 器 对 内 存 的 带宽 (每 存储 周期 能 给 出 的 字 节 数 ) 需求 也 就 更 大 了 。 

内 存 操 作 的 时 延 是 由 访问 时 间 决 定 的 ， 它 小 于 存储 周期 ,但 是 每 个 内 存 操 作对 应 的 处 理 
器 周期 数 还 是 很 大 并 旦 在 增加 。 为 了 降低 处 理 器 看 见 的 存储 访问 平均 时 延 ， 增 加 存储 带宽 ， 
我 们 必须 更 有 效 地 利用 在 处 理 器 和 DRAM 存储 器 之 间 的 存储 层次 结构 。 现 代 处 理 器 基本 上 
都 有 一 级 和 二 级 高 速 缓 存 ， 而 且 系统 的 设计 提供 了 加 入 外 部 高 速 缓存 的 可 能 。 当 我 们 谈 到 多 
处 理 器 设计 的 时 候 ， 一 个 基本 问题 就 是 如 何在 多 个 处 理 器 和 多 个 存储 模块 之 间 安 排 一 组 高 速 
缓存 。 例 如 ， 并 行 体系 结构 的 一 个 直接 的 好 处 就 是 每 级 存储 层次 的 总 容量 可 以 随 着 处 理 器 数 
目的 增加 而 增加 ， 而 这 种 容量 的 增加 不 会 增加 访问 时 间 。 

把 这 些 结论 扩展 到 磁盘 ,我们 看 到 一 个 类 似 的 情形 。 并 行 磁盘 存储 系统 ， 例 如 RAD, 
已 经 成 为 许多 系统 的 标准 配置 。 将 大 容量 多 级 缓存 用 于 文件 或 磁盘 块 访问 的 缓存 在 各 种 系统 
中 也 是 屡见不鲜 。 


1.1.3 体系 结构 趋势 


集成 电路 技术 上 的 进步 决定 了 什么 是 可 能 的 ， 什 么 是 不 可 能 的 ; 体系 结构 把 技术 的 潜力 
转变 为 性 能 和 容量 。 从 根本 上 讲 ， 利 用 更 多 的 资源 〈 例 如 ， 更 多 的 晶体 管 ) 提高 性 能 的 两 个 
途径 是 并 行 性 和 局 部 性 。 但 是 ， 这 两 个 途径 在 对 资源 的 占有 上 是 竞争 的 关系 。 当 多 个 操作 并 
行 执 行 时 ， 程 序 执行 所 用 的 周期 数 减少 了 。 但 是 ， 这 需要 资源 来 支持 每 个 并 发 的 活动 。 当 对 
数据 的 引用 越 接 近 处 理 器 ,访问 深层 次 存储 的 时 延 就 可 以 避免 ,但 也 需要 资源 提供 这 种 局 部 
性 。 通 常 ， 最 好 的 性 能 是 通过 某 种 中 间 路 线 来 达到 的 ， 既 开发 一 定 的 并 行 性 ， 也 利用 一 定 的 
局 部 性 。 确 实 ， 我 们 可 以 从 本 书 中 看 到 并 行 性 和 局 部 性 是 如 何在 系统 的 各 个 层次 (从 一 个 芯 
片 到 大 规模 并 行 机 器 ) 相互 作用 的 。 在 当前 的 微 处 理 器 上 ， 晶 片面 积 基本 上 是 在 高 速 缓存 、 
处 理 部 件 和 片 外 互 连 方面 大 致 等 量 分 配 的 。 由 于 成 本 和 性 能 的 权衡 不 一 样 ， 大 规模 系统 可 能 
会 有 些 不 同 , 但 基本 问题 是 一 样 的 。 
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1. 微 处 理 器 设计 趋势 . 

研究 一 下 微 处 理 器 的 发 展 趋势 有 助 于 我 们 理解 并 行 机 ， 也 能 够 使 我 们 看 到 在 常规 计算 机 
系统 结构 中 开发 并 行 性 的 根本 性 作用 ， 还 能 使 我 们 感到 当前 系统 结构 的 趋势 将 导致 多 处 理 器 
的 设计 。( 本 书 中 关于 处 理 器 设计 技术 的 讨论 只 是 泛泛 的 ， 因 为 我 们 假定 许多 读者 已 经 从 其 
他 传统 的 体系 结构 著作 [Hennessy and Patterson 1996] 中 了 解 它们 了 。 不 过 我 们 这 里 的 讨论 角 
度 是 独特 的 ， 有 助 于 唤起 读者 的 回忆 。) 

计算 机 体系 结构 的 发 展 按照 逻辑 实现 的 技术 可 以 分 为 4 个 阶段 ; 电子 管 、 唱 体 管 、 集 成 
电路 、 大 规模 集成 电路 。 本 章 的 所 有 内 容 都 属于 第 4 阶段 。 很 明显 ， 在 这 个 阶段 有 巨大 的 体 
系 结构 进展 ， 那 么 接 下 来 会 是 什么 样 呢 ? 最 突出 的 表现 是 由 图 1-6 展示 的 并 行 性 的 发 展 。 
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图 1-6 25 年 来 处 理 器 上 晶体 管 数目 的 变化 。 这 个 变化 基本 上 遵循 摩尔 定律 。 定 律 说 晶体 管 的 数目 每 两 年 
翻 一 番 。 通 过 过 去 来 预测 未 来 ， 我 们 可 以 推出 未 来 10 年 会 出 现 有 5 000 万 到 1 亿 个 晶体 管 的 处 理 器 。 

图 中 也 表现 了 在 第 4 代 技 术 (VID 中 计算 机 体系 结构 不 同 设计 的 特色 ， 反 映 出 并 行 性 层次 的 提高 

一 直到 1986 年 ， 位 级 并 行 的 进展 都 是 居于 支配 地 位 的 ，4 位 的 微 处 理 器 被 8 位 微 处 理 器 
取代 ，8 位 的 又 被 16 位 的 取代 等 。 数 据 通路 的 加 宽 减 少 了 32 位 操作 所 用 的 周期 数 。 在 20 t 
纪 80 年 代 中 期 ， 当 出 现 了 32 位 的 计算 机 时 ， 这 个 趋势 就 减缓 了 ，64 位 的 操作 只 是 在 10 年 
后 部 分 地 被 采用 。 对 更 宽 的 数据 的 需求 不 是 由 性 能 引起 的 ， 而 主要 是 为 了 改进 浮 点 数 的 表示 
或 更 大 的 地 址 空间 。 随 着 对 地 址 空间 的 需求 以 每 年 不 到 一 位 的 速度 增长 ， 看 来 128 位 的 操作 
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不 会 在 最 近 出 班 。 最 早 的 微 处 理 器 从 最 容易 的 并 行 性 形式 〈 即 每 个 操作 中 的 位 并 行 ) 中 获 
益 。 图 1-1 所 示 的 微 处 理 器 成 长 曲线 中 的 拐点 标志 着 1986 年 32 位 字 操 作 ， 以 及 高 速 缓存 广 
泛 应 用 时 期 的 到 来 。 

20 世纪 80 年 代 中 期 到 90 年 代 中 期 是 指令 级 并 行 的 天 下 ， 多 条 指令 的 不 同 部 分 同时 进 
行 。 全 字 操 作 意 味 着 一 条 指令 处 理 过 程 中 的 每 个 基本 步骤 ( 译 码 、 整 数 运算 、 地 址 计算 ) 分 
别 都 能 在 一 个 周期 内 完成 ;而 在 缓存 中 ， 大 多 数 情况 下 取 指 和 数据 访问 也 可 以 在 一 个 周期 内 
完成 。RISC 的 研究 表明 了 这 一 点 ， 采 用 精心 设计 的 指令 集 ， 可 以 让 指令 处 理 的 每 一 步 按 流 
水 线 方式 进行 ， 从 而 几乎 在 每 个 周期 都 可 以 完成 一 条 指令 。 这 样 ， 在 指令 执行 之 间 的 少量 并 
行 性 得 到 了 开发 。 昌 然 以 流水 线 方式 执行 指令 的 技术 不 是 新 的 ， 但 它 从 来 没有 像 现在 这 样 和 
基本 的 集成 电路 工艺 技术 匹配 得 那么 好 。 另 外 ， 编 译 技术 的 进步 也 使 指令 流水 线 更 有 效 。 

在 20 世纪 80 年 代 中 期 ， 基 于 微 处 理 器 的 计算 机 由 少量 部 件 芯 片 构 成 ， 包 括 整数 处 理 单 
元 、 浮 点 处 理 单元 、 缓 存 控制 器 和 SRAM。 随 着 芯片 容量 的 增加 ， 这 些 部 件 集成 在 一 个 芯片 
上 ， 就 降低 了 它们 之 间 的 通信 开销 。 这 样 ， 一 个 芯片 就 包含 了 用 于 整数 算术 、 存 储 操作 、 转 
移 操作 和 浮 点 操作 的 独立 硬件 。 除 了 能 够 使 每 条 指令 流水 执行 外 ， 一 种 令 人 感 兴趣 的 想法 是 
同时 读 多 个 指令 ， 并 把 它们 发 送 到 不 同 的 功能 单元 ， 这 种 形式 又 叫做 超标 量 执行 。 它 提供 了 
一 种 利用 不 断 增 加 的 芯片 资源 的 自然 途径 。 功 能 单元 越 多 ， 每 次 取 的 指令 就 越 多 ， 在 每 个 周 
期 就 可 以 向 功能 单元 发 出 更 多 的 指令 。 

然而 ， 在 处 理 器 中 提高 指令 并 行 性 的 前 提 是 处 理 器 可 以 及 时 得 到 数据 和 指令 ， 否 则 它 就 
会 闲 下 来 。 为 了 满足 增加 指令 和 数据 带宽 的 需求 ， 就 要 在 芯片 上 放 越 来 越 大 的 缓存 ， 这 是 要 
消耗 晶体 管 数目 的 。 一 旦 处 理 器 和 高 速 缓 存在 一 个 芯片 上 了 ， 就 有 可 能 设计 很 宽 的 数据 通 
路 ， 从 而 满足 多 指令 的 带宽 需求 和 每 个 周期 的 数据 访问 。 尽 管 如 此 ， 随 着 每 个 周期 发 送 指 令 
数 的 增加 ， 每 次 控制 转移 和 缓存 扑 空 的 影响 就 会 越 来 越 明 显 。 一 个 控制 转移 可 能 会 引起 处 理 
器 等 待 其 流水 线 排 空 的 时 间 ， 或 称 为 时 延 ， 直 到 某 条 特殊 的 指令 出 现在 流水 线 的 未 端 ， 才 能 
决定 下 面 该 做 什么 。 类 似 地 ， 当 缓存 扑 空 时 从 内 存 中 读 取 数据 也 会 使 处 理 器 暂停 。 

20 世纪 90 年 代 的 处 理 器 设计 用 到 了 许多 复杂 的 指令 处 理 机 制 ， 来 减 小 超标 量 处 理 器 中 
时 延 造 成 的 性 能 降低 。 通 过 在 控制 转移 前 猜测 控制 流 的 方向 ， 人 们 用 精巧 的 转移 预测 技术 来 
降低 流水 线 的 时 延 。 更 大 、 更 复杂 的 缓存 用 来 避免 缓存 扑 空 的 时 延 。 指 令 的 动态 调度 允许 指 
令 变 序 发 出 和 变 序 执行 ， 因 此 如 果 一 个 指令 遇 到 扑 空 ， 另 一 个 指令 可 在 它 之 前 处 理 ， 只 要 这 
两 个 指令 不 依赖 于 指令 的 结果 。 在 处 理 器 内 维护 一 个 较 大 的 等 待 分 发 的 指令 窗口 ， 只 要 某 条 
指令 产生 了 一 个 新 结果 ， 多 条 等 待 着 的 指令 就 可 能 同时 发 向 功能 单元 。 这 些 复 杂 的 技术 可 以 
使 处 理 器 容 甩 缓存 扑 空 的 时 延 和 流水 指令 之 间 的 依赖 。 然 而 ， 每 个 方法 都 需要 大 量 片上 硬件 
资源 的 支持 ， 而 且 有 很 高 的 设计 代价 。 

随 着 处 理 器 集成 度 的 增加 ， 自 然 的 问题 就 是 在 一 个 单线 程控 制 流 内 的 指令 级 并 行 能 走 多 
远 ? 在 什么 情况 下 ， 问 题 的 重点 会 转移 到 支持 更 高 级 别 的 并 行 ， 例 如 多 进程 或 进程 内 控制 的 
多 线程 ， 即 线程 级 并 行 ? 通过 计算 机 设计 的 模拟 (Chang et al.1991; Horst, Harris, and Jardine 
1990; Lee, Kwok, and Briggs 1991; Melvin and Patt 1991), 或 者 通过 对 程序 国有 性 质 的 分 析 
(Butler et al. 1991; Jouppi and Wall 1989; Johnson 1991; Smith, Johnson, and Horowitz 1989; Wall 
1991)， 一 些 研究 试图 给 出 对 这 个 问题 第 一 部 分 的 回答 。 在 Johnson 的 书 中 (1991)， 对 这 个 论 古 
进行 了 完整 的 描述 。 机 器 设计 的 模拟 通常 显示 2 路 超标 量 ， 即 每 周期 发 送 两 条 指令 ， 是 非常 有 
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效 的 ， 而 4 路 超标 量 也 会 有 明显 的 改善 ， 但 是 再 多 了 (例如 8 路 超标 量 ) 就 很 少 能 提高 性 能 。 
由 于 平均 约 每 五 条 指令 就 有 一 次 控制 转移 ， 设 计 的 复杂 性 会 急剧 增长 。 

为 了 对 潜在 的 最 高 加 速 比 有 一 个 估计 ， 我 们 可 以 假想 每 周期 发 送 多 条 指令 ， 用 一 台 理 想 
的 计算 机 来 模拟 指令 的 执行 。 在 该 计算 机 上 ， 取 指 的 带宽 无 限 ， 程 序 可 用 的 功能 部 件 不 受 限 
制 ， 并 能 完美 地 预测 转移 〈 后 者 较 容 易 做 到 ， 因 为 程序 执行 的 踪迹 还 记录 了 每 个 分 支 转移 情 
况 )。 这 些 宽 泛 的 假设 使 得 每 条 指令 都 不 会 由 于 功能 部 件 忙 或 处 理 器 指令 预测 范围 的 限制 而 
被 延迟 ， 还 可 以 通过 寄存 器 重 命名 技术 来 做 到 每 条 指令 不 被 延迟 发 射 。 通 过 这 种 方法 ， 指 令 
不 会 因为 更 新 了 逻辑 上 前 导 的 指令 所 使 用 的 单元 而 被 延迟 。 对 寄存 器 或 存储 器 单元 的 每 次 更 
新 都 被 认为 是 引入 了 一 个 新 的 “名 字 ”， 在 执行 轨迹 后 续 对 该 值 的 引用 会 访问 这 个 新 的 名 字 。 
这 样 ， 程 序 执行 的 次 序 就 只 受到 基本 的 数据 相关 性 的 约束 ， 每 条 指令 一 旦 其 操作 数 可 用 就 可 
以 执行 。 图 1-7 总 结 了 Johnson 的 结果 。 左 面 的 柱状 图 表示 没有 指令 被 发 射 接着 是 一 条 指 
令 、 两 条 指令 等 。Johnson 的 理想 计算 机 保留 了 实际 功能 单元 的 时 延 ， 包 括 零 发 射 周期 代表 
的 缓存 扑 空 〈 其 他 的 研究 忽略 了 缓存 效应 或 流水 线 时 延 ， 因 此 会 得 到 更 乐观 的 估计 )。 我 们 
看 到 ， 即 使 有 无 限 的 计算 机 资源 ， 完 美的 转移 预测 和 重 命名 技术 ， 在 一 个 周期 内 发 射 指令 的 
条 数 在 9 多 情况 下 要 少 于 4。 基 于 此 分 布 ， 我 们 可 以 得 出 右边 的 加 速 比 图 。 最 近 的 一 项 工作 
(Lam and Wilson 1992; Sohi, Breach, and Vijaykumar 1995) 表明 ， 要 想得到 更 大 量 的 并 行 ， 需 
要 同时 考虑 多 控制 线索 。 虽 然 在 指令 级 并 行 可 能 还 会 出 现 新 的 突破 ， 但 随 着 芯片 容量 的 增 
加 ， 向 下 一 层次 并 行 〈 并 发 多 线程 ) 的 转移 越 来 越 有 吸引 力 。 
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图 1-7 理想 超标 量 计算 机 内 的 指令 级 并 行 的 分 布 和 估计 的 加 速 比 。 图 中 表示 了 在 理想 
超标 量 执行 的 情况 下 ， 包 括 无 限 处 理 资源 和 完美 的 转移 预测 ， 可 用 的 指令 级 并 
行 的 分 布 和 最 大 可 能 的 加 速 比 。 数 据 是 由 Johnson (1991) 的 基准 测试 程序 给 出 
2. 系统 设计 的 趋势 
在 计算 机 系统 中 ， 面 向 线程 级 和 进程 级 来 开发 并 行 性 的 趋势 已 有 相当 一 段 时 间 了 。 基 于 
共享 内 存 的 计算 机 在 20 世纪 80 年 代 32 位 处 理 器 出 现时 已 经 很 流行 了 (Bell 1985), A 1-8 显示 
出 商用 机 器 中 处 理 器 数目 随时 间 的 变化 。 这 类 基于 总 线 的 共享 内 存 多 处 理 器 有 效 地 提高 了 系统 
的 性 能 。 自 从 20 进 纪 80 年 代 后 期 ， 几 乎 每 一 种 商用 处 理 器 都 支持 多 处 理 器 配置 ， 在 第 5 章 我 
们 会 专门 讨论 这 类 系统 。 多 处 理 器 统治 着 服务 器 和 企业 计算 的 市 场 并 已 经 向 桌面 系统 进军 。 
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图 1-8 在 商用 基于 共享 内 存 系统 中 的 处 理 器 的 数目 。 经 过 最 开始 的 10 到 20 路 基于 共享 内 存 

的 CISC 处 理 器 , Sun, HP, DEC, SGI, IBM 和 CRI 公司 就 开始 提供 -一定 规模 的 基于 

RISC 的 SMP 了 ， 还 有 没 在 此 显示 的 其 他 商用 厂商 ， 包 括 NCR/ATT、Tandem 和 Pyramid 
最 早 的 多 处 理 器 系统 是 一 些小 公司 研制 的 ， 如 Synapse (Nestle and Inselberg 1985), Encore 
(Schanin 1986), Flex (Matelan 1985), Sequent (Rodgers 1985) 和 Myrias (Savage 1985)。 其 动因 
是 希望 在 小 型 机 市 场 占有 一 席 之 地 。 它 们 将 10 到 20 个 微 处 理 器 组 织 在 一 起 ， 在 分 时 应 用 负 
载 上 能 给 出 有 竞争 力 的 吞吐 量 。 随 着 Intel i80386 的 出 现 ， 并 作为 处 理 器 的 基础 ， 这 些 系统 
在 商业 上 获得 了 成 功 ， 尤 其 是 在 事务 处 理 方面 。 然 而 ， 高 性 能 的 RISC 处 理 器 在 20 世纪 80 
年 代 后 期 阻止 了 CISC 多 处 理 器 的 进一步 发 展 ， 并 且 完 全 占领 了 小 型 机 市 场 。 接 着 ， 一 些 大 
公司 开始 生产 RISC 微 处 理 器 系统， 特别 是 作为 服务 器 和 大 型 机 的 代用 品 。 这 些 设计 使 得 带 
宽 成 为 关键 因素 。 在 大 多 数 的 多 处 理 器 设计 中 ， 所 有 处 理 器 都 接 到 一 个 公共 总 线 上 上 。 因 为 总 
线 是 固定 带宽 的 ， 所 以 随 着 处 理 器 的 加 快 ， 总 线 只 能 支持 少数 处 理 器 。20 世纪 90 年 代 初 ， 
共享 内 存 总 线 技术 有 了 巨大 的 进步 ,包括 更 快 的 电信 和 号、 更 宽 的 数据 通路 、 协 议 的 流水 执行 
和 多 通路 等 。 这 些 都 为 带宽 的 提高 做 出 了 贡献 ， 如 图 1-9 所 示 。 带 宽 的 增加 允许 多 处 理 器 系 
统 做 到 10 到 20 个 处 理 器 ， 或 者 更 多 一 些 ( Alexander et al. 1994; Cekleov et al. 1993; Fenwick et 
al. 1995; Frank, Burkhardt, and Rothnie 1993; Galles and Williams 1993; Godiwala and Maskas 

1995), 

在 图 1-8 F, 20 世纪 9 年 代 中 期 的 情况 是 很 有 趣 的 。 不 仅仅 是 基于 总 线 的 共享 内 存 多 
处 理 器 在 工业 界 普遍 存在 ， 而 且 可 以 看 见 多 种 不 同 的 规模 。 桌 面 系 统 和 小 型 服务 器 通常 支持 
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2~4 个 处 理 器 ， 较 大 的 服务 器 支持 数 十 个 ， 大 型 商业 系统 支持 上 百 个 。 这 种 趋势 越 来 越 明 
显 。1994 年 Intel 定义 了 一 个 基于 它 的 Pentium 微 处理 器 设计 多 处 理 器 PC 系统 的 标准 (Slater 
1994)。 接 下 来 的 Pentium Pro 微 处 理 器 允许 4 个 处 理 器 配置 在 一 起 ， 不 需要 任何 额外 的 连接 
逻辑 ， 总 线 驱 动 、 仲 裁 电路 等 都 在 微 处 理 器 内 部 。 这 些 发 展 为 小 规模 多 处 理 器 的 流行 铺 平 了 
道路 。 另 外 ， 我 们 注意 到 在 工业 上 的 一 个 转变 是 ， 多 处 理 器 不 仅 由 硬件 供应 商 推动 ， 软 件 供 
应 商 ， 特 别 是 数据 库 公 司 ， 也 推动 多 处 理 器 的 发 展 。 将 这 种 潮流 和 技术 发 展 的 趋势 结合 起 
来 ， 现 在 的 问题 是 片 载 多 处 理 器 系统 何 时 会 普及 起 来 ， 而 不 是 会 不 会 普及 的 问题 。 





100,000 
Sun £10000 
e 
10,000 | --~------------~--~------~------------------------------- 
SGI 
人 PowerCh @ Sun E6000 
g XL AS8400 
@ C56400 
~ 1,000 SGI Challenge @ J 的 
@ SC2000 AS2100_g p_pro 
4 @ 991000E 
通 SS1000@ è 
nh 590Mp 120 e “5S109 $90/se30 
K SE10/ 
100 | ------------------- Symmetya121 Z 5E60 ee 
© SGI PowerSeries @ Power 
( @ Sequent B2100 
Sequent 
B8000 
10 
1984 1986 1988 1990 1992 1994 1996 1998 


图 19 商用 多 处 理 器 的 共享 内 存 的 带宽 。 经 过 几 年 的 缓慢 增长 ， 在 1991 年 出 
现 了 一 个 内 存 总 线 设计 的 新 时 期 ,能够 支持 相当 数目 的 高 速 微 处 理 器 


1.1.4 超级 计算 机 、 


我 们 已 经 看 到 了 在 通用 市 场 上 驱动 并 行 体系 结构 发 展 的 动力 。 第 二 个 具有 影响 力 的 动力 
来 自 超 级 计算 领域 ， 那 里 要 追求 最 大 的 性 能 。 尽 管 商业 和 信息 处 理 的 应 用 在 增长 ， 成 为 高 端 
计算 的 一 个 重要 部 分 ， 科 学 计算 在 历史 上 就 是 展示 体系 结构 创新 的 领地 。 在 20 世纪 60 年 代 
中 期 ， 它 首先 使 用 了 流水 线 技术 和 动态 指令 调度 ， 这 些 技术 在 现在 都 是 通用 技术 。 在 20 tit 
纪 70 年 代 中 期 ， 在 超级 计算 中 居 统 治 地 位 的 是 向 量 处 理 器 ， 它 的 基本 操作 可 以 作用 在 一 个 
数据 序列 上 ， 而 不 是 单个 数据 。 向 量 操作 使 得 在 单个 线程 控制 中 能 获得 更 大 的 并 行 性 。 另 
外 ， 这 些 向 量 计算 机 的 实现 要 用 到 高 速 、 高 价 、 高 能 耗 的 电路 技术 。 

非 稀 玻 的 线性 代数 是 LINPACK 基准 测试 程序 和 科学 计算 的 一 个 重要 部 分 。 尽 管 这 个 基 
准 测 试 程序 仅 评估 了 科学 计算 一 个 很 小 的 方面 ， 它 是 这 么 多 年 来 为 数 不 多 的 在 各 种 计算 机 上 
都 可 用 的 基准 测试 程序 之 一 。 图 1-10 显示 了 LINPACK 在 CRAY 上 的 性 能 (August et al. 1989; 








20 














22 








16 并行 计算 机 体 夭 22 #4 





Russel 1978)， 并 和 最 快 的 基于 微 处 理 器 的 工作 站 和 服务 器 进行 了 比较 。 对 于 每 个 系统 ， 都 
给 出 了 两 个 数据 点 。 较 低 的 针对 100 x 100 和 矩阵， 高 的 针对 1 000 x 1 000 FAIA, TE m EA BEE 
中 ， 单 个 处 理 器 的 性 能 提高 是 通过 在 一 定 程 度 上 缩短 周期 时 间 ， 而 主要 是 通过 提高 内 存 带 宽 
来 达到 的 。 在 微 处 理 器 系统 中 ， 我 们 看 到 的 效果 是 提高 时 钟 频率 、 片 载 流 水 线 浮 点 单元 、 增 
加 片 载 高 速 缓存 的 规模 、 增 加 片 外 二 级 高 速 缓存 的 规模 ， 以 及 开发 指令 级 并 行 性 的 综合 效 
果 。 它 们 的 差距 在 迅速 减 小 。 
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图 !-10 超级 计算 机 的 单 处 理 器 性 能 和 基于 微 处 理 器 的 系统 在 LINPACK 基准 测试 程序 上 的 性 能 ， 图 
示 是 最 快 的 向 量 计算 机 CRAY 和 最 快 的 工作 站 在 100 x 100 和 1000 x 1000 矩阵 上 的 性 能 比较 


向 量 计算 机 和 微 处 理 器 设计 都 可 以 采用 多 处 理 器 体系 结构 ， 但 规模 是 相当 不 同 的 。 
CRAY Xmp 最 先 采用 了 两 个 ， 然 后 是 4 个 处 理 器 ，Ymp 用 了 8 个 ，C90 用 了 16 个，T94 为 32 
个 处 理 器 。 而 基于 微 处 理 器 的 超级 计算 机 最 初 就 有 约 100 个 处 理 器 ，1990 年 增长 到 1000 个 。 
这 种 含有 大 量 处 理 器 的 系统 被 称 为 大 规模 并 行 处 理 器 (MPP)， 紧 紧 跟 踪 微 处 理 器 的 发 展 ， 
通常 只 是 比 最 先进 的 基于 微 处 理 器 的 工作 站 和 个 人 计算 机 落后 一 两 年 。 如 图 1-11 所 示 ， 在 
LINPACK 测试 程序 中 占 主要 地 位 的 是 由 大 量 较 慢 一 些 的 微 处 理 器 构成 的 系统 (注意 在 图 1-10 
中 用 的 是 MFLOPS， 这 里 是 GFLOPS)。 在 比较 完整 的 应 用 程序 上 ，MPP 相 比 于 传统 向 量 计 算 
机 性 能 的 优势 不 是 很 明显 (Bailey et al.1994) ， 这 和 程序 语言 、 编 译 器 和 算法 的 不 成 熟 有 关 ， 
不 过 朝 着 MPP 发 展 的 趋势 是 有 深刻 影响 的 。 当 CRAY 研究 所 于 1993 年 公布 了 基于 DEC Alpha 
徽 处 理 器 的 T3D 时 ， 这 种 趋势 的 重要 性 就 更 加 明显 了 。 
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图 1-11 在 超级 计算 机 和 MPP 上 LINPACK 基准 测试 程序 的 性 能 峰值 。 图 示 为 CRAY 多 处 理 器 并 行 计 算 机 和 
最 快 的 MPP 系统 处 理 求解 线形 方程 的 峰值 性 能 ， 用 GFLOPS 表示 ， 注 意图 1-10 是 通过 MFLOPS 表示 


最 近 ，LINPACK 基准 测试 程序 被 用 来 对 世界 上 最 快 的 计算 机 进行 排序 。 图 1-12 显示 了 
前 500 个 系统 的 情况 ， 包 括 多 处 理 器 并 行 向 量 处 理 器 (PVP), MPP 和 基于 总 线 的 共享 内 存 
多 处 理 器 (SMP) 的 数量 。 后 两 种 都 是 基于 微 处 理 器 的 ， 趋 势 很 明显 。 


图 1-12 全球 用 于 500 台 最 快 的 计算 机 系统 类 

型 ， 并 行 向 量 处 理 器 (PVP) 已 让 位 
o 于 基于 微 处 理 器 的 海量 并 行 处 理 器 和 
11493 11/94 11/95 11/96 基于 总 线 的 对 称 共 享 存储 多 处 理 器 





1.1.5 小 结 


通过 从 各 个 方面 的 考察 ， 包 括 经 济 、 技 术 、 体 系 结构 和 应 用 需求 ， 我 们 看 到 并 行 体系 结 





23 














18 并 行 计算 机 体 夭 结构 





构 日 益 重要 。 人 们 对 性 能 强烈 的 追求 ， 使 得 在 计算 机 设计 的 不 同 层次 和 不 同 点 上 都 在 开发 并 
行 性 。 指 令 级 并 行 性 在 现代 高 性 能 的 处 理 器 中 开发 。 从 根本 上 讲 ， 在 桌面 系统 之 外 都 是 多 处 
理 避 ， 包 括 服务 器 、 大 型 机 和 超级 计算 机 。 人 性 能 曲线 的 高 端 是 海量 并 行 处 理 器 。 在 大 规模 并 
行 系统 的 应 用 面 正在 扩大 。 本 书 的 重点 在 于 多 处 理 器 级 别 的 并 行 性 。 我 们 将 研究 那些 体现 在 
不 同 规模 并 行 机 中 的 设计 原理 ， 从 而 来 理解 各 种 并 行 体系 结构 的 谱系 。 

人 们 讨论 并 行 计算 机 通常 都 是 从 处 理 器 角度 出 发 的 ， 但 如 果 你 从 内 存 的 观点 看 ， 可 能 也 
会 得 到 同样 的 结论 。 考 虑 要 设计 一 个 支持 海量 数据 〈 即 大 规模 问题 的 数据 集 ) 的 简单 的 内 存 
系统 。 计 算 机 体系 结构 的 一 个 规律 是 快速 内 存 容量 较 小 ， 容 量 大 的 内 存 慢 。 这 是 由 许多 因素 
造成 的 ， 包 括 地 址 解码 时 间 、 加 长 位 线 的 延迟 、 密 集 存储 单元 的 驱动 较 小 ， 选 择 电路 延迟 
等 。 结 果 就 是 内 存 系 统 应 该 是 一 个 分 层 结构 ， 层 数 越 高 的 容量 越 大 ， 速 度 越 慢 : 平均 来 讲 ， 
如 有 果 局 部 性 很 好 ， 层 次 存储 系统 就 会 很 快 。 另 一 种 办 法 是 我 们 可 以 绕 过 物理 规律 的 限制 ， 用 
不 同 的 处 理 器 来 读 取 彼 此 之 间 无 关 的 小 内 存 。 当 然 ， 物 理 规律 不 是 那么 容易 被 躲 过 的 。 当 处 
理 器 要 读 取 非 局 部 数据 时 ， 我 们 就 要 付出 称 为 通信 的 代价 ， 而 当 我 们 要 协调 许多 处 理 器 的 动 
作 时 ， 我 们 也 要 付出 同步 操作 的 代价 。 


1.2 并 行 体系 结构 的 融合 


从 历史 上 看 来 ， 并 行 机 在 几 个 阵营 中 同时 发 展 。 所 以 ， 大 多 数 教科 书 关于 这 段 历史 ， 都 
并 列 地 介绍 。 但 是 ， 仔 细 研 究 并 行 体系 结构 的 发 展 ， 可 以 清楚 地 看 到 有 关 设 计 都 被 相似 的 技 
术 发 展 和 应 用 需求 所 影响 。 所 以 ， 在 这 个 领域 会 发 生体 系 结构 的 融合 就 不 足 为 怪 了 。 在 这 一 
节 中 ， 将 介绍 并 行 计 算 机 体系 结构 的 框架 ， 以 使 读者 对 整个 结构 以 及 对 这 种 融合 的 必然 性 有 
大 概 地 认识 。 我 们 将 从 传统 的 阵营 开始 ， 简 要 地 回顾 并 行 机 的 发 展 历史 ， 最 后 看 它们 是 如 何 
融 为 一 体 的 。 


1.2.1 通信 体系 结构 


如 果 把 并 行 计算 机 定义 为 “一 组 通过 通信 和 协作 来 快速 解决 大 型 问题 的 处 理 单元 ”(Al- 
masi and Gottlieb 1989) ， 我 们 可 以 自然 地 把 并 行 体系 结构 看 成 是 传统 计算 机 体系 结构 在 通信 
和 处 理 单元 协作 之 上 的 扩展 。 从 本 质 上 来 说 ， 并 行 体 系 结构 用 通信 结构 扩展 了 以 前 的 计算 机 
体系 机 构 的 概念 。 计 算 机 体系 结构 有 两 个 不 同 侧面 ， 其 中 之 一 就 是 定义 关键 的 接口 抽象 ， 特 
别 是 软 硬 件 边界 和 用 户 系 统 边界 。 并 行 体系 结构 定义 了 在 边界 上 的 操作 ， 以 及 被 操作 的 数据 
类 型 。 男 一 方面 就 是 用 经 济 高 效 的 方法 来 实现 这 些 抽象 。 一 个 通信 体系 结构 也 包括 这 两 方 
面 。 它 定义 了 基本 的 通信 和 同步 操作 ， 并 且 定 义 了 组 织 结构 来 实现 这 些 操作 。 

图 1-13 表示 了 并 行 机 中 通信 的 框架 。 最 上 面 一 层 是 编程 模型 ， 这 是 程序 员 在 编程 时 所 
见 到 的 机 器 模型 。 每 一 种 编程 模型 都 指明 了 程序 的 各 个 部 分 如 何 交换 信息 和 可 以 用 来 协调 它 
的 活动 的 同步 操作 。 应 用 程序 使 用 某 种 编程 模型 。 最 简单 的 编程 模型 是 由 大 量 独立 的 顺序 程 
序 组 成 的 多 道 程 序 设计 模型 ; 在 程序 层 不 产生 任何 通信 和 协作 。 但 有 意思 的 是 真正 的 并 行 编程 
模型 ， 比 如 共享 地 址 空间 、 消 息 传递 和 数据 并 行 编程 。 我 们 可 以 直观 地 描述 这 些 模型 如 下 : 

。 共享 地 址 编程 就 像 用 公告 牌 发 布 消息 一 样 ， 你 可 以 将 要 他 人 知道 的 信息 放 在 某 个 大 
家 都 知道 的 位 置 上 。 对 每 一 个 活动 都 可 以 通过 加 某 某 在 做 某 某 任务 的 注释 来 协调 。 
。 消息 传递 就 像 电话 或 信件 一 样 ， 从 发 送 者 传 到 接收 者 。 每 一 个 消息 的 发 送 和 接收 都 
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有 定义 好 的 事件 ， 这 些 事件 是 协调 活动 的 基础 。 但 是 ， 没 有 可 以 公共 访问 的 内 存 。 
。 数据 并 行 处 理 是 一 种 更 严格 的 协作 方式 。 多 个 进程 同时 对 一 个 数据 集 的 不 同 元 素 进 
行 操作 ， 然 后 在 全 局 交换 信息 。 因 为 编程 模型 只 是 定义 了 全 局 的 并 行 处 理 效果 ， 这 
种 全 局 数据 的 重组 可 以 通过 访问 共享 内 存 或 消息 传递 来 实现 。 
在 本 书 的 后 面 将 更 准确 地 定义 这 些 编程 模型 ; 在 这 里 ， 理 解 抽象 的 层次 更 加 重要 。 





CAD 数据 库 科学 建 模 并 行 应 用 
多 个 编程 共享 WE 数据 编程 模型 
地 址 ”传递 M 
编译 或 库 通信 抽象 
用 户 / 系统 边界 
| sraa 
硬件 / 软件 边界 
通信 硬件 
物理 通信 介质 


图 1-13 并 行 计算 机 体系 结构 的 抽象 层次 。 抽 和 象 的 关键 层 在 应 用 程序 和 实际 硬件 之 间 ， 应 用 根据 编程 模型 纺 
写 ， 说 明 程序 的 各 部 分 如 何 共 享 信息 协调 动作 。 提 供 通信 和 同步 的 特殊 操作 构成 通信 抽象 ， 它 是 用 
户 程序 和 系统 实现 之 间 的 边界 。 这 个 抽象 是 通过 编译 程序 或 库 程 序 实现 的 ， 使 用 硬件 或 操作 系统 提 
供 的 原 语 。 操 作 系统 则 使 用 硬件 原 语 。 通 信 硬 件 的 组 成 结构 在 连接 机 器 的 连 线 上 有 效 地 提供 这 些 操作 


编程 模型 通过 用 户 层 的 系统 通信 原 语 实现 ， 称 之 为 通信 抽象 。 一 般 说 来 ， 一 个 编程 模型 
都 是 嵌入 在 一 个 并 行 语言 或 者 编程 环境 中 ， 所 以 要 有 映射 将 语言 结构 映射 到 特殊 的 系统 原 语 
上 。 这 些 用 户 层 的 原 语 可 能 直接 由 硬件 操作 系统 或 由 针对 具体 机 器 的 用 户 软件 ， 将 通信 抽象 
映射 到 实际 的 硬件 原 语 来 实现 。 图 1-13 中 线 间 的 距离 表示 了 层 与 层 之 间 的 映射 可 能 简单 ， 
也 可 能 非常 复杂 。 比 如 ， 一 台 机 器 上 的 所 有 处 理 器 用 load 和 store 指令 来 访问 同一 内 存单 元 ， 
这 就 可 以 实现 访问 共享 内 存 。 但 是 ， 消 息 传递 有 可 能 就 需要 包括 库 或 系统 调用 来 将 消息 写 到 
缓冲 区 中 或 读 取 它 。 

通信 体系 结构 定义 了 可 供用 户 软件 使 用 的 通信 操作 、 操 作 的 格式 和 操作 的 数据 类 型 ， 这 
非常 像 普通 处 理 器 的 指令 体系 结构 。 我 们 注意 到 ， 即 使 在 传统 的 指令 集中 ， 某 些 操作 也 可 能 
是 由 软 硬 件 共同 来 实现 的 ， 比 如 load 指令 需要 操作 系统 的 支持 来 处 理 缺 页 情况 。 通 信 体 系 
结构 使 传统 机 器 在 支持 通信 方面 也 有 所 扩展 。 

长 期 以 来 人 们 一 直 都 在 争论 ， 并 行 体系 结构 中 每 一 抽象 层 应 该 包括 什么 ， 并 且 每 一 层 的 
距离 应 该 是 多 少 。 由 于 对 底层 技术 和 不 同 “ 易 编程 ”评价 标准 的 假设 ， 这 种 争论 更 加 激烈 。 
图 1-13 中 的 软 /硬件 边界 用 平面 来 表示 ， 说 明 可 使 用 的 硬件 原 语 在 不 同 的 设计 中 或 多 或 少 有 
不 同 的 复杂 性 。 实 际 上 ， 随 着 这 个 领域 的 逐渐 成 熟 ， 这 种 情况 更 加 突出 。 在 很 多 早期 设计 
中 ， 物 理 硬件 的 设计 是 围绕 特定 编程 模型 的 ;硬件 支持 的 通信 原 语 在 本 质 上 是 等 同 于 编程 模 
型 的 。 这 种 “高 层 ” 并 行 体系 结构 方式 导致 了 非常 多 的 硬件 种 类 。 但 是 ， 随 着 人 们 对 编程 模 
型 有 了 更 好 的 理解 ， 实 现 技术 更 加 的 成 熟 ， 编 译 器 和 运行 库 已 经 开始 在 编程 模型 和 底层 硬件 
间 起 到 重要 的 桥梁 作用 。 同 时 ， 在 1.1.2 节 讨 论 的 技术 趋势 起 到 了 重要 的 影响 作用 。 这 导致 
了 组 织 结构 上 的 融合 ， 那 就 是 使 用 简单 、 通 用 的 通信 原 语 。 
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1.2.2~ 1.2.6 节 介 绍 最 广泛 使 用 的 编程 模型 ， 与 编程 模型 对 应 的 以 前 及 现在 的 并 行 机 器 
设计 风格 。 由 于 历史 上 系统 的 设计 大 都 是 面向 某 种 特例 的 编程 模型 ， 人 们 普 凯 将 编程 模型 、 
通信 抽象 和 机 融 组 织 合 在 一 起 统称 为 “体系 结构 "。 比 如 ， 共 享 内 存 体系 结构 、 消 息 传递 体 
系 结构 等 等 。 但 今天 的 并 行 机 中 有 很 多 共同 点 ， 并 且 很 多 机 器 支持 多 种 编程 模型 ， 以 前 的 方 
法 已 经 不 太 合适 了 。 知 道 体系 结构 的 融合 是 如 何 出 现 的 是 非常 重要 的 ， 所 以 在 这 节 ， 我 们 将 
从 传统 的 观点 出 发 ， 回 磊 与 每 一 种 编程 模型 对 应 的 机 器 设计 ， 并 解释 它们 的 作用 和 影响 它们 
的 技术 。 在 这 里 ， 我 们 并 不 是 要 给 出 这 些 机 器 设计 的 一 种 分 类 ， 而 是 要 通过 它们 确定 一 些 核 
心 概念 ， 正 是 这 些 概念 形成 了 当前 和 将 来 评价 机 器 权衡 的 基础 。 它 还 展示 了 微 处 理 器 和 
DRAM 所 主导 的 主要 技术 潮流 对 并 行 机 设计 的 影响 ,这 些 技术 自然 地 或 强制 地 影响 了 许多 基 
本 的 设计 。 特 别 地 ， 在 这 里 将 讲解 共享 地 址 、 消 息 传递 、 数 据 并 行 、 数 据 流 、 脉 动 阵列 。 每 
一 种 方法 ,我们 将 介绍 嵌入 编程 模型 中 的 抽象 、 设 计 风 格 的 原由 和 它 适 合 的 应 用 及 规模 。 我 
们 还 将 介绍 背后 的 技术 促 动 因素 以 及 它们 随时 间 的 演变 。 这 种 演变 反映 在 决定 机 器 速度 的 机 
器 的 组 织 结构 上 。 这 些 性 能 特点 反 过 来 又 影响 编程 模型 。 这 些 简要 评述 所 导致 的 就 是 在 组 织 
结构 上 的 融合 ， 将 集中 反映 在 1.2.7 节 中 介绍 的 一 种 通用 并 行 机 上 。 


1.2.2 共享 地 址 空间 


并 行 机 中 最 为 重要 的 一 种 就 是 共享 内 存 多 处 理 器 。 这 类 结构 的 关键 特性 就 是 通过 传统 的 
内 存 访问 指令 (load 和 store) 来 实现 通信 。 共 享 内 存 结构 已 经 有 很 长 的 历史 ， 至 少 从 1960 
年 起 ， 大 型 机 就 开始 使 用 了 ” ， 而 在 当前 计算 机 的 各 个 领域 中 几乎 都 可 以 看 到 它 的 身影 。 共 
享 内 存 多 处 理 器 结构 为 多 道 程 序 和 并 行程 序 提供 了 更 高 的 香 吐 率 。 所 以 ， 你 可 以 发 现 它 有 不 
同 规模 的 应 用 ， 从 几 个 到 几 百 个 处 理 器 。 这 一 节 中 将 研究 共享 内 存 机 器 的 通信 体系 结构 ， 以 
及 小 规模 到 大 规模 应 用 中 的 一 些 关键 组 织 问题 。 

这 种 机 器 的 主要 编程 模型 是 在 一 个 处 理 器 上 分 时 共享 ， 还 有 就 是 用 真正 的 并 行 性 来 代替 
分 时 。 严 格 地 说 ， 一 个 进程 是 一 个 虚 地 址 空间 和 一 个 或 多 个 控制 线程 。 我 们 可 以 配置 进程 使 
进程 的 部 分 地 址 空间 共享 ， 也 就 是 像 图 1-14 那样 将 它们 映射 到 共用 物理 地 址 上 。 (一 般 说 
来 ， 一 个 进程 内 的 多 个 线程 共享 部 分 的 地 址 空间 ) 线程 间 的 协作 通过 读 写 共享 变量 和 指向 共 
享 地 址 的 指针 来 实现 。 某 个 线程 对 一 逻辑 地 址 的 写 操作 对 其 他 线程 的 读 操 作 来 说 是 可 见 的 。 
这 种 通信 体系 结构 用 传统 的 内 存 操 作 来 实现 通信 和 一 些 原子 操作 的 同步 。 一 般 说 来 ， 即 使 完 
全 独立 的 进程 ， 也 会 共享 部 分 核心 地 址 空间 ， 虽然 这 只 是 由 操作 系统 代码 来 访问 。 不 过 ， 这 
种 共享 的 地 址 空间 的 模型 只 是 在 操作 系统 内 用 来 协调 进程 间 的 执行 。 

虽然 共享 内 存 可 用 于 任意 进程 间 通 信 ， 但 大 多 数 的 并 行程 序 在 使 用 虚 地 址 空间 时 都 经 过 
了 仔细 规划 。 它 们 通常 有 共享 的 代码 映像 、 私 有 的 栈 和 数据 、 进 程 或 线程 地 址 空间 中 共享 的 
区 域 。 在 这 种 简单 结构 ， 程 序 中 的 私有 变量 在 每 一 个 进程 中 ， 共 享 变量 在 每 一 个 线程 中 有 相 
同 的 地 址 和 意义 。 通 常 ， 都 采用 直接 的 并 行 策略 。 比 如 ， 每 一 个 进程 执行 一 个 并 行 循 环 中 的 一 
个 子 集 ， 或 者 组 成 一 个 进程 池 ， 从 一 个 共享 的 队列 中 获取 任务 。 第 2 章 将 深入 讨论 并 行程 序 的 
结构 。 在 这 里 ， 我 们 只 是 看 一 下 这 种 重要 的 系统 结构 思路 的 基本 发 展 和 演化 过 程 。 


O 有 人 认为 BINAC 是 第 一 台 多 处 理 器 ， 但 它 主 要 是 为 了 提高 系统 的 可 靠 性 。 它 包 会 两 个 处 理 器 ， 相 互 检 查 每 条 指 
令 的 执行 结果 。 不 过 它们 一 致 的 时 候 太 少 ， 因 此 最 终 人 们 关闭 了 其 中 一 个 。 





经 共享 地 址 、 进 程 通信 
集合 的 虚 地 址 空间 






P2: 私 有 空间 
P, 私 有 空间 


Po 私有 空间 


1-14 典型 的 共享 内 存 并 行程 序 的 内 存 模 型 。 很 多 进程 有 一 个 映射 到 它们 的 虚拟 地 
址 空间 的 共同 物理 地 址 区 域 ， 而 且 这 个 私有 空间 一 般 包 含 了 栈 和 私有 数据 





在 许多 计算 机 中 发 现 ， 共 享 内 存 多 处 理 器 的 通信 硬件 只 是 对 普通 计算 机 内 存 系统 的 扩 
展 。 如 图 1-15 那样 ， 所 有 的 计算 机 系统 都 允许 处 理 器 或 某 些 WO 控制 器 通过 一 些 硬件 互 连 来 
访问 某 些 内 存 模块 。 增 加 内 存 模 块 数 可 以 扩展 内 存 容 量 。 由 于 取决 于 系统 的 具体 组 织 策略 ， 
容量 的 增加 不 一 定 会 增加 可 利用 的 内 存 带 宽 。1/0 能 力 可 以 通过 向 IO 控制 器 增加 进一步 的 
VO 控制 器 来 扩大 。 有 两 种 方法 来 扩大 处 理 能 力 : 用 更 快 的 处 理 器 或 用 更 多 的 处 理 器 。 在 一 
个 分 时 的 工作 负载 下 ， 应 该 通过 增加 系统 的 吞吐 能 力 来 增加 处 理 能 力 。 如 果 有 更 多 的 处 理 
器 ， 则 它们 同时 运行 就 可 以 增加 系统 的 吞吐 量 。 如 果 单 个 应 用 通过 多 个 线程 来 处 理 ， 则 更 多 
的 处 理 带 应 该 加 速 该 应 用 。 硬 件 原 语 实际 上 和 通信 抽象 是 一 对 一 的 ， 这 些 操作 在 编程 模型 中 
都 可 用 。 
vO 
设备 





图 1-15 通过 加 入 处 理 器 模块 把 系统 扩展 成 共享 内 存 多 处 理 器 系统 。 很 多 系统 包括 一 个 或 多 
个 可 以 通过 硬件 的 互连网 络 被 处 理 器 和 1/0 控制 器 访问 的 内 存 模块 ， 典 型 的 是 总 
线 、 交 叉 开 关 或 多 级 互联 网 络 。 存 储 器 和 VO 能 力 通过 增加 内 存 和 LO 模块 来 增加 
其 能 力 。 共 享 存储 机 器 允许 通过 增加 处 理 器 模块 来 增加 处 理 能 力 ， 如 阴影 部 分 所 示 
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在 图 1-15 所 示 的 总 体 框架 中 ， 随 着 底层 技术 的 进步 ， 共 享 内 存 机 器 发 生 了 很 多 演变 。 
早期 的 机 器 是 “高 端 ” 主 机 配置 (Lonergan and King 1961; Padegs 1981)。 在 技术 方面 ， 早 期 
主机 中 的 存储 器 和 处 理 器 相 比 是 很 慢 的 ， 所 以 通过 多 个 存储 体 来 交叉 存放 数据 ， 即 使 对 一 个 
处 理 器 来 说 ， 也 可 以 得 到 足够 的 带宽 ;这 就 要 求 处 理 器 和 每 一 个 存储 体 之 间 都 要 互 连 。 在 应 
用 方面 ， 这 些 系 统 主 要 为 具有 大 量 工作 的 乔 吐 量 来 设计 。 这 样 ， 为 了 满足 IO 的 工作 负载 要 
求 ， 添 加 了 多 个 IO 通道 和 设备 。 要 求 V0 通道 直接 访问 每 一 个 存储 体 。 因 此 ， 这 些 系 统一 
般 是 通过 交叉 开关 来 组 织 ， 把 CPU 和 多 个 vo 通道 连接 到 多 个 存储 体 ， 如 图 1-16a 所 示 。 增 
加 处 理 器 主要 是 要 求 扩展 交换 机 ; 从 处 理 器 的 一 个 端口 访问 内 存单 元 的 硬件 结构 和 交换 机 的 
VO 方面 是 不 必 改 变 的 。 处 理 器 的 大 小 和 代价 限制 这 些 早 期 的 系统 只 能 具有 少量 的 处 理 器 ， 
但 是 当 硬 件 的 密度 和 代价 改善 的 时 候 ， 就 可 以 考虑 更 大 规模 的 系统 。 扩 展 交叉 开关 的 代价 成 
为 了 限制 的 因素 ， 并 且 在 很 多 情况 下 它 被 多 级 互连网 所 替代 ， 如 图 1-16b 所 示 ， 其 中 代价 随 
着 端口 数目 而 缓慢 增加 。 带 来 这 种 好 处 的 代价 是 ， 如 果 所 有 的 端口 一 起 使 用 ， 应 用 程序 会 感 
到 延迟 的 增加 和 每 个 端口 带宽 的 降低 。 直 接 通 过 每 个 处 理 器 访问 存储 器 的 能 力 有 多 个 好 处 : 
每 个 进程 可 以 在 任何 处 理 器 上 运行 或 处 理 任何 IO 事件 ， 数 据 结 构 可 以 在 操作 系统 内 部 进行 
共享 。 





b) 多 级 互连网 


多 1-16 典型 的 共享 存储 多 处 理 器 互 连 模式 。 多 个 处 理 器 和 具有 局 部 缓存 JAS 来 表示 ) 以 及 

VO 控制 器 可 以 通过 交叉 开关 、 多 级 互连网 络 或 者 总 线 进行 互 连 ， 以 增加 多 存储 模块 
随 着 20 世纪 80 年 代 中 期 32 位 微 处 理 器 的 出 现 ， 处 理 器 、 高 速 缓存 、 浮 点 和 存储 管理 
单元 可 以 放置 在 一 个 单独 的 电路 板 上 (Bell 1985) ， 甚 至 可 以 在 一 个 主板 上 安放 两 个 处 理 器 ， 
共享 存 储 多 处 理 器 系统 开始 得 到 广泛 的 使 用 。 大 多 数 中 档 机 器 ， 包 括 小 型 机 、 服 务 器 、 工 作 
站 以 及 个 人 电脑 ， 都 是 通过 一 条 中 央 的 内 存 总 线 连接 起 来 的 ， 如 图 1-16c 所 示 ; 而 且 总 线 还 
可 以 支持 多 个 处 理 器 。 标 准 的 总 线 访 问 机 制 允许 任何 处 理 器 访问 系统 中 的 任何 物理 地 址 。 就 
像 基 于 交换 机 的 设计 ， 所 有 的 存储 单元 和 所 有 的 处 理 器 距离 相等 ， 所 以 所 有 的 处 理 器 在 内 存 
访问 时 具有 相同 的 访问 时 间或 延迟 .这 种 配置 通常 被 称 作对 称 多 处 理 器 (SMP)? 。SMP 结 构 





O SMP 这 个 术语 在 很 多 场合 使 用 ， 但 引起 了 一 些 歧义 。 到 底 是 什么 需要 对 称 ” 从 某 种 意义 上 讲 ， 许 多 设计 都 是 对 
称 的 。 更 加 精确 的 刻画 SMP 意图 的 是 共享 存储 多 处 理 器 ， 其 中 访问 一 个 存储 单元 的 代价 对 所 有 处 理 器 都 是 相同 
AY; 即 ， 它 对 存储 器 的 访问 代价 是 统一 的 。 如 果 一 个 存储 单元 被 缓存 了 ， 访 问 会 快 些 ， 但 缓存 的 访问 时 间 对 所 
有 处 理 器 也 是 相同 的 。 
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在 并 行程 序 和 多 道 程 序 中 均 被 广泛 使 用 。 基 于 总 线 的 典型 对 称 多 处 理 器 的 组 织 在 图 1-17 中 
示 出 。 它 描述 了 市 场 上 出 现 的 第 一 类 高 集成 的 SMP 结构 。 图 1-18 表示 了 高 端 服务 器 的 组 织 ， 
把 物理 存储 分 配 到 处 理 器 的 各 个 模块 ， 但 是 保持 了 对 称 访 问 。 





1、2 或 4 路 交叉 
DRAM 






图 1-17a 包含 4 个 Intel Pentium Pro 处 理 器 的 “四 封装 ”的 物理 和 逻辑 组 织 。 在 很 多 多 处 理 器 服务 器 
中 使 用 的 Intel 的 4 处 理 器 Pentium Pro 主板 ， 表 明了 在 大 多 数 的 小 规模 共享 存储 多 处 理 器 
中 所 使 用 的 主要 设计 部 件 。 它 的 逻辑 块 图 a) 表明 它 可 以 最 多 容纳 4 个 处 理 器 模块 ， 每 一 
个 包含 一 个 Pentium Pro 处 理 器 、 一 级 缓存 、 翻 译 后 援 缓冲 器 、256 KB 的 二 级 缓存 、- -个 
中 断 控制 器 ， 在 一 个 单 芯片 上 直接 和 64 位 内 存 总 线 连接 的 总 线 接口 。 该 总 线 在 66 MHz 
工作 ,内 存 事务 流水 化 达到 528 MBps 的 峰值 带宽 。 一 个 双 芯 片 的 存储 器 控制 器 和 4 芯片 
的 内 存 交 叉 单元 (MU) 把 总 线 和 多 存储 体 的 DRAM 进行 互 连 。 一 个 桥 把 内 存 总 线 和 两 个 
独立 的 PCI 总 线 连接 起 来 ， 包 括 了 主机 显示 器 、 网 络 、SCSI 和 低速 /0 HE. Pentium Pro 模 
块 包含 支持 多 处 理 器 通信 体系 结构 的 必要 逻辑 部 件 ， 包 括 所 要 求 的 内 存 和 缓存 一 致 性 。 
Pentium Pro 的 “四 封装 ”和 很 多 早期 的 SMP 设计 相似 ， 但 是 却 具 有 更 高 的 集成 性 并 且 以 更 
高 的 容量 为 目标 。 图 1-17b 示 出 了 典型 的 Pentium Pro SMP 的 扩展 ，IX 系列 的 HP 网 络 服务 器 
来 源 : 经 Hewlett-Packard 公司 允许 。 


限制 处 理 器 数目 的 因素 ， 在 基于 总 线 和 基于 交换 机 的 组 织 方法 上 是 相当 不 同 的 。 在 交换 
上 增加 处 理 器 是 很 昂贵 的 ， 然 而 ， 随 着 端口 的 增加 ， 总 的 带宽 增加 了 。 在 总 线 上 增加 一 个 处 
理 器 的 代价 比较 小 ， 但 是 总 的 带宽 固定 不 变 。 在 很 多 处 理 器 之 间 分 配 固定 的 带宽 限制 了 这 种 
方法 的 实际 可 扩展 性 (图 1-9 中 所 示 的 是 关键 的 总 线 带宽 )。 幸 运 的 是 ， 高 速 缓存 减 小 了 每 
个 处 理 器 的 带宽 要 求 ， 因 为 很 多 内 存 引用 通过 它 得 到 了 满足 而 不 需要 通过 总 线 到 达 存 储 器 。 
然而 ， 在 把 数据 复制 到 局 部 缓存 之 后 ， 使 得 缓存 “一 致 ”就 成 为 了 潜在 的 难题 ， 这 将 在 第 
5、6、8 章 进行 详细 讨论 。 

从 小 规模 的 共享 存储 机 器 开始 ， 如 图 1-16 ~ 图 1-18 所 示 ， 我 们 可 能 会 问 要 使 得 设计 可 
以 扩展 到 很 多 的 处 理 器 需要 什么 样 的 要 求 。 基 本 的 处 理 器 部 件 很 适合 于 这 个 任务 ， 因 为 它 小 
而 经 济 ， 但 是 互 连 确实 还 存在 问题 。 由 于 固定 带宽 的 原因 ， 总 线 不 能 够 扩展 。 由 于 代价 和 端 
口 数 目的 平方 成 正比 增长 ， 所 以 交叉 开关 也 不 能 够 很 好 的 扩展 。 还 存在 一 些 其 他 的 可 扩展 互 
连 网 络 ， 比 如 当 更 多 的 处 理 器 加 入 时 总 的 带宽 也 可 以 增加 ， 但 是 代价 却 没有 太 大 增长 。 这 时 
我 们 需要 认真 考虑 时 延 方面 的 增长 ， 因 为 处 理 器 可 能 在 数据 从 处 理 器 到 内 存 模块 之 间 传送 的 








32 








24 HAP It LM RAE 





时 候 停 目 下来。 如果 访问 的 时 延 太 大 ， 处 理 器 将 花费 很 多 的 时 间 等 待 ， 这 样 多 个 处 理 器 的 好 


处 就 难以 利用 。 
内 存 板 达到 2 GB 


。 SIMM ai 







1~2 处 型 器 板 


Pentium Pro 166 MHz 


2 CPU/ 板 控制 面板 
。Onjoff 交换 开关 
辅助 处 型 器 板 的 档 口 _ 
背面 面板 
。 2 个 串口 : 
° 1 个 并 口 ~ 
。 1 个 视频 口 


6 PCI 总 线 主 档 
4 EISA Hi 
35.25" 


Hot-swap 
完 余 能 量 提供 “~ 


两 个 集成 PCI 
快 而 大 的 SCSI 控 制 只 


”可 容纳 12 4 hot-swap 
TRN f | 磁盘 模型 


144 MB 灵活 的 磁盘 驱动 器 
CD-ROM 
图 1-17b 包含 四 个 Pentium Pro 处 理 器 “四 封装 ”的 物理 组 织 


一 个 自然 的 方法 是 建造 可 扩展 的 共享 存储 机 器 ， 以 维持 如 图 1-15 所 示 的 统一 的 存储 器 
访问 方式 〈 也 称 为 “舞池 ”) ， 并 提供 一 个 处 理 器 和 存储 器 之 间 的 可 扩展 互 连 。 每 一 个 存储 器 
访问 都 被 翻译 成 网 络 上 的 消息 事务 ， 就 像 可 以 在 SMP 的 设计 中 翻译 成 总 线 事务 一 样 。 这 种 


Hie 3l 论 25 


方法 的 主要 不 利之 处 是 总 的 网 络 延 迟 在 每 个 存储 器 访问 的 过 程 中 形成 ， 并 且 必须 给 每 个 处 理 
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图 1-18 Sun Enterprise 服务 器 的 物理 和 逻辑 组 织 。 基 于 UltraSpare Enterprise 的 多 处 理 器 服务 器 代表 了 一 种 
较 大 规模 的 设计 。 该 图 说 明了 它 的 物理 结构 和 逻辑 组 织 。 一 个 宽 的 (256 位 ) 、 高 度 流水 的 存储 
器 总 线 提供 了 高 达 2.5 GBps 的 存储 带宽 。 该 设计 使 用 了 层次 式 的 结构 ， 其 中 每 一 个 卡 或 者 是 一 
个 完整 的 具有 存储 器 的 双 处 理 器 或 者 是 完整 的 IO 系统 。 完 整 的 配置 每 种 类 型 支持 16 个 卡 ， 每 
种 至 少 一 个 。CPU/ 内 存 包含 两 个 UltraSpare 处 理 器 模块 ， 每 一 个 具有 一 个 16 KB 的 一 级 缓存 和 一 
个 512 KB 的 二 级 缓存 ， 外 加 两 个 512 位 宽 的 存储 体 和 内 部 交换 机 。 这 样 ， 增 加 处 理 器 增加 了 存 
储 器 的 大 小 和 存储 交叉 度 。L10 卡 提供 了 用 来 /0 扩展 的 3 个 SBUS 插 槽 ， 一 个 SCSI 连接 器 ， 一 
个 100bT 的 以 太 网 端口 ， 和 两 个 电缆 通道 接口 。 一 个 典型 的 完整 配置 应 该 具有 24 个 处 理 器 和 6 个 
VO 卡 。 尽 管 存储 体 和 处 理 器 成 对 封装 ， 所 有 的 内 存 和 所 有 的 处 理 器 距离 相等 ， 并 且 通 过 通用 总 线 
来 访问 ,保证 了 SMP 的 特点 。 数 据 可 以 被 放置 在 机 器 的 任何 位 置 ， 而 不 会 有 任何 性 能 的 影响 

RR: BH MRA Sun 微 系统 公司 所 有 ， 经 过 允许 使 用 。 

另 一 种 可 能 的 方法 是 把 处 理 器 和 局 部 存储 器 构成 的 “节点 ”相连 ， 就 像 图 1-19 所 示 的 
那样 。 在 这 种 非 统 一 的 内 存 访问 (NUMA) 方法 中 ， 局 部 存储 器 控制 器 决定 了 是 否 执行 局 部 
存储 器 访问 或 者 通过 一 个 远程 的 存储 控制 器 来 执行 消息 事务 。 访 问 局 部 存储 器 比 远 端的 速度 
ER (LO 系统 可 以 是 每 个 节点 的 一 部 分 , 或 者 固定 到 特定 的 IO 节点 中 ， 这 里 没有 显示 出 
来 )。 访 问 私有 数据 ， 比 如 代码 段 或 堆栈 段 ， 常 常 可 以 在 本 地 执行 ， 就 像 访 问 放 在 本 地 的 共 
享 数据 。 快 速 访问 本 地 存储 器 的 能 力 没有 增加 远程 数据 的 访问 时 间 ， 所 以 它 减少 了 平均 的 访 
问 时 间 ， 当 访问 的 大 部 分 是 本 地 数据 的 时 候 尤 为 如 此 。 同 时 ， 对 网 络 的 带宽 要 求 也 降低 了 。 
尽管 纯粹 共享 的 对 称 处 理 器 要 显得 简单 些 ，NUMA 方法 在 大 规模 的 机 器 上 已 经 成 为 主流 ; 这 
是 因为 它 潜在 的 性 能 优点 ， 并 且 它 很 好 地 利用 了 主流 的 处 理 髓 存储 系统 技术 。 这 种 风格 的 一 
个 例子 是 CRAY T3E， 如 图 1-20 所 示 。 这 种 机 器 反映 了 以 下 的 观点 ; 尽管 每 个 处 理 器 对 每 个 
存储 体 都 可 以 进行 访问 ， 处 理 器 间 的 存储 分 布 是 对 编程 者 公开 的 。 高 速 缓存 只 是 用 来 存放 来 
自 局 部 存储 器 的 数据 〈 和 指令 ) ， 避 免 经 常 进 行 远程 数据 引用 成 为 编程 者 的 责任 。SGI Origin 
是 这 种 具有 同样 组 织 结构 的 例子 ， 但 是 它 允 许 数据 从 任何 存储 器 复制 到 任何 缓存 中 ， 并 且 提 
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供 了 硬件 支持 以 使 得 缓存 保持 缓存 一 致 性 而 不 必 依靠 互 连 所 有 模块 的 总 线 。 在 写本 书 的 时 
候 ， 随 着 两 个 公司 的 合并 ， 这 两 种 设计 实际 上 正在 走向 统一 。 





可 扩展 网 络 





图 1-19 ” 非 统一 的 内 存 访问 (NUMA) 可 扩展 的 共享 内 存 多 处 理 器 组 织 。 处 理 器 和 存 
储 模 块 紧密 集成 ， 以 使 得 对 局 部 存储 器 的 访问 比 对 远 端 存储 器 的 访问 更 快 





图 1-20 CRAY DBE 可 扩展 共享 地 址 空间 机 器 。CRAY BE 可 以 扩展 到 多 达 上 千 的 处 理 器 ， 并 可 以 支持 
全 程 共享 地 址 空间 。 每 一 个 节点 包含 了 一 个 DEC Alpha 的 处 理 器 、 局 部 存储 器 、 一 个 和 存储 
控制 器 集成 的 网 络 接口 以 及 一 个 网 络 交换 机 。 机 器 组 织 成 了 一 个 三 维 的 立方 体 ， 每 个 节点 通 
过 650 MBps 的 点 到 点 链 路 连接 到 它 的 六 个 邻居 。 任 何 处 理 器 可 以 读 和 写 任何 的 内 存 位 置 ; 然 
而 ，NUMA 的 特点 在 于 它 的 通信 结构 和 它 的 性 能 特征 。 需 要 一 个 短 的 指令 序列 来 增加 对 远 端 
存储 器 的 寻 址 能 力 ， 使 得 可 以 通过 传统 的 装 人 和 存储 来 访问 。 内 存 控制 器 截获 对 远 端 存储 器 
的 访问 ， 并 代表 局 部 处 理 器 和 远 端 节点 的 存储 控制 器 进行 一 个 消息 事务 。 消 息 事 务 通过 中 间 节 
点 自动 路 由 到 目的 节点 ， 并 且 每 一 “ 跳 ” 都 有 一 个 延迟 。 远 端的 数据 没有 被 缓存 ， 因 为 没有 看 
件 机 制 保持 它 的 一 致 性 。( 我 们 以 后 还 将 考察 其 他 的 设计 ， 它 们 允许 共享 数据 通过 处 理 器 缓存 被 
HTL) CRAY DE 的 VO 系统 在 立方 体 的 表面 进行 分 布 ， 通 过 附加 的 1/ O 网 络 和 外 部 世界 相连 

来 源 : CRAY Research 提供 的 照片 。 


总 之 ， 共 享 地 址 空间 编程 模型 中 的 通信 和 协作 包括 对 共享 变量 的 读 和 写 ;这 些 操作 直接 
映射 到 对 全 局 共享 地 址 空间 进行 装 人 和 存储 的 操作 ， 直 接 在 硬件 上 通过 对 共享 物理 地 址 空间 
的 访问 来 实现 。 编 程 模型 和 通信 抽象 和 实际 的 硬件 非常 贴近 。 每 一 个 处 理 器 可 以 命名 机 器 中 
的 每 个 物理 地 址 单元 ; 一 个 进程 可 以 在 它 的 虚拟 地 址 空间 中 命名 它 和 其 他 部 分 所 共享 的 数 
据 。 数 据 的 传送 可 能 以 指令 集 的 原始 类 型 ( 字 节 、 字 等 ) 为 单位 ， 也 可 能 以 缓存 块 为 单位 。 
每 一 个 进程 在 它 的 虚拟 地 址 空间 内 对 它 的 地 址 执行 内 存 操作 ; 地 址 翻译 过 程 确定 了 一 个 物理 
单元 ， 可 能 是 在 本 地 ， 也 可 能 在 远 端 ， 还 可 能 和 其 他 进程 共享 。 在 每 一 种 情况 下 ， 硬 件 直 接 
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对 它 进 行 访 问 ， 而 没有 用 户 和 系统 软件 的 干预 。 地 址 翻译 在 共享 地 址 空间 内 实现 保护 翻译 ， 
就 像 单 处 理 器 一 样 ， 进 程 只 能 访问 它 自 己 虚 拟 地 址 空间 内 的 数据 。 

共享 内 存 方法 的 有 效 性 取决 于 存储 器 访问 的 时 延 ， 以 及 可 以 支持 的 数据 传输 的 带宽 。 如 
同 存储 层次 使 得 绪 定 到 一 个 地 址 的 数据 能 向 处 理 器 迁移 那样 ， 从 存储 地 址 空间 的 角度 来 表达 
通信 可 以 使 共享 的 数据 向 访问 它 的 处 理 器 迁移 。 然 而 ， 通 过 一 个 通用 的 互连网 络 来 迁移 和 复 
制 数据 提出 了 一 类 特殊 的 难题 。 我 们 将 看 到 为 了 在 这 样 一 个 设计 中 得 到 可 扩展 性 ， 整 体 解决 
方案 ,包括 用 来 维护 一 致 性 共享 内 存 抽象 的 硬件 互 连 机 制 ， 必 须 能 够 很 好 地 扩展 。 


1.2.3 消息 传递 


第 二 个 重要 的 并 行 机 家 族 ， 称 为 消息 传递 体系 结构 ， 它 把 整个 计算 机 作为 基本 模块 ( 包 
括 微 处 理 器 、 内 存 、IO AS), ， 并 用 显 式 的 1/0 操作 完成 处 理 器 之 间 的 通信 。 消 息 传递 机 器 
的 高 层 框图 和 NUMA 共享 内 存 的 方式 基本 上 是 一 样 的 ， 如 图 1-19 所 示 。 主 要 的 区 别 就 是 通 
信和 是 在 VO 系统 而 不 是 在 内 存 系统 集成 的 。 这 样 的 设计 和 工作 站 机 群 有 很 多 相同 之 处 ， 只 是 
节点 间 的 联系 要 紧密 ， 并 且 不 是 每 个 节点 都 有 终端 和 键盘 ， 互 连 网 络 的 性 能 要 比 标准 局 域 网 
高 得 多 。 处 理 器 和 网 络 之 间 的 联系 要 比 传统 计算 机 中 处 理 器 和 1/0 的 联系 紧密 得 多 ， 这 是 因 
为 传统 的 计算 机 中 处 理 器 是 和 较 慢 的 外 设 通信 ， 而 消息 通信 从 根本 上 说 是 处 理 器 和 处 理 器 之 
间 的 通信 。 

在 消息 传递 中 ， 程 序 模型 和 实际 的 硬件 原 语 之 间 有 很 大 的 距离 ， 所 以 用 户 通 过 操作 系统 
或 系统 库 来 调用 低层 的 通信 操作 。 这 样 ， 我 们 的 讨论 从 通信 抽象 开始 并 简要 地 看 一 下 硬件 是 
如 何 组 织 来 支持 这 种 抽象 的 。 

在 消息 传递 系统 中 ， 用 户 级 通信 的 大 多 数 操作 是 不 同类 型 的 发 送 和 接收 。 在 最 简单 的 形 
式 里 ， 发 送 操作 指明 一 个 发 送 数据 的 局 部 数据 缓冲 区 和 一 个 接收 进程 典型 情况 是 在 一 个 远 
程 处 理 器 中 )。 接 收 操作 指明 一 个 发 送 进程 和 一 个 局 部 数据 缓冲 区 ， 以 存放 收 到 的 数据 。 如 
图 1-21 所 示 ,匹配 的 发 送 和 接收 就 使 得 数据 从 一 个 进程 传送 到 另 一 个 进程 。 在 大 多 数 的 消 
息 传递 系统 中 ， 发 送 操 作 可 以 在 消息 中 指定 一 个 消息 标志 ， 接 收 操作 可 以 定义 一 个 匹配 规则 


| 地 址 了 


地 址 X | 
本 地 进程 地 址 空间 


本 地 进程 地 址 空间 





进程 P 进程 4 


图 1-21 用 户 级 发 送 /接收 消息 传递 抽象 。 如 果 发 送 进程 和 接收 进程 匹配 ， 
就 会 出 现 一 个 从 本 地 地 址 空间 到 另 一 个 本 地 地 址 空间 的 数据 传输 
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(比如 ,来 自 特定 处 理 器 的 特定 标志 或 来 自任 意 处 理 器 的 任意 标志 )。 这 样 ， 用 户 程序 相当 于 
用 抽象 的 “进程 -标志 ”来 为 自己 本 地 的 地 址 和 数据 项 命名 。 进 程 间 的 发 送 和 匹配 接收 同步 
完成 并 在 内 存 中 拷贝 数据 ， 每 个 进程 都 有 自己 的 局 部 数据 地 址 。 这 种 园 步 事件 有 好 几 种 形式 ， 
依赖 于 发 送 是 否 完成 和 接收 是 否 在 进行 ， 何 时 用 户 的 发 送 缓冲 区 可 重用 和 请 求 已 被 接受 。 类 似 
地 ， 接 收 端 可 以 等 待 用 户 发 送 或 只 是 简单 地 应 答 。 每 种 形式 都 有 不 同 的 语义 和 不 同 的 实现 要 求 。 

消息 传递 在 一 组 协作 的 顺序 化 进程 之 间 ， 作 为 一 种 通信 和 同步 的 方法 已 有 很 长 时 间 了 ， 
这 些 进 程 甚至 在 一 个 单 处 理 器 之 中 。 一 些 重要 的 程序 语言 ， 如 CSP 和 Occam, 和 一 些 操 作 系 
SK, AN socket 都 是 基于 消息 传递 模型 的 。 用 消息 传递 方式 写 的 程序 通常 是 相当 结构 化 
的 。 在 大 多 数 情 况 下 ， 所 有 的 节点 执行 程序 的 同一 拷贝 、 相 同 代码 和 各 自 的 变量 。 进 程 通常 
用 一 个 简单 线性 序 中 的 元 素来 互相 区 分 。 

早期 的 消息 传递 机 提供 了 硬件 原 语 ， 和 简单 的 用 户 层 发 送 /接收 通信 的 抽象 很 相似 ， 只 
是 稍微 有 些 额 外 的 限制 。 一 个 节点 以 一 种 规则 的 模式 连接 到 固定 的 一 个 相 邻 节点 集 ， 所 采用 
的 点 对 点 链接 的 行为 类 似 于 一 个 FIFO (Seitz 1985)。 这 种 设计 如 图 1-22 所 示 的 小 型 三 维 立 方 
体 。 许 多 早期 的 计算 机 是 超 立 方 体 结 构 ， 有 2" 个 节点 ， 每 个 节点 都 和 n 个 二 进 制 编 址 相差 
一 位 的 节点 相连 。 还 有 一 些 是 网 格 结构 ， 每 个 节点 在 二 维 或 三 维 空间 上 和 相 邻 节点 相连 。 网 
络 拓扑 在 早期 消息 传递 的 计算 机 上 是 重要 的 ， 因 为 每 个 节点 只 能 和 相 邻 的 节点 和 通信。 数据 传 
输 涉及 到 发 送 方 对 链 路 写 和 接收 方 从 链 路 上 面 读 。FIFO 的 容量 很 小 ， 发 送 者 通常 在 接收 者 
开始 接收 数据 之 前 不 能 完成 发 送 ， 因 此 发 送 操 作 会 被 阻塞 直到 接收 出 现 〈 按 照 现代 的 术语 ， 
两 个 事件 同时 发 生 ， 这 被 称 为 同步 消息 传递 )。 数 据 移动 的 细节 被 消息 传递 库 隐 藏 而 不 为 程 
序 员 所 见 ， 这 种 库 构成 发 送 与 接收 调用 和 硬件 之 间 的 一 个 软件 支持 9 。 





图 1-22 早期 消息 传递 机 的 典型 结构 。 通 过 FIFO， 每 个 节点 和 三 个 维 上 的 邻近 的 节点 相连 
简单 的 FIFO 设 计 很 快 被 更 通用 和 更 健壮 的 设计 取代 了 。 新 的 设计 在 节点 间 采 用 了 直 





包间 步 消息 传递 的 动机 不 只 是 机 器 结构 的 问题 ， 它 也 出 现在 重要 的 程序 设计 语言 中 ， 尤 其 是 CSP (Hoare 1978)， 这 
是 由 于 它 有 着 很 好 的 理论 性 质 。 在 微 处 理 器 时 代 的 早期 ， 这 种 技术 路 线 集中 地 体现 在 一 种 单片机 中 ， 即 Trans- 
puter, Æ INMOS 作为 计算 领域 变革 开发 它 的 期 间 曾 相当 有 名 。 
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接 存 储 器 访问 (DMA) 传输 。 一 个 DMA 设备 允许 在 内 存 和 o 之 间 传 输 数 据 而 不 引起 CPU 
的 介入 。DMA 允许 无 阻塞 传输 ， 发送 者 可 以 立刻 完成 操作 并 进行 其 他 的 计算 。 在 接收 方 ， 
通过 DMA 传输 的 消息 被 放 到 消息 层 的 缓冲 区 中 排队 ， 直 到 匹配 的 处 理 进 程 取 走 这 些 数 据 ， 
将 它们 拷贝 到 接收 进程 的 缓冲 区 。 

在 早期 的 并 行 机 中 网 络 的 物理 拓扑 对 程序 设计 模型 是 十 分 重要 的 ， 以 至 于 在 并 行 算法 中 
要 指定 特别 的 互 连 拓扑 ， 如 环 、 网 格 和 立方 体 结构 (Fox et al. 1988)。 尽 管 如 此 ， 为 了 使 计 
算 机 更 加 通用 ， 消 息 层 的 设计 者 提供 了 在 所 有 处 理 器 之 间 通 信 的 原 语 ， 而 不 仅仅 是 相 邻 节 
点 。 这 是 通过 让 数据 和 消息 在 网 络 中 链 路 上 转发 实现 的 ; 很 快 ， 这 种 路 由 得 到 了 硬件 实现 
( 见 第 10 章 )。 所 以 每 个 节点 由 带 有 内 存 的 处 理 器 和 交换 机 组 成 ， 交 换 机 转发 消息 。 尽 管 如 
此 ， 在 这 种 存储 - 转发 的 设计 中 ， 传 输 时 间 和 经 过 每 一 跳 的 时 间 和 跳 数 是 相关 的 ， 所 以 问题 
的 重点 仍然 是 互 连 拓 扑 (一 个 简单 的 存储 转发 的 例子 请 见习 题 1.7)。 

随 着 通用 网 络 的 引进 ， 对 网 络 拓扑 的 强调 降低 了 ， 通 用 网 络 以 在 网 络 中 路 由 器 之 间 流 水 
的 方式 处 理 消息 (Barton, Crownie, and McLaren 1994; Bomans and Roose 1989; Dunigan 1988; 
Homewood and McLaren 1993; Leiserson et al. 1996; Pierce and Regnier 1994; von Eicken et al. 
1992) 。 在 大 多 数 现代 消息 传递 机 器 中 ， 随 跳 步 的 增加 所 增加 的 延迟 越 来 越 短 ， 以 至 于 传输 
时 间 主 要 由 将 数据 从 处 理 器 送 到 网 络 上 的 时 间 来 决定 ， 而 和 要 走 的 距离 关系 不 大 ( Groscup 
1992; Homewood and McLaren 1993; Horiw et al. 1993; Pierce and Regnier 1994)。 这 就 大 大 简化 了 
程序 模型 ;典型 的 ， 处 理 器 被 看 作 是 一 个 有 统一 通信 开销 的 线形 序列 。 换 名 话说， 通信 抽象 
和 如 图 1-19 所 示 的 结构 相似 。 这 种 机 器 的 一 个 重要 例子 是 BM SP-2， 如 图 1-23 所 示 ; ER 
由 RS6000 作为 节点 构建 的 ， 有 可 扩展 的 网 络 和 通过 专用 处 理 器 实现 的 网 络 接口 。 另 一 个 设 
计 是 Intel paragon， 如 图 1-24 所 示 ， 它 把 网 络 接口 更 紧密 的 集成 在 SMP 节点 的 处 理 器 上 ， 用 
一 个 处 理 器 来 专门 支持 消息 传递 。 

消息 传递 机 中 的 处 理 器 只 可 以 对 它 的 本 地 存储 器 的 单元 命名 ， 还 可 以 通过 标识 数 或 路 由 
对 其 他 处 理 器 命名 。 一 个 用 户 进程 只 能 命名 私有 地 址 和 其 他 进程 ， 它 可 以 用 发 送 /接收 调用 
来 和 其 他 进程 通信 。 

1.2.4 融合 


硬件 和 软件 的 进展 将 曾经 是 很 清晰 的 共享 内 存 和 消息 传递 之 间 的 界限 变 得 模糊 起 来 。 首 
先 ， 计 我 们 看 一 下 用 户 进程 可 见 的 通信 操作 : 

。 大 多 数 共 享 存储 机 器 现在 都 支持 传统 的 消息 传递 操作 (发 送 /接收 )， 其 方式 是 通过 
共享 的 缓冲 区 存储 。 发 送 把 数据 或 数据 指针 写 到 缓冲 区 ; 接收 从 共享 的 缓冲 区 读数 
据 。 标 志和 锁 被 用 来 控制 对 缓冲 区 的 访问 ， 例 如 通报 消息 的 到 来 。 

。 在 消息 传递 机 器 中 ,一 个 用 户 进 程 可 以 构造 一 个 全 局 地 址 空间 ， 用 指针 来 体现 进程 
和 该 进程 内 的 局 部 虚拟 地 址 。 对 这 样 的 全 局 地 址 的 访问 可 以 用 软件 通过 一 个 显 式 的 
消息 事务 来 完成 。 大 多 数 的 消息 传递 库 允 许 进程 接收 任何 进程 的 消息 ， 所 以 每 个 进 
程 都 能 为 其 他 进程 提供 数据 。 一 个 逻辑 的 读 操作 的 实现 可 以 通过 对 包含 相关 对 象 的 
进程 发 消息 ， 并 接收 一 个 响应 。 实 际 的 消息 可 能 是 用 户 看 不 到 的 ， 可 能 是 由 编译 器 
产生 的 用 来 访问 共享 变量 的 代码 来 完成 。 

”在 消息 传递 机 器 中 ， 可 以 在 页 的 级 别 实现 一 个 共享 的 虚拟 地 址 空间 。 一 组 进程 有 一 
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个 共享 的 地 址 区 ， 但 是 ， 对 每 个 进程 来 说 ， 只 能 访问 本 地 的 页 。 当 发 出 的 地 址 涉及 
一 个 远程 的 页 时 ， 缺 页 发 生 ， 引 起 操作 系统 来 从 远程 节点 将 该 页 调 来 ， 并 映射 到 用 
户 的 地 址 空间 。 | 






8 个 端口 的 交换 机 
形成 通用 互连网 


图 1-23 IBM SP-2 消息 传递 机 。IBM SP-2 是 一 个 可 扩展 的 并 行 机 ， 由 RS6000 构建 。 一 个 网 络 接口 
F (NIC) 被 接 到 MicroChannel IO 总 线 。NIC 包括 处 理 网 络 连 接 的 驱动 器 和 一 个 缓冲 消息 
数据 的 内 存 ， 一 个 DMA 设备 和 i860 微 处 理 器 在 内 存 和 网 络 间 传递 数据 。 网 络 的 结构 类 似 
蝴蝶 。 由 8x 8 的 交叉 开关 组 成 。 在 每 个 节点 上 的 连接 的 带宽 是 40 MBps, VO 总 线 的 最 
大 容量 。 一 些 其 他 的 计算 机 有 相似 的 网 络 接口 ， 但 是 直接 接 到 内 存 总 线 而 不 是 WO 总 线 
来 源 : Ray Mains Photography。 
在 机 器 组 织 的 级 别 也 出 现 了 实质 性 的 融合 。 现 代 消 息 传递 体系 结构 在 框图 层次 和 如 图 1- 
19 所 示 的 可 扩展 NUMA 设计 在 本 质 上 是 相同 的 。 在 共享 内 存 的 设计 中 ， 网 络 接口 和 缓存 控 
制 器 或 内 存 控制 器 集成 在 一 起 ， 使 它 能 够 观察 到 缓存 扑 空 ， 从 而 通过 消息 事务 来 进行 远程 节 
点 内 存 的 访问 。 在 消息 传递 的 方式 中 ， 网 络 接口 基本 上 是 一 种 0 设备 。 尽 管 如 此 ， 趋 势 是 
使 它 更 深 地 集成 到 内 存 系统 ， 并 直接 在 用 户 地 址 空间 传送 数据 。 一 些 设计 提供 跨 网 络 的 
DMA 传输 ， 从 一 台 机 器 的 内 存 直 接 传 到 另 一 台 机 器 ， 所 以 网 络 接口 要 相当 紧密 地 和 内 存 系 
统 集成 起 来 。 消 息 传 递 是 通过 远程 内 存 拷贝 来 实现 的 (Barton, Crownie, and McLaren 1994), 
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在 一 些 设计 中 ， 一 个 完整 的 处 理 器 用 来 辅助 通信 ， 与 主 处 理 器 共享 一 个 缓存 一 致 的 存储 总 线 
(Groscup 1992; Pierce and Regnier 1994) 。 从 另外 一 个 方面 来 看 这 种 融合 ， 可 见 所 有 大 规模 的 
共享 存储 操作 在 根本 上 都 是 由 某 种 层次 的 消息 事务 来 实现 的 。 





Sandia 的 基于 Intel Paragon XP/S 超级 计算 机 


和 每 个 交换 机 相连 的 处 
理 节 点 的 二 维 网 格 网 络 


图 1-24 Intel Paragon. Intel Paragon 显示 了 节点 上 更 紧密 的 连接 。 每 个 节点 都 是 一 个 由 两 个 或 多 个 
i860 处 理 器 及 一 块 连接 在 高 速 缓存 一 致 的 内 存 总 线 上 的 网 络 接口 芯片 的 SMP。 处 理 器 之 
一 用 来 提供 网 络 服务 ， 另 外 ， 节 点 上 还 有 一 个 DMA 引擎 用 来 以 较 快 的 速率 传递 大 块 的 
数据 。 网 络 是 一 个 3D 网 格 结 构 ， 很 像 CRAYT3E， 每 个 方向 上 链 路 速度 是 175 MBps 

来 源 : Intel 公司 的 支持 。 

除了 可 扩展 的 消息 传递 和 共享 存储 机 器 的 融合 外 ， 基 于 交换 的 局 域 网 ， 包 括 快 速 以 太 
网 、ATM、 光 通道 和 一 些 其 他 专 有 设计 (Boden et al. 1995; Gillett 1996) 已 经 出 现 ， 提 供 了 可 
扩展 的 网 络 连接 ， 这 与 传统 并 行 机 器 提供 的 连接 相近 。 这 些 新 的 网 络 被 用 来 连接 若干 机 器 
(本 身 可 能 是 SMP) 构成 机 群 ， 对 于 处 理 大 型 问题 ， 它 就 像 一 个 并 行 机 ， 而 对 于 多 道 程序 ， 
它 就 像 是 很 多 独立 机 器 的 组 合 。 实 质 上 ， 所 有 的 SMP 厂商 都 提供 某 种 形式 的 网 络 机 群 方式 
来 获得 更 高 的 可 靠 性 。 

总 的 来 说 ， 消 息 传递 和 共享 地 址 空间 代表 两 个 完全 不 同 的 编程 模型 ， 每 一 个 都 对 共享 、 
通信 和 同步 有 明确 的 定义 。 尽 管 如 此 ， 底 层 的 机 器 结构 已 经 在 向 一 种 共同 的 组 织 结构 融合 ， 
这 种 共同 的 组 织 结构 就 是 一 组 完整 的 计算 机 ， 某 种 通信 辅助 部 件 将 每 个 节点 连接 到 一 个 可 扩 
展 的 通信 网 络 上 。 这 样 ， 考 虑 在 这 种 通用 框架 上 支持 两 种 模型 就 是 很 自然 的 了 。 把 通信 和 辅助 
部 件 更 紧 的 集成 在 内 存 系统 上 能 减少 网 络 事务 的 时 延 并 能 提高 网 络 的 带宽 。 我 们 会 看 到 这 些 
并 理解 它 和 缓存 设计 、 地 址 映射 、 保 护 及 体系 结构 的 其 他 传统 方面 是 如 何 互 相 作用 的 。 
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1.2.5 数据 并 行 处 理 


另 一 种 并 行 机 称 为 处 理 器 阵列 、 单 指令 多 数据 流 计 算 机 (SIMD)， 又 叫做 数据 并 行 体系 
结构 。 名 字 的 改变 反映 了 用 户 层 抽象 和 机 器 操作 的 一 种 分 离 。 教 据 并 行程 序 设计 模型 的 关键 
特征 是 操作 可 以 同时 施行 在 一 个 大 的 规则 数据 结构 〔 如 一 个 数组 或 给 阵 ) 的 每 一 个 元 素 上 。 
就 是 一 个 操作 在 许多 元 素 上 一 起 执行 。 程 序 在 逻辑 上 是 单 控制 线程 的 ， 由 一 系列 串 行 或 并 行 
的 操作 步骤 构成 。 这 种 风格 有 许多 新 颖 的 设计 ， 开 发 各 种 技术 上 的 可 能 性 ， 处 理 器 技术 的 演 
进 是 其 主导 的 推动 力 。 

20 世纪 70 年 代 早 期 有 一 篇 很 有 影响 的 文章 (Flynn 1972), ， 提 出 了 一 种 计算 机 的 分 类 法 ， 
叫做 Flynn 分 类 。 该 分 类 法 按照 同时 发 出 的 指令 数 和 指令 所 操作 的 数据 元 素 的 个 数 ， 将 常规 
的 串 行 计算 机 称 为 单 指令 单数 据 流 (SISD)， 由 多 个 常规 处 理 器 构成 的 并 行 计算 机 是 多 指令 
多 数据 流 (MIMD)。 那 时 革命 性 的 一 种 机 型 是 单 指令 多 数据 流 (SIMD)。 它 的 历史 源 于 20 t 
纪 60 年 代 中 期 ， 那 时 一 个 处 理 器 就 是 一 个 满 满 的 机 柜 ， 而 取 指 的 时 间 和 硬件 代价 和 执行 实 
际 指令 的 代价 差不多 。 于 是 就 产生 了 一 个 想法 ， 将 所 有 与 指令 有 关 的 逻辑 都 集中 到 控制 处 理 
器 中 ， 而 数据 处 理 器 只 包含 ALU、 存 储 器 和 一 些 简 单 的 互 连 逻 辑 。 

在 SIMD 机 器 中 ， 数 据 并 行程 序 模型 直接 在 硬件 中 实施 (Ball et al. 1962; Bouknight et 
al.1972; Comell 1972; Reddaway 1973; Slotnick, Borck, and McReynolds 1962; Slotnick 1967; Vick 
and Cornell 1978) 。 典 型 情况 下 ， 一 个 控制 处 理 器 把 指令 广播 到 各 个 数据 处 理 单元 (PE) 阵 
列 ， 这 些 处 理 单元 形成 一 个 规则 的 网 格 ， 如 图 1-25 所 示 。 人 们 发 现 ， 许 多 科学 计算 都 表现 
为 对 一 个 数组 或 矩阵 上 的 每 一 个 元 素 做 同样 的 操作 ; 对 每 个 元 素 的 计算 ， 经 常 只 涉及 到 行 或 
列 中 相 邻 的 元 素 。 这 样 ， 问 题 的 并 行 数据 就 被 分 布 到 数据 处 理 器 的 存储 器 中 ， 而 标量 数据 放 
在 控制 处 理 器 的 存储 器 中 。 控 制 处 理 器 指挥 数据 处 理 器 对 各 自 本 地 数据 的 操作 ， 或 者 是 一 起 
通信 。 例 如 ， 为 了 计算 一 个 抢 阵 元 素 的 周围 四 个 邻居 的 平均 值 ， 数 据 算 阵 的 拷贝 必须 在 PE 
阵列 上 的 四 个 方向 上 做 移 位 操作 ， 还 要 做 一 次 本 地 累加 计算 。 数 据 PE 通常 包括 一 个 条 件 标 
志 ， 来 决定 是 否 放 弃 一 个 操作 。 在 一 些 设计 中 ， 局 部 地 址 可 以 采用 间接 寻 址 方式 ， 从 而 使 得 
处 理 器 在 做 相同 的 操作 时 用 不 同 的 地 址 。 


控制 处 理 器 





图 1-25 典型 的 数据 并 行 (SIMD) 机 的 结构 。 通 过 单 
个 控制 处 理 器 的 控制 以 前 后 紧 接 的 方式 处 理 
多 个 独立 的 PE 的 操作 。 传 统 上 说 ，SIMD 机 提 
供 了 一 个 有 限 的 PE 间 的 规则 互 连 ， 如 Think- 
ing Machines 公司 的 Connection Machine 和 MasPar 


处 理 器 阵列 在 20 世纪 70 年 代 中 期 随 着 向 量 处 理 器 的 发 展 衰落 了 。 在 向 量 计算 机 中 ， 一 
个 标量 处 理 器 和 一 些 功能 单元 集成 在 一 起 用 流水 线 处 理 数据 。 对 存储 器 中 任何 位 置 的 向 量 进 
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行 操 作 的 能 力 消除 了 将 应 用 的 数据 结构 贞 射 到 严格 的 互 连 结构 上 的 必要 ， 也 大 大 简化 了 数据 
对 准 的 问题 。 最 早 的 向 量 处 理 器 CDC Star-100 提供 了 向 量 操作 指令 集 ， 包 括 内 存 中 的 两 个 源 
向 量 并 返回 一 个 结果 向 量 。 只 有 向 量 元 素 在 内 存 是 连续 存放 时 ， 机 器 才能 全 速 执行 ， 因 此 很 
多 执行 时 间 花 在 了 和 矩阵 的 转 置 上 。 随 着 CRAY-1 的 出 现 ， 在 1976 年 出 现 了 戏剧 性 的 变化 。 它 
扩展 了 用 在 CDC 6600 和 CDC 7600 中 的 load/store 结构 (这 种 思路 在 现代 RISC 中 再 次 被 采 
用 )， 将 它 推广 到 对 向 量 的 操作 。 存 储 器 中 的 向 量 ， 可 以 是 任何 固定 跳 步 的 ， 可 以 通过 load 
和 store 指令 装 入 连续 的 向 量 寄存 器 中 。 操 作 在 向 量 寄存 器 上 完成 。 一 个 快速 的 标量 处 理 器 
(以 80 MHz 运行 ,在 当时 是 极 高 的 频率 ) 和 向 量 操作 结合 在 一 起 ， 并 采用 了 大 规模 的 半导体 
存储 器 〈 而 不 是 磁 芯 存储 器 ) ， 这 个 机 器 一 下 子 就 统治 了 超级 计算 机 世界 。 在 以 后 的 20 年 
里 ，CRAY Research 通过 提高 向 量 存储 器 传输 的 带宽 ， 增 加 处 理 器 的 数量 ， 提 高 流水 线 的 级 
数 和 向 量 寄存 器 的 长 度 等 技术 ， 一 直 领 导 着 超级 计算 机 领域 其 性 能 成 长 如 图 1-10 和 
图 1-11 所 示 。 

随 着 VLSI 使 简单 的 32 位 处 理 器 的 实现 成 为 可 能 ，SIMD 的 数据 并 行 机 在 80 年 代 中 期 获 
得 了 新 生 (Batcher 1974, 1980; Hillis 1985; Nickolls 1990; Tucker and Robertson 1988)。 数据 并 
行 结构 中 独特 的 一 种 做 法 是 在 每 个 芯片 上 放 32 个 1 位 的 处 理 单 元 ， 和 邻接 处 理 单元 串 行 连 
接 ; 在 控制 处 理 器 中 维持 一 个 指令 队列 。 通 过 这 种 方式 ， 可 以 组 织 几 千 个 位 串 处 理 单元 。 另 
外 ， 人 们 认识 到 这 种 系统 的 利用 率 能 够 被 大 大 提高 ， 如 果 我 们 除了 提供 规则 的 网 状 相 邻 连 接 
外 ， 还 提供 一 种 通用 的 互 连 ， 人 允许 任意 通信 模式 在 一 次 操作 中 完成 ， 尽 管 这 一 次 操作 可 能 比 
较 耗 时 (Hillis 1985; Hillis and Steele 1986; Nickolls 1990) 。 这 种 方法 可 以 把 整数 运算 和 浮 点 运 
算 的 方法 扩展 到 上 干 个 处 理 器 ， 看 起 来 就 像 在 一 个 虚拟 的 PE 上 执行 这 种 操作 。 

技术 因素 不 仅 使 位 串 设计 吸引 人 ， 还 提供 了 快速 的 、 廉 价 的 单 芯片 浮 点 单元 ， 并 迅速 取 
代 集 成 了 快速 浮 点 单元 和 高 速 缓存 的 微 处 理 器 。 这 就 消除 了 合成 时 序 罗 辑 的 成 本 优势 ， 使 得 
用 很 少 的 完整 的 处 理 器 组 合 可 以 提供 同样 的 峰值 性 能 。 在 数组 上 的 计算 给 并 行 数据 处 理 提供 
了 大 量 的 时 间 和 空间 局 部 性 (如果 计算 正好 映射 到 不 多 的 处 理 器 上 )， 每 个 处 理 器 处 理 一 部 
分 数据 。 高 速 缓存 和 本 地 内 存 用 来 放 属于 节点 的 局 部 数据 ， 通 信 在 处 理 边界 数据 时 发 生 ， 也 
可 能 在 全 局 的 数据 重组 时 发 生 。 

于 是 ,一 方面 在 用 户 程序 层次 对 大 规模 数据 结构 上 的 并 行 操作 提供 了 解决 一 类 重要 
问题 的 有 效 方法 , 另 一 方面 针对 数据 并 行程 序 设计 模型 的 机 器 组 织 也 在 演化 , 朝 着 一 种 更 
一 般 的 结构 ， 即 有 多 个 协作 的 微 处 理 器 构成 的 结构 发 展 ;， 就 像 可 扩展 的 共享 内 存 和 消息 传递 
的 机 器 一 样 。 在 这 种 演化 的 过 程 中 ， 有 几 种 设计 保持 了 支持 全 局 同步 的 专用 网 络 。 这 种 网 络 
支持 的 一 个 简单 例子 是 栅 障 ， 每 个 进程 机 在 程序 的 某 一 点 上 等 待 ， 直 到 所 有 进程 都 到 达 此 
点 (Horiw et al. 1993; Leiserson et al. 1996; Kumar 1992; Kessler and Schwarmeier 1993; 
Koenmger, Furtney, and Walker 1994), XERE, SIMD 发 展 成 为 了 SPMD， 其 中 每 个 处 理 
器 都 执行 相同 的 程序 拷贝 ， 从 而 在 很 大 程度 上 和 更 加 结构 化 的 共享 内 存 和 消息 传递 编程 形式 
融合 到 一 起 。 

数据 并 行程 序 设计 语言 的 实现 通常 是 将 每 个 处 理 器 的 局 部 地 址 空间 看 成 是 某 个 显 式 的 全 
局 地 址 空间 的 不 同 部 分 。 数 据 结构 是 通过 全 局 地 址 空间 来 组 织 的 ， 其 索引 通过 简单 的 变换 映 
射 到 处 理 器 和 其 局 部 偏 移 上 。 计 算 被 组 织 成 若干 “ 块 同步 ”阶段 的 序列 ， 局 部 计算 或 全 局 通 
信和 阶段 之 间 用 全 局 同步 栅 障 分 开 (Valiant 1990)。 因 为 所 有 的 处 理 器 一 起 参与 通信 ， 都 会 知 
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道 计算 推进 的 全 局 状况 ， 所 以 共享 地 址 空间 或 消息 传递 都 可 以 用 来 实现 这 种 模式 。 例 如 ， 如 
果 某 一 个 计算 阶段 要 做 的 是 让 每 个 处 理 器 向 自己 “左边 的 ”处 理 器 的 某 个 地 址 进行 一 个 写 操 
作 ， 可 以 让 每 个 处 理 器 向 左边 发 送 ， 而 从 右边 接收 数据 到 目的 地 址 中 。 类 似 地 ， 如 果 每 个 处 
理 器 要 进行 一 个 读 操 作 ， 可 以 首先 通过 每 个 处 理 器 发 送 一 个 地 址 ， 然 后 送 回 一 个 数据 来 实 
现 。 实 际 上 ， 如 果 我 们 考察 现代 数据 并 行 语言 编译 器 产生 的 代码 ， 会 发 现 它 们 和 针对 广泛 用 
于 共享 存储 和 消息 传递 编程 模型 的 结构 化 控制 并 行程 序 产 生 的 代码 基本 上 是 相同 的 。 机 器 结 
构 上 的 融合 伴随 着 机 器 使 用 方式 的 融合 。 


1.2.6 其 他 并 行 体系 结构 


20 世纪 80 年 代 中 期 的 复兴 也 使 其 他 一 些 体系 结构 的 方向 得 到 了 重视 ， 学 术 界 和 工业 界 
均 对 它们 进行 了 相当 多 的 研究 。 但 它们 在 商业 上 都 不 如 上 述 讨 论 的 三 类 那么 成 功 ， 因 此 很 少 
在 它们 上 面 做 并 行程 序 设 计 。 两 个 曾 发 展 为 完整 的 程序 设计 系统 的 是 数据 流 结构 和 脉动 阵列 
结构 。 两 者 在 概念 上 对 领域 的 发 展 有 重要 的 价值 。 

1. 数据 流体 系 结构 

数据 流 的 计算 模型 试图 使 并 行 计算 的 基本 方面 在 机 器 层 显 式 化 ， 而 不 利用 有 可 能 限制 程 
序 并 行 性 的 人 为 约束 。 它 的 想法 是 程序 由 一 个 基本 数据 依赖 图 来 表示 ， 如 图 1-26 所 示 ， 而 
不 是 显 式 控制 线程 序列 的 固定 组 合 。 一 个 指令 可 能 在 获得 了 它 的 操作 数 后 的 任意 时 刻 被 执 
行 。 这 个 图 可 以 在 一 个 处 理 器 集合 上 随意 展开 。 每 个 节点 指定 一 个 要 执行 的 操作 和 每 个 节点 
的 结果 地 址 。 在 原始 形式 下 ， 一 个 数据 流 机 里 的 单 处 理 器 就 如 一 个 循环 流水 线 。 从 网 路 上 来 
的 一 个 消息 或 标识 (token) 由 数据 和 一 个 地 址 或 一 个 标记 了 目的 节点 的 标签 (tag) 组 成 。 
这 个 标签 被 用 来 和 相 匹 配 的 存储 器 里 的 内 容 比较 。 如 果 标 签 在 存储 器 中 ， 则 该 匹配 的 标识 将 
被 取出 ， 该 指令 也 将 被 发 送 执行 。 如 果 该 标签 不 在 存储 器 中 ， 那 么 它 将 被 放 入 存储 器 以 等 待 
与 之 匹配 的 另 一 部 分 。 当 一 个 结果 被 计算 出 来 ， 一 个 新 的 保存 了 结果 数据 的 消息 或 标识 将 被 
送 到 指令 中 指定 的 每 个 目的 地 。 不 管 这 些 后 续 指令 是 在 本 地 还 是 异地 处 理 器 上 运行 ， 都 可 以 
使 用 相同 的 机 制 。 

数据 流 结构 主要 划分 为 两 种 ， 一 种 程序 图 是 静态 的 ， 这 种 情况 下 每 个 节点 代表 一 个 原始 
的 操作 ; 男 一 种 是 动态 的 ， 这 时 每 个 节点 能 代表 一 个 任意 函数 的 调用 ， 这 个 函数 调用 本 身 由 
一 个 图 表示 。 在 动态 结构 ， 又 称 加 标签 的 标识 结构 中 ， 通 常 是 在 标签 中 加 入 额外 的 上 下 文 信 
息 动态 ， 而 不 是 真正 地 修改 程序 图 来 实现 函数 调用 时 程序 图 的 扩展 。 

数据 流 结构 的 关键 特征 是 它 能 对 在 机 器 中 任何 地 方 进行 的 操作 命名 ， 对 独立 操作 的 同步 
的 支持 以 及 在 机 器 层 的 动态 调度 。 当 数据 流 机 器 设计 成 熟 到 进入 了 由 真正 的 高 级 并 行 语 言 设 
计 的 现实 系统 中 时 ， 一 种 更 常规 的 结构 出 现 了 。 典 型 情况 是 ， 并 行 性 在 程序 中 是 作为 并 行程 
序 调用 或 并 行 循 环 的 结果 而 产生 ， 因 此 将 这 些 更 大 块 的 工作 分 派 给 各 个 处 理 器 是 很 诱 人 的 
事 。 这 导致 了 一 类 设计 的 产生 ， 其 组 织 形 式 和 图 1-19 所 示 的 NUMA 设计 差不多 。 关 键 的 区 
别 在 于 对 大 的 、 动 态 的 控制 线程 集合 的 直接 支持 以 及 对 将 通信 与 线程 的 生成 集成 起 来 的 直接 
支持 。 网 络 和 处 理 器 紧密 集成 ; 在 许多 设计 中 , “当前 消息 ” 放 在 特定 寄存 器 中 ， 该 消息 中 
会 指明 一 个 线程 ， 通 过 硬件 将 该 消息 发 送 给 线程 。 另 外 ， 许 多 设计 在 存储 器 特定 区 域 提供 额 
外 的 状态 位 来 提供 精细 的 同步 (也 就 是 以 元 素 为 单位 的 同步 )， 而 不 是 用 锁 来 同步 对 整个 数据 
结构 的 访问 。 特 别 地 ， 每 个 消息 都 可 以 对 使 用 本 地 寄存 器 和 存储 器 的 一 块 计算 任务 进行 调度 。 
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图 1-26 数据 流 图 和 基本 执行 流水 线 。 图 中 的 每 个 节点 当 它 的 输入 中 所 需 的 操作 数 都 已 
得 到 时 被 激发 。 它 产生 结果 并 将 其 放 在 它 的 输出 中 ， 这 些 输出 将 被 交 给 图 中 与 
之 相 邻 的 节点 。 只 有 在 数据 匹配 标识 存在 的 情况 下 ， 程 序 执行 流水 线 才能 靠 检 
测 来 实现 这 种 激发 规则 ， 它 取 相应 的 指令 、 执 行 相应 操作 、 并 产生 相应 结果 标识 
与 之 相反 ， 在 共享 内 存 机 器 中 ， 一 个 普遍 被 接受 的 观点 是 一 个 静态 或 变化 缓慢 的 进程 的 
合 只 在 一 个 共享 的 地 址 空间 内 进行 操作 ， 于 是 编译 器 或 程序 会 分 配 循环 的 迭代 ， 保 持 一 个 
共享 的 工作 队列 ， 从 而 将 该 程序 中 逻辑 上 的 并 行 性 映射 到 一 个 进程 的 集合 。 类 似 地 ， 消 息 传 
递 程序 涉及 一 个 静态 或 接近 静态 的 进程 集合 ， 这 些 进 程 之 间 能 彼此 命名 以 进行 通信 。 在 数据 
并 行 结构 中 ， 编 译 器 或 定 序 器 用 分 配 一 个 规则 循环 骨 套 迭代 的 办 法 将 一 个 “虚拟 处 理 器 ” 操 
作 的 大 集合 映射 到 处 理 器 上 去 。 在 数据 流 情 形 下 ， 机 器 提供 一 种 能 力 ， 来 对 一 个 很 大 的 动态 
线程 集合 命名 ， 这 些 线程 可 以 被 任意 地 映射 到 处 理 器 上 。 典 型 情况 下 ， 这 些 机 器 也 同时 提供 
一 个 全 局 的 地 址 空间 。 如 同 在 消息 传递 和 数据 并 行 机 器 情形 中 一 样 ， 随 着 这 种 技术 的 成 熟 ， 
数据 流 结构 也 经 历 了 程序 设计 模型 和 硬件 结构 的 逐步 分 离 。 
2. 脉动 体系 结构 
另外 一 种 新 颖 的 思路 是 脉动 体系 结构 ， 它 试图 用 一 组 简单 处 理 单元 的 阵列 来 代替 一 个 完 
整 的 处 理 器 ; 通过 在 这 个 阵列 的 单元 之 间 仔 细 地 编排 数据 流 ， 达 到 非常 高 的 系统 吞吐 率 ， 同 
时 对 存储 器 带宽 的 需求 也 不 高 。 这 种 设计 和 普通 流水 线 的 功能 单元 差别 在 于 这 里 单元 之 间 的 
排列 结构 可 以 是 非 线性 的 (例如 ， 六 角形 的 )， 处 理 单元 间 的 通路 可 以 是 多 方向 的 ， 每 个 处 
理 单元 可 以 有 自己 少量 的 本 地 的 指令 和 数据 存储 器 。 这 种 设计 和 单 指令 流 多 数据 流 结构 的 区 
别 是 每 个 处 理 单元 可 以 做 不 同 的 操作 。 
这 种 想法 是 借 着 超大 规模 集成 电路 可 以 提供 廉价 的 专用 芯片 的 机 遇 提 出 的 。 一 个 给 定 的 
算法 能 被 直接 表示 为 有 某 种 规则 互 连 关系 的 若干 特定 运算 单元 的 集合 。 数 据 将 在 运算 单元 局 
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部 状态 的 控制 下 像 有 规律 的 “心跳 ”那样 在 系统 中 道 过 。 图 1-27 的 例子 是 一 个 简单 的 线性 


阵列 的 计算 过 程 ,在 每 次 “心跳 ”中 ,输入 数据 向 右边 前 进一步 ， 和 一 个 本 地 的 权 相 乘 ， 并 
随 着 向 右 的 移动 放 到 输出 队列 上 。 脉 动 方法 和 消息 传递 、 数 据 并 行 和 数据 流 模型 有 一 些 共同 
的 方面 ， 但 在 一 类 特殊 问题 上 有 独特 的 性 质 。 


yd = wi x xi) + W2 x xi + 1) + W3 x XO + 2) + wa x xi + 3) 


x8 x6 x4 x2 

Z SEES 
wa m| 

y3 y2 yi 
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图 1-27 内 积 的 脉动 阵列 计算 。 每 个 方块 代表 一 个 运行 特殊 功能 的 计算 单元 ,时 钟 每 跳 一 
次 ， 所 有 的 单元 接受 输入 、 计 算 结 果 、 产 生 输出 。 数 据 随 着 每 次 跳动 经 过 脉动 阵列 

在 实现 中 ， 比 如 Warp (Borkar et al.1990)， 通 常 可 在 节点 提供 很 强 的 可 编程 性 ， 以 便 各 
种 不 同 的 算法 都 能 在 相同 的 硬件 上 实现 。 关 键 的 区 别 在 于 脉动 阵列 的 网 络 是 由 若干 专用 的 数 
据 通 道 构 成 的 ， 网 络 的 结构 直接 对 应 待 求解 问题 的 通信 模式 ,数据 能 通过 这 样 的 专用 通道 ， 
在 处 理 器 的 寄存 器 之 间 直 接 转换 .对 通信 模式 的 全 局 认识 可 以 减少 竞争 甚至 避免 死 锁 。 
脉动 结构 的 主要 特征 是 能 够 将 高 度 特殊 化 的 计算 集成 在 简单 、 规 则 、， 高 度 局 部 性 的 通信 模 
式 中 。 

脉动 算法 也 常常 能 用 在 普通 的 计算 机 上 来 求解 问题 ， 利 用 高 速 的 栅 障 来 表达 一 个 个 粗 粒 
度 的 计算 阶段 。 当 逻辑 脉动 阵列 的 大 的 分 区 在 各 个 进程 中 执行 时 ， 这 种 算法 规则 的 、 局 部 的 
通信 模式 产生 良好 的 局 部 性 ， 所 需要 的 通信 带宽 很 小 ， 同 步 要 求 很 简单 。 因 而 ， 这 些 算法 被 
证 明 在 各 种 并 行 机 中 都 是 有 效 的 。 


1.2.7 一 个 通用 并 行 体系 结构 


回顾 并 行 体系 结构 的 主要 进展 ， 我 们 看 到 一 个 明显 趋势 ， 即 可 扩展 的 机 器 向 一 个 如 
图 1-28 所 示 的 通用 并 行 机 器 结构 靠拢 的 趋势 。 这 样 的 机 器 由 一 类 原本 完整 的 计算 机 构成 ， 每 
个 计算 机 带 有 一 个 或 多 个 处 理 器 和 存储 器 ， 通 过 通信 辅助 部 件 〈 一 个 用 于 帮助 产生 外 送 消息 
或 处 理 输 入 消息 的 控制 器 或 辅助 处 理 单元 ) 和 一 个 可 扩展 的 通信 网 络 相连 。 虽 然 这 种 领域 内 
的 整合 看 起 来 将 缩小 设计 空间 ， 但 事实 上 ， 仍 存在 许多 不 同方 案 和 大 量 的 争论 ， 焦 点 在 于 这 
个 辅助 部 件 中 应 该 提供 什么 样 的 功能 ， 它 和 处 理 器 、 存 储 系统 、 网 络 的 界面 是 怎样 的 。 这 此 
是 一 个 相似 的 组 织 结构 内 部 的 细节 区 别 ， 记 住 这 一 点 将 有 助 于 我 们 理解 和 评价 重要 结构 上 的 
权衡 : 

显然 ， 不 同 的 程序 设计 模型 对 通信 辅助 部 件 的 设计 有 不 同 的 需求 ， 也 决定 着 哪些 操作 是 
更 经 常 的 和 需要 优化 的 。 在 共享 存储 的 情况 下 ， 辅 助 逻辑 是 和 存储 器 系统 紧密 结合 的 ， 从 而 
来 获取 可 能 需要 和 其 他 节点 间 进行 交互 的 存储 事件 。 辅 助 逻 辑 也 必须 能 够 接收 消息 并 为 其 他 
节点 执行 存储 操作 和 状态 转换 。 在 消息 传递 的 情况 下 ， 不 管 在 系统 级 还 是 用 户 级 ， 通 信者 是 
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显 式 地 发 起 ， 因 此 它 不 需要 检查 存储 系统 的 事件 ， 但 需要 迅速 启动 消息 的 传送 以 及 对 到 来 的 
消息 进行 响应 。 这 个 响应 也 许 需要 执行 标签 匹配 、 分 配 缓冲 、 开 始 数据 传输 或 发 布 一 个 事 
件 。 数 据 并 行 结 构 和 脉动 结构 都 力图 强调 快速 的 全 局 同步 ， 这 可 以 直接 在 网 络 上 或 在 辅助 部 
件 上 实现 。 数 据 流 结构 则 强调 基于 输入 消息 的 、 快 速 的 、 动 态 调度 。 脉 动 算法 则 着 眼 于 在 局 
部 调度 中 利用 全 局 模式 的 机 会 。 即 使 存在 这 些 不 同 点 ， 看 到 所 有 这 些 方法 的 共同 之 处 是 很 重 
要 的 ， 即 作为 特别 的 处 理 器 事件 的 结果 ， 它 们 都 需要 启动 网 络 事务 ， 而 且 它们 都 需要 在 远程 
节点 上 执行 简单 的 操作 以 得 到 需要 的 结果 。 





图 1-28 通用 可 扩展 的 多 处 理 器 组 织 结构 。 一 个 基本 完整 的 计算 机 的 集合 ， 每 个 计 
算 机 包括 一 个 或 多 个 处 理 器 和 内 存 ， 通 过 一 个 通用 、 高 性 能 、 可 扩展 的 网 
络 互 连 。 一 般 地 ， 每 个 节点 包含 一 个 控制 器 用 来 辅助 网 络 上 的 通信 操作 


我 们 同时 看 到 ， 在 并 行程 序 设计 环境 逐渐 成 熟 的 过 程 中 ， 程 序 设计 模型 和 机 器 组 织 结构 
逐渐 分 离 。 例 如 ，Fortran 90 和 高 性 能 Fortran 提供 了 一 种 共享 地 址 空间 和 数据 并 行程 序 设计 
模型 ,但 它们 实现 在 许多 不 同 的 机 器 上 ， 有 的 只 支持 一 个 共享 的 物理 地 址 空间 ， 其 他 的 只 支 
持 消息 传递 。 虽然 这 些 机 器 从 组 织 结构 上 看 起 来 类 似 ,但 由 于 在 通信 抽象 层 提供 的 通信 和 同 
步 操 作 的 不 同 以 及 这 些 操作 在 性 能 特点 上 的 巨大 不 同 ， 在 不 同类 型 机 器 上 的 编译 实现 技术 是 
根本 不 同 的 。 再 如 ， 流 行 的 消息 传递 库 ， 像 并 行 虚拟 机 (PVM) 和 消息 传递 接口 (MPD ， 在 
各 种 机 器 上 都 有 实现 ， 但 在 不 同 机 器 上 库 的 实现 是 相当 不 同 的 。 并 行 操作 系 统 也 是 一 样 。 


1.3 基本 的 设计 问题 


纵 观 并 行 体系 结构 发 展 至 今 的 历程 ， 我 们 需要 用 一 种 新 的 观点 来 看 看 如 何 组 织 这 个 领域 
的 技术 内 容 。 传 统 的 分 类 法 ， 如 SIMD/MIMD， 自 从 通用 多 处 理 器 占据 主流 位 置 之 后 ， 就 没 
有 什么 意义 了 。 我 们 不 能 完全 集中 在 编程 模型 上 ， 因 为 很 多 情况 下 ， 很 多 完全 不 同 的 机 器 结 
构 支持 一 种 通用 的 编程 模型 。 我 们 也 不 能 只 看 硬件 结构 ， 因 为 相同 的 元 素 可 以 在 不 同 的 设计 
中 以 不 同 的 方式 来 使 用 。 我 们 应 该 做 的 是 关注 可 能 会 对 不 同 软件 产生 影响 的 机 器 结构 方面 的 
差异 。 特 别 是 ,我 们 特别 考虑 的 问题 是 哪些 因素 会 影响 编译 器 从 高 级 并 行 语言 产生 代码 ， 哪 
些 因 素 会 影响 函数 库 的 作者 编写 出 一 个 优化 的 库 ; 哪些 因素 会 影响 应 用 程序 使 用 低级 并 行 语 
言 来 编写 的 方式 。 于 是 ,我 们 就 可 以 上 从 程序 是 如 何 使 用 机 器 ， 下 从 基本 技术 所 能 提供 什么 
支持 这 两 方面 约束 来 考虑 设计 问题 。 
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在 本 书 中 ， 我 们 通过 图 1-13 所 示 的 抽象 层次 来 理解 当代 并 行 体系 结构 的 指导 性 原则 。 
从 根本 上 讲 ， 我 们 必须 理解 提供 给 用 户 层 的 通信 抽象 的 操作 ， 不 同 的 编程 模型 是 如 何 映射 到 
这 些 原 语 上 的 以 及 这 些 原 语 是 如 何 映射 到 实际 硬件 上 的 。 过 多 地 强调 高 级 编程 模型 ， 而 不 注 
意 它 是 如 何 映射 到 机 器 上 的 ， 就 会 偏离 正确 理解 基本 结构 问题 的 方向 ， 例 如 过 分 强调 在 每 一 
种 特定 机 器 上 的 特殊 硬件 机 制 。 

本 节 将 更 加 强调 通信 抽象 和 编程 模型 的 基本 要 求 。 它 定义 了 更 加 形式 化 的 关键 概念 ， 把 
众多 的 因素 联系 起 来 ; 数据 的 命名 、 定 序 、 通 信和 复制 。 最 后 ， 它 引入 了 用 来 解决 设计 权衡 
的 基本 性 能 模型 。 


1.3.1 通信 抽象 


通信 抽象 是 编程 模型 和 系统 实现 之 间 的 关键 接口 。 它 的 作用 很 像 传统 串 行 计算 机 体系 结 
构 中 的 指令 集 。 从 软件 的 观点 看 ， 它 必须 有 一 -个 精确 的 、 定 义 良 好 的 语义 ,这 样 才能 使 同一 
个 程序 在 很 多 不 同 的 实现 上 正确 运行 。 而 且 ， 这 个 层次 所 提供 的 操作 必须 是 简单 的 、 代 价 明 
确 的 、 且 可 以 组 合 的 实体 ， 从 而 使 得 软件 可 以 在 性 能 上 优化 。 从 硬件 的 观点 看 ， 它 也 必须 有 
一 个 定义 良好 的 语义 ， 这 样机 器 的 设计 者 才 可 以 决定 何 处 进行 性 能 的 优化 ， 而 不 违反 软件 的 
假设 。 尽 管 抽 象 需要 是 精确 的 ， 但 机 器 设计 者 希望 它 不 要 过 分 特殊 ， 这 样 就 不 会 妨碍 增强 性 
能 的 新 技术 的 使 用 ， 也 不 会 阻碍 发 气 更 新 技术 的 特性 的 努力 。 

通信 抽象 ， 事 实 上 ， 是 硬件 和 软件 之 间 的 一 个 合同 ， 人 允许 每 一 方 具有 足够 的 灵活 性 ， 并 
能 够 正确 地 协同 工作 。 为 了 理解 这 种 合同 中 的 “术语 ”， 我 们 需要 更 加 仔细 地 看 看 编程 模型 
的 基本 要 求 。 


1.3.2 编程 模型 的 要 求 


一 个 并 行程 序 包含 一 个 或 多 个 控制 流 (线程 )， 操 作 在 相关 的 数据 集合 上 。 一 个 并 行 编 
程 模型 说 明了 什么 样 的 数据 可 以 在 线程 中 命名 ， 在 所 命名 的 数据 上 能 够 执行 什么 样 的 操作 以 
及 这 些 操作 执行 的 次 序 。9 

为 了 使 这 些 问 题 具体 化 ， 考 虑 单 处 理 器 的 编程 模型 。 一 个 线程 可 以 指定 在 它 的 虚拟 地 址 
空间 中 的 存储 单元 ， 并 且 可 以 按 名 字 访 问 机 器 的 寄存 器 。 在 一 些 系统 中 ， 地 址 空间 被 明确 划 
分 成 代码 段 、 栈 段 、 堆 段 等 不 同 的 部 分 ;而 另 一 些 系统 的 地 址 空间 采用 的 是 统一 的 “扁平 ” 
结构 。 类 似 地 ， 不 同 的 编程 模型 提供 了 访问 地 址 空间 的 不 同方 法 ; 例如， 一 些 方法 允许 指针 
和 动态 存储 分 配 ， 另 一 些 则 不 行 。 不 管 有 多 少 不 同 的 方式 ， 基 础 都 是 由 指令 集 所 提供 的 、 能 
在 可 命名 单元 上 执行 的 操作 。 例 如 ， 在 RISC 机 器 中 ， 线 程 可 以 从 内 存 装 人 数据 和 存储 数据 
到 内 存 ， 但 是 只 能 对 寄存 器 中 的 数据 执行 算术 和 比较 操作 。 先 前 的 指令 集 支持 在 存储 器 和 寄 
存 器 上 的 算术 操作 。 编 译 器 在 硬件 和 软件 的 边界 上 隐藏 了 这 些 差别 ， 所 以 用 户 的 编程 模型 是 
对 保存 数据 的 变量 执行 相应 的 操作 。 硬 件 把 每 一 个 操作 的 虚拟 地 址 转换 成 物理 地 址 。 

存储 器 操作 的 次 序 是 囊 行程 序 中 的 语句 顺序 。 编 程 者 的 观点 是 在 程序 中 从 上 到 下 、 从 左 
至 右 进行 变量 的 读 和 修改 。 更 加 精确 的 是 ， 从 一 个 地 址 读 出 的 值 是 在 这 个 程序 的 顺序 执行 过 





O AF (name)、 操 作 〈operation》 和 次 序 (oder) 是 本 书 反 复 涉及 的 三 个 概念 ， 它 们 大 致 上 对 应 通常 说 的 “操作 
数 ““ 操 作 码 ”和 “操作 序 "。 其 中 name 和 order 常 以 动词 的 形式 出 现 ， 就 成 了 “命名 ”和 “ 定 序 "。 一 一 译 者 注 
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读 和 写 可 能 并 没有 完全 按照 在 程序 中 的 顺序 被 执行 ， 因 为 编译 器 可 能 在 把 程序 翻译 成 指令 集 [53 | 
的 过 程 中 进行 了 优化 ， 硬 件 在 执行 指令 的 时 候 也 可 能 进行 了 优化 。 但 这 些 优化 都 要 保证 程序 
不 能 感到 次 序 被 改变 了 。 编 译 器 和 硬件 都 要 保持 程序 中 的 依赖 次 序 ， 也 就 是 说 ， 如 果 对 一 个 
变量 做 了 写 操作 ， 并 且 此 后 按照 程序 的 顺序 对 它 进 行 读 操作 ， 它 们 要 保证 后 面 的 读 操 作用 到 
了 前 面 写 的 值 ， 但 是 这 些 操作 可 能 并 没有 真正 发 生 在 内 存 中 ; 写 操作 的 结果 反映 在 内 存 中 可 
能 是 后 来 的 事 。 在 没有 写 操作 的 干预 下 ， 一 组 读 操作 可 能 被 完全 重 排序 ， 而 一 般 来 说 ， 只 要 
保持 对 读 的 依赖 关系 ， 对 不 同 地 址 的 写 操作 也 可 以 被 重新 排序 。 这 种 重 排序 在 编译 的 级 别 发 
生 ， 例 如 ， 编 译 器 对 寄存 器 的 不 同 分 配 ， 对 表达 式 的 处 理 来 提高 流水 线性 能 或 者 通过 循环 变 
换 来 减少 开销 并 且 改 善 数据 访问 的 模式 。 重 排序 在 机 器 的 层次 也 会 发 生 ， 例 如 ， 指 令 的 流水 
执行 ， 每 周期 发 出 多 条 指令 ， 用 写 缓 冲 区 来 隐藏 访 存 时 延 。 我 们 依靠 这 些 优 化 来 提高 性 能 。 
它们 是 有 效 的 ， 因 为 程序 要 观察 到 写 的 效果 ， 它 就 必须 读 此 变量 ; 这 就 产生 了 数据 之 间 的 依 
赖 关 系 ， 而 所 有 优化 技术 都 是 在 保持 这 种 依赖 关系 的 前 提 下 发 挥 作用 的 。 这 样 ， 程 序 执行 序 
看 起 来 就 被 保持 了 ， 而 实际 的 执行 所 体现 的 依赖 次 序 要 弱 一 些 S 。 我 们 所 处 的 这 个 计算 机 世 
界 ， 所 有 的 编程 语言 体现 的 都 是 在 虚拟 地 址 空间 中 变量 上 的 顺序 操作 ; 但 只 要 不 改变 程序 执 
行 的 结果 ， 系 统 往往 都 只 遵循 一 个 较 弱 的 序 关系 8。 

现在 让 我 们 回 过 来 看 并 行 编程 模型 。 本 章 前 面 的 一 些 讨论 指出 了 命名 、 操 作 集 合 和 其 次 
序 的 不 同 地 位 。 命 名 和 操作 的 集合 是 编程 模型 的 典型 特征 ， 但 操作 的 序 问题 是 关键 性 的 。 一 
个 并 行程 序 必须 协调 它 的 线程 的 活动 以 保证 程序 中 的 相关 性 ， 这 就 要 求 在 基本 操作 中 隐 含 的 
序 不 够 充分 的 情况 下 进行 显 式 的 同步 操作 。 作 为 系统 结构 师 〈 和 编译 器 作者 ) ， 我 们 需要 理 
解 操作 次 序 的 特点 ， 以 看 到 我 们 为 性 能 所 能 做 到 的 优化 “技巧 "。 我 们 可 以 将 研究 集中 在 共 
享 地 址 和 消息 传递 编程 模型 上 ， 因 为 它们 是 用 得 最 广泛 的 。 其 他 的 模型 ， 如 数据 并 行 模型 ， 
经 常 是 依据 它们 其 中 一 个 来 实现 的 。 

共享 地 址 空间 编程 模型 假设 有 一 个 或 多 个 控制 线程 ， 每 个 线程 在 一 个 地 址 空间 中 进行 操 
作 ， 其 中 包含 一 个 共享 的 区 域 ， 也 可 能 包含 一 块 只 为 该 线程 私有 的 区 域 。 典 型 情况 下 ， 共 享 
区 域 为 所 有 的 线程 所 共享 。 在 私有 地 址 上 所 定义 的 操作 在 共享 地 址 空间 上 也 同样 有 效 ; 特别 
地 ， 程 序 访 问 和 更 新 共享 变量 的 方式 只 是 简单 地 将 它们 用 在 表达 式 和 赋值 语句 中 。 

消息 传递 模型 假设 每 一 个 进程 都 在 自己 的 秘 有 地 址 空间 中 进行 操作 ， 并 且 都 能 命名 其 他 [54] 
的 进程 。 私 有 地 址 空间 提供 了 按照 程序 顺序 的 一 般 的 单 处 理 器 操作 。 附 加 的 一 些 操作 、 发 送 
和 接收 在 局 部 地 址 空间 和 全 局 进程 空间 上 进行 。 发 送 操作 从 局 部 地 址 空间 向 一 个 进程 传送 数 
据 。 接 收 操作 从 一 个 进程 接收 数据 并 存放 到 局 部 地 址 空间 中 。 每 一 个 发 送 /接收 对 是 一 个 特 
定 的 点 到 点 的 同步 操作 。 很 多 消息 传递 语言 也 提供 全 局 的 或 集体 的 通信 操作 ， 例 如 广播 。 

1. 命名 

编程 模型 中 所 采用 的 命名 方法 通过 编程 语言 和 编程 环境 提供 给 程序 员 。 这 是 程序 逻辑 的 
基础 。 然 而 ， 命 名 的 问题 在 通信 结构 的 每 一 个 层次 都 是 很 关键 的 。 当 然 ， 一 个 可 能 的 策略 是 
使 编程 模型 中 使 用 的 操作 和 用 户 /系统 边界 的 通信 抽象 的 操作 一 一 对 应 和 下 面 的 辜 件 原 语 - 





O ”这 种 解释 对 系统 程序 员 来 说 有 点 问题 ， 例 如 ， 若 一 个 变量 实际 上 是 某 个 部 件 上 的 -个 控制 寄存 器 问题 就 可 能 发 
生 。 在 这 种 情况 下 ， 实 际 的 程序 语句 序 就 必须 被 保持 。 这 通常 是 通过 将 那样 的 变量 说 明 为 特殊 变量 来 实现 的 ; 
例如 在 C 语 言 中 用 易 失 性 类 型 修饰 符 。 

O ”从 而 留 出 较 大 的 优化 空间 。 一 -一 译 者 注 
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一 对 应 。 然 而 ， 让 编译 器 和 库 成 为 编程 模型 和 通信 抽象 之 间 的 一 层 翻 译 是 可 能 的 ， 还 可 以 让 
操作 系统 来 处 理 用 户 / 系 统 边界 上 的 某 些 操作 。 这 些 不 同 的 技术 路 线 使 得 系统 结构 设计 师 能 
考虑 用 硬件 来 直接 实现 那些 常用 、 简 单 的 操作 ， 而 用 软件 来 实现 或 部 分 实现 那些 较 复 杂 的 
操作 。 

针对 共享 存储 和 消息 传递 这 两 个 基本 的 程序 设计 模型 ， 让 我 们 考虑 命名 问题 在 不 同 层 次 
中 的 细节 。 首 先 ， 在 共享 存储 模型 中 ， 程 序 中 对 共享 变量 的 访问 通常 是 被 编译 器 映射 到 对 共 
享 虚拟 地 址 空间 的 load 和 store 指令 中 ， 就 像 对 其 他 变量 的 访问 一 样 。 然 而 ， 这 不 是 仅 有 的 
做 法 。 编 译 器 也 可 以 为 访问 共享 变量 产生 特定 的 代码 序列 。 如 果 任 何 处 理 器 都 能 对 机 器 中 的 
任何 单元 产生 一 个 物理 地 址 ， 并 且 用 单个 内 存 操作 来 访问 那个 单元 ， 则 称 该 机 器 支持 全 局 物 
理 地 址 空间 。 如 果 提 供 了 一 个 全 局 物理 地 址 空间 ， 在 机 器 上 实现 共享 虚拟 地 址 空间 就 变 得 很 
直接 了 : 建立 虚 地 址 -物理 地 址 映射 ， 以 使 得 共享 虚拟 地 址 映射 到 同一 个 物理 存储 位 置 上 
( 即 进程 在 它们 的 页 表 中 有 相同 的 项 )。 不 过 ， 由 于 翻译 可 能 有 不 同 的 水 平 ， 因 此 也 可 能 有 其 
他 的 方法 。 我 们 称 一 个 机 器 支持 独立 的 局 部 物理 地 址 空间 ， 如 果 每 一 个 处 理 器 只 能 访问 各 自 
单独 的 地 址 空间 。 即 使 在 这 些 机 器 上 ， 也 可 以 通过 将 局 部 于 进程 的 虚拟 地 址 映射 到 对 应 的 物 
理 地 址 上 ， 来 实现 虚拟 共享 地 址 空间 。 那 些 非 局 部 的 虚拟 地 址 没有 映射 ， 对 它们 的 访问 可 能 
会 产生 一 个 缺 页 事件 ， 从 而 操作 系统 可 以 介 人 来 访问 远程 共享 的 数据 。 尽 管 这 种 方法 可 以 提 
供 同样 的 命名 、 操 作 和 操作 序 ， 它 确实 在 硬件 /软件 的 边界 需要 不 同 的 硬件 要 求 。 设 计 师 的 
工作 是 要 通过 各 层 的 系统 实现 去 解决 这 些 设 计 的 权衡 ， 以 使 得 结果 是 有 效 的 并 且 在 可 用 的 技 
术 下 ， 使 得 所 针对 的 应 用 工作 负载 达到 较 高 的 性 能 价格 比 。 

第 二 ， 消 息 传递 操作 可 以 直接 通过 硬件 来 实现 ， 但 是 发 送 /接受 操作 的 匹配 以 及 缓冲 方 
面 更 适合 软件 的 实现 。 而 用 硬件 来 支持 更 加 基本 的 数据 传输 原 语 。 这 样 ， 在 所 有 的 并 行 机 器 
中 ， 消 息 传递 模型 是 通过 建构 在 简单 的 通信 抽象 之 上 的 软件 层 来 实现 的 。 在 用 户 /系统 的 界 
面 上 ,一 种 方法 是 使 所 有 的 消息 操作 通过 操作 系统 ， 就 像 它们 是 IO 操作 一 样 。 然 而 ， 消 息 
操作 的 频率 比 VO 操作 要 高 ， 因 此 用 操作 系统 的 支持 来 配置 资源 、 优 先 级 是 有 意义 的 ， 从 而 
让 硬件 来 直接 支持 高 频率 、 简 单 的 数据 传输 操作 。 在 另 一 方面 ， 我 们 可 以 考虑 采用 共享 虚拟 
地 址 空间 作为 低级 通信 抽象 ， 于 是 的 发 送 和 接收 操作 涉及 了 写 和 读 共享 缓冲 区 ， 加 上 相应 的 
同步 事件 。 

命名 的 问题 出 现在 并 行 体 系 机 构 的 每 一 个 抽象 层面 ， 而 不 单单 出 现在 编程 模型 中 。 作 为 
设计 师 ， 我 们 需要 根据 通信 抽象 中 所 发 生 的 操作 的 频率 和 类 型 去 进行 设计 ; 理解 在 这 个 界面 
上 的 权衡 就 涉及 到 哪些 直接 由 硬件 实现 ， 哪 些 应 该 由 软件 实现 。 

2. 操作 

每 一 个 编程 模型 定义 了 一 个 特定 操作 的 集合 ， 在 一 个 能 够 被 模型 所 命名 的 数据 或 对 象 上 
执行 。 在 共享 地 址 模型 的 例子 中 ， 这 些 包 括 了 对 共享 变量 的 读 和 写 以 及 各 种 用 来 同步 线程 的 
原子 性 读 - 改 - 写 操作 。 对 于 消息 传递 来 说 ， 这 些 操作 通过 在 私有 《局 部 ) 地 址 和 进程 标识 符 
上 来 进行 发 送 和 接收 ， 如 前 面 所 描述 的 那样 。 程 序 中 的 每 一 个 数据 元 素 通 过 进程 号 和 进程 中 
的 局 部 地 址 来 命名 。 一 个 消息 传递 模型 的 确定 义 了 某 种 全 局 地 址 空间 ， 但 没有 在 这 种 全 局 地 
址 上 的 操作 。 操 作 可 以 被 传递 并 由 程序 来 解释 ， 例 如 ， 模 拟 一 个 在 消息 传递 之 上 的 共享 地 址 
编程 风格 ， 但 是 它们 不 能 在 通信 抽象 上 直接 进行 。 作 为 设计 师 ， 我 们 需要 明白 每 一 层 抽象 所 
定义 的 操作 。 而 且 ， 我 们 要 很 清楚 在 每 个 抽象 层 操 作 的 次 序 是 如 何 规定 的 ; 通信 在 何 处 发 
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生 ; 数据 是 如 何 复制 的 。 

3. RË 

在 并 行 体 系 机 构 的 各 个 层次 之 间 ， 操 作 之 间 次 序 的 性 质 具 有 深刻 的 影响 。 例 如 ， 除 了 和 
显 式 的 发 送 /接收 相关 的 程序 操作 序 外 ， 消 息 传递 模型 对 于 不 同 进程 的 操作 没有 任何 次 序 的 
假设 ， 而 共享 地 址 模型 必须 指明 进程 看 到 其 他 进程 所 执行 操作 顺序 的 方式 。 操 作 序 的 问题 非 
常 重要 ， 也 相当 不 容易 理解 。 在 单 处 理 器 中 为 了 获得 高 性 能 ， 我 们 用 到 许多 技巧 ， 包 括 降低 
编程 者 所 假定 顺序 的 严格 性 以 得 到 性 能 增益 、 通 过 并 行 机 制 或 开发 局 部 性 或 两 者 兼用 等 。 在 
多 处 理 器 系统 中 开发 并 行 性 和 局 部 性 更 加 重要 。 这 样 ， 我们 需要 理解 有 哪些 新 技巧 可 用 。 我 
们 也 需要 考察 哪些 旧 技 巧 还 可 以 使 用 。 我 们 可 以 在 一 个 并 行程 序 的 每 个 进程 上 ， 从 编译 器 和 
体系 结构 的 层次 执行 传统 的 顺序 优化 吗 ? 在 哪里 可 以 使 用 显 式 的 同步 操作 ， 以 允许 放松 普 i 
操作 上 的 次 序 限制 ? 为 了 回答 这 些 问 题 ， 我 们 需要 进一步 理解 程序 是 如 何 使 用 通信 抽象 的 ， 
它们 靠 的 是 什么 性 质 以 及 我 们 希望 在 什么 样 的 机 器 结构 中 开发 性 能 。 

一 种 自然 的 方法 是 采用 对 应 线程 程序 中 的 操作 序 。 这 是 编程 者 对 一 个 特定 线程 情况 假定 
的 。 然 而 ， 如 果 多 个 线程 使 用 同样 的 共享 变量 ， 应 该 如 何 假定 操作 的 顺序 呢 ? 线程 以 不 同 的 
速度 独立 的 执行 自己 的 操作 ， 所 以 “最 近 一 次 ”的 概念 没有 清楚 的 定义 。 如 果 我 们 把 机 器 看 
作 是 在 一 个 共同 的 、 中 心 的 存储 器 上 进行 操作 的 一 些 简单 处 理 器 ， 就 可 以 合理 地 期 望 内 存 访 
问 的 全 局 序 是 各 个 程序 访问 序 的 某 种 任意 的 交织 。 实 际 中 ， 我 们 不 会 这 样 造 机 器 ， 但 是 它 点 
明了 模型 中 通过 基本 操作 可 能 隐 含 的 操作 序 。 这 种 交织 也 是 我 们 在 运行 有 若干 分 时 线程 的 单 
处 理 器 上 可 能 看 到 的 ， 而 且 可 能 是 很 细 的 粒度 。 

当 隐 含 的 序 不 足以 解决 问题 的 时 候 ， 就 要 求 有 显 式 的 同步 操作 。 并 行程 序 要 求 两 种 类 型 
的 同步 : 

。 互 斥 保证 在 同一 时 刻 特 定数 据 上 的 特定 操作 只 由 一 个 线程 或 进程 完成 。 我 们 可 以 想 
像 有 一 个 房间 ， 要 执行 这 些 操 作 就 必须 进入 这 个 房间 ， 并 且 同 时 只 能 有 一 个 进程 在 
房间 中 。 这 通过 在 进入 后 锁 门 并 且 在 它 出 去 时 开锁 的 方式 来 实现 。 如 果 多 个 进程 同 
时 到 达 门 口 ， 只 有 一 个 可 以 进入 ， 其 他 的 就 必须 等 待 直到 那个 进入 的 进程 离开 。 人 允 
许 进程 进入 房间 的 次 序 是 无 关 紧 要 的 ， 可 能 和 具体 执行 程序 的 情况 相关 ; 关键 是 一 
次 只 能 有 一 个 进入 。 互 斥 操作 倾向 于 把 这 些 进 程 的 执行 串 行 化 。 
事件 被 用 来 通知 其 他 的 进程 已 经 达到 了 执行 的 一 些 点 ， 使 得 它们 知道 已 经 满足 一 定 
的 依赖 关系 ， 从 而 可 以 继续 推进 。 这 些 操作 就 像 在 接力 赛 中 ， 从 一 个 选手 中 传 到 下 
一 个 人 手中 的 接力 棒 一 样 ， 或 者 像 发 号 者 开 枪 以 表示 比赛 的 开始 。 如 果 一 个 进程 写 
一 个 值 ， 而 其 他 的 进程 要 读 ， 就 必须 进行 一 个 事件 同步 操作 来 表明 该 值 可 以 读 了 。 
事件 可 以 是 点 对 点 的 ， 发 生 在 两 个 进程 之 间 ; 也 可 以 是 全 局 的 ， 发 生 在 所 有 的 或 者 
一 组 进程 之 间 。 


1.3.3 通信 和 复制 


同 并 行 体系 结构 诸 层 次 有 紧密 联系 的 最 后 问题 是 通信 和 数据 的 复制 。 通 信和 复制 从 本 质 
上 是 相关 的 。 首 先 考虑 消息 传递 操作 。 发 送 /接收 操作 对 的 效果 是 要 从 发 送 者 的 地 址 空间 将 
数据 拷贝 到 接收 者 的 地 址 空间 。 这 个 传输 是 接收 者 访问 相关 数据 的 保证 。 发 送 者 是 数据 的 生 
产 者 时 ， 它 反映 了 信息 从 一 个 进程 到 另 一 个 进程 的 真 通信 。 当 数据 只 不 过 是 由 于 某 种 原因 正 
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好 放 在 发 送 方 时 ， 例 如 由 于 数据 的 初始 配置 ， 或 者 是 由 于 数据 集 太 大 而 没 法 放 在 任何 单个 节 
点 上 ， 这 个 传输 只 是 在 需要 数据 的 地 方 复 制 。 在 这 种 情况 下 ， 进 程 之 间 实 际 上 并 不 是 通过 数 
据 传输 将 信息 从 一 个 进程 送 到 了 另 一 个 进程 。 当 数据 被 适当 地 复制 或 放置 在 有 关 的 进程 上 
时 ， 就 没有 必要 通过 消息 来 传输 它 了 。 更 重要 的 是 ， 如 果 接 收 方 反复 使 用 数据 ， 它 就 能 在 不 
用 补充 数据 传送 的 情况 下 ， 重 用 其 副本 。 发 送 方 可 能 修改 前 面 遂 信 地 址 区 的 内 容 ， 而 对 接收 
方 不 会 有 什么 影响 。 如 果 这 些 更 新 的 效果 需要 通信 ， 就 必须 发 生 补充 性 的 传输 。 

现在 考虑 单 处 理 器 上 通过 缓存 进行 的 常规 数据 访问 。 如 果 缓存 不 包括 所 希望 的 地 址 ， 就 
会 发 生 扑 空 ; 并 且 ， 相 应 的 数据 块 将 从 作为 后 备 的 存储 器 中 发 送出 来 ， 隐 含 地 被 复制 到 缓存 
中 。 当 它 在 缓存 的 时 候 ， 如 果 处 理 器 要 重用 数据 ， 就 不 再 需要 内 存 传输 了 。 在 单 处 理 器 的 例 
子 中 ,处理 器 产生 数据 ， 并 且 被 处 理 器 所 消耗 所 以 ， 只 有 数据 不 在 缓存 中 或 者 是 第 一 次 访 
问 该 数据 ， 才 会 发 生 和 内 存 的 “通信 "。 

进程 之 间 的 通信 和 存储 层次 结构 之 间 的 数据 传送 ， 在 共享 物理 存储 的 系统 中 混在 了 一 
起 。 当 一 个 节点 访问 某 个 地 址 时 ， 只 要 物理 的 后 援 存储 不 是 在 该 节点 的 本 地 ， 绥 存 扑 空 就 会 
引起 数据 在 机 器 之 则 传送 ,无 论 这 个 地 址 是 私有 的 还 是 共享 的 ， 也 无 论 这 个 传送 是 真 通信 的 
结果 还 仅仅 是 数据 访问 。 机 器 的 自然 倾向 是 将 数据 的 副本 复制 到 访问 该 数据 的 处 理 器 中 组 
存 。 当 它 在 缓存 中 的 时 候 ， 如 果 数 据 被 重用 ， 就 不 发 生 数 据 传送 ;这 是 其 主要 的 优点 。 然 
而 ， 当 对 共享 数据 的 写 操作 发 生 时 ， 为 了 保证 后 面 读 人 到 处 理 器 并 被 复制 到 它们 缓存 的 是 新 
数据 ， 而 不 是 旧 数 据 ， 就 必须 做 一 些 处 理 。 这 会 包括 比 简单 的 数据 传送 更 多 的 东西 。 

为 了 弄 清楚 通信 和 复制 的 关系 ， 区 分 儿 个 经 常 在 一 起 出 现 的 概念 也 很 重要 。 程 序 执行 写 
操作 时 ， 它 把 数据 值 捆绑 在 该 地 址 上 ; 而 读 操 作 得 到 该 地 址 上 所 绑 定 的 数据 值 。 数 据 存在 于 
机 器 上 的 物理 存储 部 件 上 。 当 数据 从 一 个 存储 部 件 传送 到 另 一 个 上 时 ， 就 发 生 了 数据 传输 ; 
但 这 并 不 一 定 改变 地 址 和 值 的 绑 定 关系 。 同 样 的 数据 可 能 存在 于 多 个 物理 的 位 置 上 ， 就 像 在 
单 处 理 器 的 存储 层次 中 ， 当 时 最 靠近 处 理 器 的 那个 拷贝 才 是 处 理 器 所 能 看 到 的 。 如 果 它 被 更 
新 ， 其 他 的 隐 含 拷贝 ， 包 括 实际 的 存储 单元 必须 最 终 被 更 新 。 拷 贝 数 据 把 一 些 新 的 地 址 和 相 
同 的 值 绑 定 起 来 。 一 般 情况 下 ， 这 将 引起 数据 传送 。 一 旦 进行 拷贝 ， 这 两 套 绑 定 将 是 完全 独 
立 的 (不 像 在 存储 层次 上 所 发 生 的 隐 仿 复制 )， 所 以 对 其 中 一 些 地 址 的 更 新 不 会 影响 其 他 的 
地 址 。 当 一 个 进程 写 的 数据 被 其 他 进程 读 的 时 候 ， 就 将 发 生 进程 之 间 的 通信 。 这 也 可 以 在 束 
个 机 器 的 范围 内 引起 数据 传送 ， 写 或 者 读 ; 或 者 ， 也 可 能 因为 其 他 的 理由 发 生 数 据 传送 。 通 
信 可 能 包括 建立 新 的 绑 定 或 者 根据 特别 的 通信 抽象 去 做 一 些 事情 。 

一 般 来 说 ， 复 制 可 以 避免 不 必要 的 通信 ， 即 避免 了 给 数据 的 需要 者 传送 自从 上 次 访问 后 
再 没有 改变 的 数据 。 在 一 个 给 定 的 通信 体系 结构 层次 上 进行 自动 复制 的 能 力 ， 严 重地 依赖 于 
该 层 的 命名 和 次 序 的 性 质 。 而 且 ， 复 制 并 不 是 万 能 的 ， 它 也 需要 数据 传输 。 如 果 复 制 的 数据 
不 被 使 用 ， 这 显然 就 是 一 种 浪费 。 我 们 将 看 到 复制 在 并 行 计算 机 体系 结构 中 所 扮演 的 重要 
角色 。 


1.3.4 性 能 


在 定义 通信 和 协作 的 操作 、 数 据 类 型 和 编 址 方式 时 ， 通 信 抽 象 指定 了 共享 的 目标 是 如 何 
命名 的 ， 应 该 维持 什么 样 的 序 性 质 以 及 怎样 实现 同步 。 不 过 ， 可 以 使 用 的 原 语 性 能 特征 决定 
它们 如 何 被 实际 地 使 用 。 程 序 员 和 编译 器 开发 者 将 在 各 种 可 能 的 情况 下 避免 代价 高 的 操作 。 
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在 评价 结构 上 的 权衡 时 ， 在 可 行 的 选择 之 间 所 做 出 的 决定 将 最 终 依靠 它们 所 提供 的 性 能 。 这 
样 ， 为 了 对 并 行 计 算 机 体系 结构 的 基本 问题 进行 介绍 ， 我 们 在 设计 的 很 多 层次 上 都 需要 一 个 
框架 。 

从 根本 上 说 ， 有 三 个 重要 的 衡量 指标 : 时 延 ， 一 个 操作 所 花费 的 时 间 ; 带宽 ， 单 位 时 间 
里 可 以 执行 的 操作 次 数 ; 代价 ， 这 些 操作 对 该 程序 的 执行 时 间 所 产生 的 性 能 影响 。 在 处 理 咒 
每 次 只 做 一 件 事情 的 简单 情况 下 ， 这 些 衡量 指标 是 直接 相关 的 : 带宽 (每 秒 操作 数 ) 是 时 延 
的 倒数 (每 次 操作 的 秒 数 )， 而 代价 是 操作 执行 数目 与 时 延 的 乘积 。 不 过 ， 现 代 的 计算 机 系 
统 同时 可 以 做 很 多 不 同 的 操作 ， 在 这 种 情况 下 ， 这 些 性 能 指标 之 间 的 关系 非常 复杂 。 考 虑 下 
列 一 个 基本 的 例子 。 

例 1.2 假定 一 个 部 件 能 在 100 ns 中 完成 一 次 特定 的 操作 ， 显 然 ， 它 支持 每 秒 一 千 万 次 
操作 的 带宽 。 但 是 如 果 部 件 内 部 分 成 10 个 相同 的 阶段 流水 作业 ， 它 能 提供 每 秒 1 亿 次 操作 
的 峰值 带宽 。 操 作 发 生 的 速率 取决 于 最 慢 的 阶段 会 被 占用 多 久 ， 比 如 10 ns， 而 不 是 取决 于 


一 次 操作 的 时 延 。 对 一 个 应 用 提供 的 带宽 取决 于 该 应 用 多 么 频繁 地 执行 操作 。 如 果 应 用 每 ; 


200 ns 执行 一 次 操作 ， 传 送 的 带宽 是 每 秒 500 万 个 操作 ， 而 与 部 件 是 否 流水 化 无 关 。 当 然 ， 
资源 的 使 用 通常 是 爆发 式 的 ， 所 以 ， 当 平均 初始 频率 低 的 时 候 ， 流 水 线 可 能 有 利 。 如 果 应 用 
在 这 个 部 件 上 执行 1 亿 个 操作 ， 这 些 操作 代价 的 范围 是 什么 ? 

解答 : 用 操作 的 次 数 乘 以 操作 的 延迟 ， 将 会 得 到 上 限 10 s。 操 作 的 次 数 除 以 峰值 速率 得 
到 下 限 1 s。 当 程序 等 待 每 个 操作 的 完成 时 ， 前 者 是 很 准确 的 。 后 者 假定 操作 和 有 用 的 工作 
完全 重合 ， 所 以 代价 只 是 启动 操作 的 时 间 。 假 设 在 操作 发 送 给 部 件 后 ， 在 依赖 操作 的 结果 之 
前 ， 程 序 平均 可 以 做 50 ns 有 用 的 工作 ， 这 样 ， 应 用 的 代价 是 每 个 操作 50 ns, HP 10 ns 来 
启动 这 个 操作 ，40 ns 等 待 其 完成 ， 所 以 整个 代价 是 5 s- E 

由 于 并 行 计算 机 体系 结构 的 特征 是 通信 ， 我 们 最 关心 的 相关 操作 就 是 数据 传输 。 我 们 可 
以 通过 推广 上 述 流水 线 例 子 来 理解 数据 传输 操作 的 性 能 。 

1, 数据 传输 时 间 

数据 传输 操作 的 时 间 一 般 用 线性 模型 来 描述 


传输 时 间 (n) = Ty + (1-3) 


其 中 为 数据 量 ( 比 如 字 节 数 )，B 是 以 相同 的 单位 在 部 件 之 间 传 送 数据 的 传输 率 (Bps)。 
T 是 常量 ， 即 启动 的 代价 。 这 是 一 个 非常 方便 的 模型 ， 可 用 来 描述 各 种 操作 的 性 质 ， 包 括 
消息 传递 、 内 存 访问 、 总 线 事务 、 向 量 操作 。 对 于 消息 传递 来 说 ， 启 动 代价 可 以 看 作 是 第 一 
个 数据 位 到 达 目 的 地 所 花 的 时 间 。 对 于 内 存 操作 来 说 ， 实 际 上 是 访问 时 间 。 对 总 线 事 务 来 
Bi, 它 反映 了 总 线 仲裁 和 命令 执行 阶段 。 对 任何 流水 线 操作 来 说 ， 包 括 对 指令 的 流水 处 理 以 
及 向 量 操 作 ， 它 是 充满 流水 线 的 时 间 。 

使 用 这 个 简单 的 模型 ， 显 然 所 得 到 的 数据 传输 带宽 就 和 传输 的 数据 量 有 关 。 当 传输 量 增 
加 的 时 候 ， 它 就 接近 传输 率 B， 有 时候 被 称 为 r。。 它 达到 这 个 速率 的 快慢 取决 于 启动 开销 。 
不 难 发 现 ， 描 述 达到 峰值 带宽 的 一 半 时 的 中 值 点 为 ， 
nı = TB (1-4) 


2 


不 够 理想 的 是 ， 这 个 线性 模型 没有 说 明 下 一 个 操作 什么 时 候 可 以 开始 ， 也 没有 指出 在 传输 时 
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可 以 进行 什么 样 的 其 他 有 用 工作 。 这 些 其 他 的 因素 由 传输 进行 的 方式 来 决定 。 

2. 开销 和 占用 度 

我 们 所 感 兴趣 的 数据 传输 是 在 并 行 机 器 的 网 络 上 发 生 的 。 处 理 器 通过 通信 辅助 部 件 来 启 
动 传输 过 程 。 这 个 操作 的 必要 成 分 可 以 用 下 面 的 简单 模型 来 描述 : 


通信 时 间 (n) = 开销 + 占用 度 + 网 络 延迟 (1-5) 


开销 是 指 处 理 器 用 来 启动 传输 的 时 间 。 这 可 能 是 一 个 国定 的 代价 ， 例 如 处 理 器 可 能 只 需 
告诉 通信 辅助 部 件 启动 通信 ; 也 可 能 是 n 的 线性 函数 ， 例 如 处 理 器 必须 把 数据 拷贝 到 通信 
辅助 部 件 中 。 关 键 点 在 于 处 理 器 这 时 忙于 通信 事件 ; 此 时 它 不 能 做 其 他 的 有 用 工作 或 者 启动 
其 他 的 通信 操作 。 通 信 时 间 的 其 余部 分 被 认为 是 网 络 时 延 (network latency)， 这 部 分 可 以 被 
其 他 处 理 器 操作 所 隐藏 。 

占用 度 是 指 通 过 通信 路 径 上 最 慢 的 部 件 时 所 用 的 时 间 。 例 如 ， 遍 历 网 络 的 每 一 个 链接 将 
会 占用 时 间 mn/8，B 是 链接 的 带宽 。 数 据 将 会 占用 其 他 的 资源 ， 包 括 缓冲 区 、 交 换 机 和 其 他 
的 通信 辅助 部 件 。 通 信和 辅助 部 件 经 常 是 传输 的 瓶颈 ， 它 决定 了 占用 的 程度 。 占 用 度 限 制 了 通 
信 操 作 启 动 的 频 度 。 在 使 用 同样 资源 的 相继 的 数据 传输 序列 之 前 ， 后 面 的 数据 传输 必须 等 待 
前 面 的 传输 不 再 占用 关键 的 资源 。 如 果 在 处 理 器 和 瓶 棋 之 间 还 有 缓冲 ， 处 理 器 可 以 以 高 于 占 
用 度 倒 数 的 频率 发 送 一 批 罕 发 式 传输 。 然 而 ， 一 旦 缓冲 区 满 ， 处 理 器 就 得 降低 到 由 占用 度 所 
决定 的 速率 。 一 个 新 的 传输 只 有 在 旧 的 传输 已 结束 的 情况 下 才能 开始 。 

剩 下 的 通信 时 间 被 计算 到 网 络 延 迟 (network delay) F, 包括 了 一 个 数据 位 经 路 由 穿 过 
实际 网 络 的 时 间 以 及 很 多 其 他 的 因素 ， 比 如 穿 过 通信 辅助 部 件 的 时 间 。 从 处 理 器 的 观点 看 ， 
特定 的 硬件 部 件 构 成 了 网 络 延 迟 的 主要 组 成 部 分 。 影 响 处 理 器 的 是 在 可 以 使 用 通信 事件 的 结 
果 之 前 必须 等 待 多 久 以 及 在 这 个 期 间 有 和 多少 时间 可 用 来 做 别 的 事情 ， 还 有 传输 数据 的 频率 。 
当然 , 设计 网 络 和 接口 的 任务 和 具体 的 部 件 非常 相关 ， 并 且 也 关系 到 它们 对 处 理 器 所 观测 到 
的 性 能 方面 的 贡献 。 

在 处 理 器 发 送 请 求 并 等 待 应 答 的 简单 情况 下 ， 把 通信 时 间 分 解 成 三 个 组 成 部 分 来 考虑 没 
有 什么 实质 的 意义 。 所 有 关心 的 就 是 整个 往返 时 间 。 然 而 ， 在 流水 线 方式 发 送 多 个 操作 的 情 
况 下 ， 每 一 个 部 件 对 所 产生 的 性 能 都 有 特定 的 影响 。 

事实 上 ， 所 有 沿 通信 路 径 的 单个 部 件 都 能 通过 其 延迟 和 占用 度 来 描述 。 网 络 延迟 仅仅 是 
沿 通 路 延迟 的 和 。 网 络 占用 度 是 沿 通路 的 占有 度 的 最 大 值 。 对 于 互连网 络 来 说 ， 因 为 很 多 传 
输 能 同时 发 生 ， 所 以 就 需要 考虑 进一步 的 因素 。 如 果 这 两 个 传输 同一 时 刻 都 去 使 用 同一 个 资 
源 《〈 比 如 ， 它 们 同时 使 用 同一 条 线 ) ， 有 一 个 就 必须 等 待 。 对 资源 的 竞争 增加 了 平均 通信 时 
间 。 从 处 理 器 的 观点 来 说 ， 竞 争 表现 为 占用 度 的 增加 。 系 统 中 一 些 资源 的 占用 情况 由 穿 过 它 
的 一 些 传输 所 决定 。 

等 式 (1-5) 是 一 个 非常 通用 的 模型 。 可 以 用 来 描述 很 多 现代 流水 化 程度 很 高 的 计算 机 
系统 中 的 数据 传输 。 作 为 一 个 例子 ， 考 虑 在 扑 空 的 情况 下 ， 在 缓存 和 存储 器 之 间 移 动 一 个 块 
的 时 间 。 缓 存 控制 器 花费 一 段 时间 来 检查 标志 ， 判 断 非 命中 情况 并 开始 一 个 传输 ; 这 就 是 开 
销 。 如 果 系 统 中 没有 更 低速 的 部 件 ， 占 用 度 就 是 块 的 大 小 除 以 总 线 带 宽 。 延 迟 包括 仲裁 的 时 
间 和 访问 总 线 的 时 间 以 及 传送 数据 到 存储 器 的 时 间 。 由 于 竞争 ， 可 能 会 引起 更 多 的 等 待 访问 
总 线 的 时 间或 等 待 存 储 周期 完成 的 时 间 。 第 二 个 明显 的 例子 是 把 消息 从 一 个 处 理 器 传递 到 另 
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一 个 处 理 器 的 时 间 。 

3. 通信 代价 

我 们 关心 的 最 基本 的 指标 当然 是 程序 执行 通信 的 时 间 。 一 个 联系 程序 特征 和 硬件 性 能 的 
有 用 模型 如 下 所 示 : 

通信 代价 = 频率 x (通信 时 间 - EERI) (1-6) 

通信 的 频率 定义 为 程序 中 每 工作 单元 通信 操作 的 次 数 ， 它 和 很 多 编程 因素 (我 们 将 在 第 
2 和 3 章 讨论 ) 以 及 很 多 的 硬件 设计 因素 有 关 。 特 别 是 ,硬件 可 能 限制 了 传送 的 能 力 ， 因 此 
决定 了 信息 的 最 小 量 。 它 可 以 自动 复制 数据 ， 或 者 迁移 到 它 被 使 用 的 地 方 。 不 过 ， 由 于 数据 
必须 被 共享 并 且 并 行 执行 中 有 一 些 所 固有 的 通信 ， 因 此 处 理 机 必须 协调 它们 的 工作 。 一 般 来 
说 ， 对 于 一 个 支持 高 通信 频率 程序 的 机 器 来 说 ， 通 信 代 价 等 式 的 其 他 部 分 所 占 比 重 必须 比较 
小 ， 即 低 负 载 、 低 网 络 时 延 以 及 小 的 占用 度 。 对 通信 代价 的 关注 决定 了 机 器 所 能 有 效 实现 的 
编程 模型 以 及 它 所 能 支持 的 应 用 空间 。 任 何 具 有 很 好 计算 性 能 的 并 行 计算 机 可 以 支持 不 频繁 
通信 的 程序 ， 但 是 当 通 信 的 频率 或 通信 量 增加 的 时 候 ， 就 会 给 通信 体系 结构 带 来 很 大 的 
压力 。 

重 登 部 分 是 指 和 其 他 的 有 用 工作 同步 进行 的 通信 操作 部 分 ， 包 括 计算 和 其 他 的 通信 。 这 
样 降 低 有 效 代价 是 可 能 的 ， 因 为 很 多 的 通信 时 间 是 由 系统 部 件 所 做 的 工作 占用 而 不 是 由 处 理 
器 所 做 的 工作 占用 ， 比 如 通信 辅助 部 件 、 总 线 、 网 络 或 者 远 端 的 处 理 器 和 存储 器 。 和 其 他 工 
作 的 重 全 通信 是 一 种 小 规模 的 并 行 行为 ， 这 正 是 快速 微 处 理 器 所 开发 的 指令 级 并 行 性 。 实 际 
上 ,我 们 可 以 利用 一 个 程序 中 的 并 行 性 来 隐藏 通信 的 实际 代价 。 


1.3.5 小 结 


命名 、 操 作 和 集合 和 操作 序 在 每 个 抽象 的 层次 都 存在 ， 它 们 是 在 并 行 体系 结构 中 普遍 适用 
的 概念 ， 并 不 只 是 在 编程 模型 中 。 总 的 来 说 ， 翻 译 的 级 别 或 者 运行 时 软件 可 以 介入 到 编程 模 
型 和 通信 抽象 中 ， 而 在 这 个 抽象 下 面 是 关键 的 硬件 抽象 。 在 任何 层次 ， 通 信和 复制 紧密 地 相 
关联 。 如 果 两 个 进程 访问 相同 的 数据 ， 数 据 就 需要 在 两 者 之 间 被 传送 或 者 被 复制 ， 以 使 得 每 
个 进程 都 能 访问 数据 的 拷贝 。 以 一 种 有 意义 的 方式 在 给 定 的 抽象 层次 用 同一 个 名 字 来 指定 两 
个 不 同 物理 位 置 的 能 力 ， 取 决 于 在 这 个 层次 进行 命名 和 定 序 的 方式 。 在 任何 涉及 到 数据 传送 
的 场合 ， 我 们 都 需要 了 解 关 于 时 延 和 带宽 等 性 能 指标 ; 此外， 还 有 这 些 额外 开销 量 和 占有 度 
所 施加 的 影响 。 作 为 体系 结构 师 ， 我 们 需要 按照 通信 抽象 来 进行 操作 频率 和 操作 类 型 的 设 
计 ， 理 解 在 这 个 边界 处 进行 的 权衡 ， 包 括 硬件 直接 支持 的 和 软件 所 支持 的 权衡 。 在 每 一 个 级 
别 所 采用 的 命名 、 操 作 集 合 以 及 定 序 对 这 些 权 衡 有 很 大 的 影响 ， 我 们 在 这 本 书 中 将 会 经 常 
看 到 。 


1.4 结论 


并 行 计算 机 体系 结构 是 计算 机 体系 结构 发 展 史 中 一 条 重要 的 线索 (本质 上 根植 于 计算 的 
开始 )。 在 这 个 历史 中 ， 它 展现 了 一 种 新 奇 的 甚至 奇异 的 作用 ， 通 常 是 由 于 特定 的 更 高 水 平 
的 并 行程 序 设 计 模 型 ， 并 行 计算 机 设计 已 经 证 明了 结构 的 丰富 多 样 性 。 不 过 ，VLSI 技术 压 
倒 一 切 的 力量 使 得 并 行 体 系 结构 得 到 广泛 的 应 用 ,已 经 把 并 行 性 进一步 地 推 人 了 主流 。 所 有 
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的 现代 微 处 理 器 系统 内 部 都 是 高 度 并 行 的 ， 在 每 个 周期 执行 多 个 位 并 行 指令 ， 甚 至 在 一 致 性 
相关 的 限制 下 进行 指令 的 重 排序 ， 以 额外 的 和 硬件 部 件 来 减少 通信 代价 的 影响 。 这 些 多 处 理 
器 系统 已 经 成 为 计算 机 产业 的 性 能 和 价格 性 能 进步 的 主要 方向 。 从 功能 最 强 的 超级 计算 机 到 
服务 器 再 到 台式 机 ， 我 们 看 到 把 多 个 处 理 器 集成 到 一 个 通信 网 络 上 ， 从 而 构成 整个 系统 。 这 
种 技术 ， 再 加 上 不 断 成 熟 的 编译 技术 ， 就 产生 了 现代 并 行 机 器 结构 组 织 上 的 融合 。 关 键 的 结 
构 问题 在 于 通信 如 何 与 存储 器 及 VO 系统 相 结 合 ; 这 些 要 点 构成 了 除 计算 节点 外 的 剩余 部 
分 。 这 种 通信 结构 揭示 了 关于 在 硬件 级 别 的 命名 方式 ， 保 证 什么 样 的 定 序 方式 ， 同 步 操作 如 
何 执行 ;然而 ， 从 性 能 的 角度 看 ， 我 们 必须 理解 通信 操作 内 在 的 时 延 和 带宽 。 这 样 ， 现 代 的 
并 行 体系 结构 就 带 有 一 种 很 强 的 工程 味道 ， 体 现在 对 代价 和 性 能 权衡 的 量化 分 析 。 

本 书 提出 的 基本 概念 和 并 行 结构 的 工程 问题 ， 跨 越 了 很 广泛 的 潜在 设计 空间 ， 它 们 在 今 
天 和 未 来 的 计算 中 都 会 有 重要 的 作用 。 计 算 机 系统 ， 不 管 是 并 行 还 是 串 行 的 ， 是 根据 要 求 和 
工作 负载 特点 来 设计 的 。 对 于 传统 的 计算 机 来 说 ， 我 们 假设 该 行业 的 很 多 厂家 能 够 很 好 地 理 
解 串 行程 序 并 且 假 设 编程 者 都 已 经 做 到 如 何 对 它们 进行 编译 ， 知 道 什 么 程度 的 优化 是 合理 
的 。 这 样 ， 我 们 可 以 非常 容易 地 进行 串 行程 序 设计 ， 针 对 具体 的 机 器 进行 编译 ， 通 过 运行 程 
序 和 评估 执行 踪迹 来 得 出 结论 。 当 我 们 努力 通过 体系 结构 的 提高 来 提升 性 能 时 ， 我 们 首先 假 
设 程序 是 非常 合理 的 。 

并 行 计算 机 的 情况 相当 不 同 。 很 少 有 对 并 行 编程 的 总 的 理解 ， 并 且 编 程 者 和 编译 器 的 优 
化 还 有 很 大 的 空间 ， 可 以 大 大 影响 在 机 器 级 别 表现 出 的 程序 特征 。 

第 2 章 提供 了 并 行程 序 的 综述 一 一 它们 的 外 在 表现 以 及 它们 如 何 编写 。 第 3 章 揭 示 了 要 
构造 一 个 好 的 并 行程 序 程序 员 和 编译 器 所 必须 解决 的 问题 ， 也 就 是 ， 能 尽量 的 使 用 多 处 理 器 
来 形成 一 个 体系 结构 度量 的 合理 基础 。 最 终 ,我们 根据 机 器 级 别 的 程序 特征 来 设计 并 行 计 算 
机 ， 所 以 第 3 章 的 目标 就 是 要 建立 程序 和 机 器 如 何 花费 其 时 间 之 间 的 联系 。 事 实 上 ， 第 2、 
3 章 把 我 们 在 应 用 的 级 别 对 问题 的 总 体 理解 带 人 到 在 通信 抽象 的 层次 对 特性 和 操作 频率 的 理 
解 上 。 

第 4 章 建立 了 一 个 工作 负载 驱动 的 并 行 设 计 评测 环境 的 框架 。 首 先 必 须 解 决 两 个 相关 的 
问题 。 第 一 ， 对 于 已 经 造 好 的 并 行 机 器 来 说 ， 我 们 需要 一 个 合适 的 性 能 评测 方法 。 这 可 以 通 
过 独立 考察 机 器 的 各 个 方面 来 决定 ， 并 且 测 试 它们 一 起 执行 的 情况 。 理 解 应 用 的 特征 对 于 理 
解 负载 和 证 机 器 性 能 的 关系 非常 重要 。 第 二 ， 我 们 需要 来 评估 设想 的 体系 结构 的 新 思想 。 新 
的 想法 需要 通过 模拟 来 评价 ， 这 就 对 什么 可 以 被 合理 的 执行 加 了 很 多 的 限制 。 而 且 ， 对 应 用 
特性 的 理解 以 及 如 何 根据 问题 来 扩展 机 器 规模 ， 对 认识 整个 设计 空间 来 说 是 很 关键 的 。 

第 5、6 章 研究 共享 物理 地 址 空间 的 对 称 多 处 理 器 系统 的 具体 设计 问题 。 在 研究 可 扩展 
系统 的 设计 之 前 ， 深 入 研究 一 下 小 规模 的 例子 有 很 多 重要 的 原因 。 第 一 ， 小 规模 的 多 处 理 器 
系统 是 并 行 系统 最 流行 的 形式 ; 它们 很 可 能 是 学 生 们 最 常见 到 的 形式 ， 也 是 很 多 软件 开发 者 
的 目标 ， 并且 很 多 的 专业 设计 人 员 都 要 处 理 这 些 问题 。 第 二 ， 在 小 规模 系统 中 产生 的 问题 会 
揭示 出 大 规模 系统 中 的 一 些 问 题 ,但 是 解决 方案 一 般 简 单 且 易于 把 握 。 这 样 ， 这 些 章节 就 为 
在 后 5 章 讨论 大 规模 系统 提供 了 一 个 缩影 。 第 三 ， 小 规模 的 多 处 理 器 设计 是 设计 大 规模 机 器 
的 基本 组 成 单元 。 将 处 理 器 - 内 存 节点 互 连 起 来 形成 一 个 可 扩展 处 理 器 的 方案 ， 在 很 大 程度 
上 受 小 规模 机 器 的 处 理 器 、 高 速 缓存 和 存储 结构 的 限制 。 最 后 ， 小 规模 系统 的 设计 问题 本 身 
是 很 引人入胜 的 。 
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第 5S、6 章 设计 的 基本 构成 元 素 是 处 理 器 和 内 存 之 间 的 共享 总 线 。 我 们 所 要 解决 的 基本 
问题 是 要 保持 高 速 缓存 内 容 和 提供 给 处 理 器 的 内 存 视 图 的 一 致 性 。 总 线 是 一 个 有 力 的 机 制 。 
它 通过 单独 的 一 组 连 线 提供 了 任意 两 个 单元 之 间 的 通信 方式 ; 而 且 ， 它 可 以 作为 一 种 广播 的 
载体 ， 因 为 这 里 只 有 一 组 连 线 ， 甚 至 通过 线 的 “或 ”(OR) 信号 提供 全 程 的 状态 。 总 线 事务 
的 性 质 在 设计 传统 的 高 速 缓存 控制 器 的 过 程 中 被 充分 利用 ， 以 解决 一 致 性 的 问题 。 第 5 章 提 
出 了 逻辑 级 别 的 基于 总 线 的 缓存 一 致 性 技术 ， 并 提出 了 一 些 基本 的 设计 选择 。 这 些 设计 选择 
提供 了 如 何 把 工作 负载 驱动 的 评测 作为 决策 根据 的 一 个 示例 。 最 后 ， 第 5 章 考察 了 影响 软件 
级 别 的 机 器 设计 的 并 行 编程 的 问题 ， 特 别 是 考虑 到 高 速 缓存 对 共享 模式 的 影响 以 及 健壮 的 同 
步 例 程 的 设计 。 第 6 章 集 中 讨论 组 织 结构 和 基于 总 线 的 高 速 缓存 一 致 性 机 器 的 实现 。 它 考察 
了 很 多 更 加 先进 的 实现 ， 尽 量 去 减少 时 延 并 在 保存 内 存 的 同一 性 视图 的 前 提 下 增加 带宽 。 

第 7~ 11 章 将 对 可 扩展 性 并 行 体系 结构 设计 进行 一 个 综合 的 考察 。 第 7 章 阐述 概念 上 的 
步骤 ， 从 将 总 线 事务 作为 更 高 层次 抽象 的 构造 模块 起 ， 到 将 网 络 事务 作为 构造 模块 。 为 了 进 
行 综合 的 理解 ， 在 这 个 引 论 章节 所 讨论 的 通信 抽象 将 从 基本 的 网 络 事务 开始 。 然 后 ， 这 一 章 
将 进一步 研究 节点 到 网 络 接口 的 设计 问题 ， 使 用 的 是 一 种 案例 分 析 的 方法 。 

第 8、9 章 深入 讨论 支持 共享 地 址 空间 的 可 扩展 机 器 的 设计 问题 ， 包 括 物理 地 址 空间 的 
共享 和 在 多 个 物理 地 址 空间 之 上 的 虚拟 地 址 空间 的 共享 。 中 心 问题 是 在 保持 内 存 同 一 性 情况 
下 的 数据 自动 复制 问题 ， 并 且 避 免 性 能 方面 的 瓶 英 。 对 全 局 物理 地 址 空间 的 研究 强调 了 能 够 
提供 有 效 、 细 粒度 共享 的 全 局 物理 地 址 空间 。 对 全 局 虚拟 地 址 空间 的 研究 提供 了 对 最 大 工作 
负载 的 最 小 硬件 支持 的 准确 理解 。 

第 10 章 考虑 可 扩展 网 络 设计 本 身 的 问题 。 和 处 理 器 、 高 速 缓存 、 存 储 系统 一 样 ， 网 络 
设计 空间 也 具有 很 多 维度 ， 一 个 设计 决策 经 常 包括 这 些 维度 之 间 的 交互 。 这 一 章 列 出 了 可 扩 
展 互 连 结构 设计 的 一 些 基本 问题 ， 示 出 了 一 般 的 设计 选择 并 且 评估 了 在 第 8、9 章 中 所 建立 
的 相关 要 求 。 第 11 章 在 时 延 包 容 的 概念 下 将 前 面 4 章 的 内 容 串 了 起 来 ， 包 括 大 数据 块 传输 、 
滞后 写 、 提 前 读 等 在 通信 抽象 中 的 作用 。 最 后 ， 第 12 章 在 技术 、 实 现 、 经 济 趋势 和 预测 这 
些 并 行 体系 结构 领域 的 关键 因素 的 整体 影响 下 考虑 这 本 书 的 整体 概念 。 


1.5 历史 资料 


并 行 计 算 机 体系 结构 具有 丰富 多 彩 的 历史 背景 ， 并 且 和 处 理 器 、 内 存 、 网 络 技术 的 发 展 
紧密 相关 。 并 行 体系 结构 最 先 在 1960 年 左右 兴起 。 这 是 唱 体 管 替 代 电 子 管 和 其 他 的 复杂 逻 
辑 技术 的 关键 时 期 。 处 理 器 越 来 越 小 且 更 容易 管理 。 一 个 相对 廉价 、 低 耗费 的 存储 技术 出 现 
T ( 磁 芯 存储 器 )， 计 算 机 体系 结构 繁衍 成 有 意义 的 “家 族 "。 

随 着 大 型 机 的 出 现 ， 小 规模 的 共享 内 存 多 处 理 器 在 这 时 起 到 了 重要 的 商业 角色 。 这 些 机 
4 £48 Burroughs B5000 (Lonergan and King 1961) 和 D825 (Anderson et al. 1962) 以 及 IBMSystem 
360 机 型 65 和 67 (Padegs 1981)。 支 持 多 处 理 器 的 配置 在 360 体系 结构 到 System370 系列 的 演 
进 过 程 中 成 为 关键 的 扩展 。 这 包括 原子 存储 操作 和 处 理 器 间 的 中 断 。 在 科学 计算 的 领域 ， 共 
享 内 存 的 多 处 理 器 也 非常 普遍 。CDC 6600 提供 了 非 对 称 的 共享 内 存 组 织 把 多 个 外 设 处 理 器 
和 中 心 处 理 器 相连 ， 并 且 提 供 了 一 个 双 CPU 配置 。 消 息 传递 机 器 的 起 源 可 追溯 到 RW400， 
iT 1960 4F (Porter 1960) 。 数 据 并 行 机 器 也 出 现 了 ， 采 用 Solomon 计算 机 的 设计 (Ball et al, 
1962; Slotnick, Borck, and McReynolds 1962) 。 


[65] 





[61] 
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到 20 世纪 60 年代 未 ， 在 处 理 器 内 部 发 生 了 很 大 的 革新 ， 如 使 用 流水 线 和 功能 单元 的 复 
制 来 实现 并 行 性 ， 而 不 是 通过 单纯 的 增加 时 钟 频率 来 得 到 更 高 的 性 能 。 很 多 人 认为 这 些 努力 
即将 会 得 不 偿 失 ，Jninois 大 学 和 Burroughs 启动 了 一 个 重要 的 研究 项 目 来 设计 和 实现 一 个 具 
有 64 个 处 理 器 的 SIMD HLE, 叫做 Iliac IV (Bouknight et al. 1972) ， 基 于 早期 的 Solomon 项 目 
(尽管 Amdahl 持 有 相反 的 观点 [Amdahl 1967])。 这 个 项 目 非 常 雄 心 勃 勃 ， 包 括 研 究 基 本 的 硬 
件 技术 、 体 系 结构 、L10 设备 、 操 作 系 统 、 编 程 语言 和 应 用 。1975 年 ， 一 个 具有 较 小 的 配 
Si. 16 个 处 理 器 的 系统 开始 运行 ， 计 算 机 业 开始 了 巨大 的 变化 。 

首先 ， 作 为 一 个 简单 的 线性 阵列 的 中 低速 物理 设备 ， 存 储 的 概念 被 革新 ， 开 始 了 虚 存 的 
概念 和 后 来 的 高 速 缓存 技术 。Multics ME MATS (BRO, Atlas and CTSS) 把 用 户 地 址 空间 的 
概念 和 物理 地 址 空间 的 概念 区 分 开 来 。 这 就 要 求 维 护 一 些 最 新 的 映射 机 构 ， 如 TLB， 来 得 到 
最 合理 的 性 能 。EDSAC 的 设计 者 Maurice Wilkes， 看 到 了 组 织 可 寻 址 存储 的 一 种 有 力 的 技术 ， 
即 高 速 缓存 。 这 证 明 是 对 并 行 性 应 用 的 一 个 胜利 。 在 360/85 中 引入 高 速 缓存 ， 得 到 了 比 
360/91 更 高 的 性 能 ， 它 具有 更 快 的 时 钟 频率 、 更 快 的 存储 器 、 具 有 动态 调度 的 流水 执行 。 在 
IBM 360/185 中 高 速 缓存 技术 得 到 了 真正 的 商业 应 用 ， 但 是 也 为 WO 控制 器 和 协 处 理 器 带 来 
了 严重 困难 。 如 果 地 址 被 高 速 缓存 ， 并 且 没 有 局 限于 特定 的 内 存 位 置 ， 其 他 的 处 理 器 和 棕 制 
器 如 何 定位 合法 的 数据 ? 一 个 解决 方法 是 维护 每 一 个 高 速 缓存 的 目录 ， 这 种 思想 在 近 些 年 得 
到 了 重要 的 应 用 。 

第 二 ， 存 储 技 术 本 身 随 着 半导体 存储 器 替代 磁 芯 存储 器 ， 发 生 了 巨大 的 革命 。 开 始 ， 这 
个 技术 对 小 的 高 速 缓存 最 为 适用 。 其 他 的 机 器 ， 比 如 CDC 7600, 只 是 提供 了 一 个 单独 的 、 快 
速 的 、 可 以 精确 寻 址 的 小 存储 器 。 第 三 ， 集 成 电路 兴起 。 总 体 的 结果 是 单 处 理 器 系统 在 性 能 
上 有 了 巨大 的 进展 ， 集 成 了 Miac IV 系统 中 的 很 多 并 行 特性 。CDC STAR-100 中 的 流水 向 量 处 
理解 决 了 Mia 中 试图 解决 但 由 于 数据 移动 操作 的 困难 而 没有 最 终 解 决 的 数学 计算 问题 。 最 
后 引入 了 CRAY-1 系统 ， 由 于 精致 的 电路 设计 和 RISC 指令 集 ， 且 具有 邻 人 吃惊 的 80 MHz 时 
钟 频 率 ， 并 且 通 过 向 量 寄存 器 来 提高 向 量 操 作 ， 提 供 了 很 高 的 峰值 速率 并 保证 了 低 启动 代 
价 。 使 用 简单 的 向 量 处 理 和 快速 、 昂 贵 的 ECL 电路 相 结合 ， 在 随后 的 15 年 中 占据 了 高 性 能 
计算 领域 的 领先 位 置 。 

不 过 20 世纪 70 年代 早期 微 处 理 器 的 出 现 发 生 了 第 4 个 戏剧 性 的 变化 。 早 期 的 微 处 理 器 
性 能 非常 低 ， 但 其 改善 是 很 迅速 的 ， 位 片 设 计 逐 渐 过 渡 到 4 位 、8 位 、16 位 和 全 字 设 计 。 这 
种 技术 的 潜力 促使 卡 内 基 梅 隆 大 学 设计 了 使 用 流行 的 PDP-11 小 型 计算 机 的 LSL11 版 本 的 大 
型 共享 存储 器 多 处 理 器 系统 。 这 个 工程 经 过 了 两 个 阶段 。 第 一 个 阶段 ， 叫 做 C.mmp (通过 
一 个 特殊 设计 的 电路 交换 的 交叉 开关 把 16 个 处 理 器 、 存 储 器 和 输入 输出 设备 连接 起 来 )， 非 
常 类 似 于 图 1-15 中 舞池 设计 (Wulf, Levin, and Person 1975)。 第 二 个 阶段 ，CM* ， 打 算 通 过 
把 14- 节 点 能 通过 分 组 交换 网 络 在 NUMA 配置 中 接 在 局 部 存储 器 上 ， 形 成 一 个 具有 100 个 处 
理 机 的 系统 (Swan, Fuller, and Siewiorek 1977; Swan et al.1977), 40) 1-19 Pras. 

这 种 用 许多 小 的 微 处 理 器 构造 系统 的 趋势 从 20 世纪 80 年 代 早期 到 中 期 呈 爆 炸 性 增长 的 
态势 ， 导 致 了 多 个 不 同 派别 的 出 现 。 在 共享 存储 器 一 方 ， 大 家 注意 到 了 总 线 的 和 高 速 缓存 的 
结合 使 中 等 规模 的 多 处 理 机 非常 有 吸引 力 。 总 线 的 带宽 虽然 有 限 ， 但 它 是 一 个 广播 的 介质 。 
高 速 缓 存 将 对 带宽 的 需求 滤 掉 一 些 ， 提 供 了 处 理 机 和 存储 系统 之 间 的 一 个 中 介 。 加 利 福 尼 亚 
大 学 伯克利 分 校 的 研究 工作 (Goodman 1983; Hill et al. 1986) 引入 了 一 种 基本 总 线 协议 的 扩 
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展 ， 允 许 总 线 维 持 一 种 一 致 的 状态 。 随 着 32 位 微 处 理 器 的 出 现 和 个 人 电脑 业 的 起 飞 ， 在 这 
个 方向 上 形成 了 若干 小 的 公司 ， 包 括 Synapse (Nestle and Inselberg 1985), Sequent (Rodgers 
1985), Encore (Bell 1985; Schanin 1986), Flex (Matelan 1985) 等 等 。 十 年 后 ， 这 种 技术 路 线 统 
治 了 服务 器 和 高 端 工 作 站 市 场 ， 并 且 在 PC 服务 器 和 桌面 系统 中 也 有 一 定 的 地 位 。 当 高 速 
RISC 微 处 理 器 的 性 能 优 于 由 多 个 慢 一 些 的 处 理 器 构成 的 系统 时 ， 这 种 方法 曾经 历 过 一 段 暂 
时 的 衰退 。 尽 管 RISC 处 理 器 也 适合 多 处 理 机 设计 ， 但 它们 的 带宽 需要 却 严重 的 限制 了 扩展 
性 ， 直 到 一 代 新 型 共享 总 线 在 20 世纪 90 年 代 初 期 出 现时 才 有 了 转机 。 

与 此 同时 ， 消 息 传递 方面 有 两 个 主要 的 研究 工作 一 起 开展 。 在 加 州 理工 学 院 ， 使 用 64 
个 i8086/8087 的 微 处 理 器 组 建 了 一 个 超 立 方 体 结构 的 系统 (Seitz 1985; Athas and Seitz 1988)。 
根据 这 种 设计 ， 其 他 几 个 设计 也 在 加 州 理工 学 院 和 IPL (Fox et al. 1988) 进行 ， 并 且 ， 至 少 
两 个 公司 把 这 种 方法 进行 了 商品 化 一 一 Intel (iPSC 系列 ) 和 Ametek。 在 英国 的 INMOS 公司 
推动 了 一 种 更 积极 的 方法 ， 他 们 采用 了 Transputer 的 方式 ， 也 就 是 把 4 个 通信 通道 直接 集成 
到 一 个 微 处 理 器 上 。 这 种 方法 被 nCUBE 所 采用 ， 并 使 用 在 一 系列 大 规模 的 消息 传递 的 机 器 
Ho Intel 公司 把 商品 处 理 器 方法 继续 推进 ， 使 用 快速 的 1860 替代 180386 ， 在 Delta 中 使 用 快 
速 基于 网 格 的 互 连 结构 代替 了 网 络 并 且 在 Paragon 中 加 入 了 专门 的 消息 处 理 器 。Meiko 在 计算 
领域 从 Transputer 转移 到 i860。IBM 也 在 Vulcan 中 用 SP 系列 (实际 上 是 RS6000 工作 站 的 群 
集 ) 得 到 了 商业 方面 的 成 功 ; 之 前 他 们 研究 了 Vulcan 中 基于 i860 的 设计 。 

数据 并 行 系统 在 20 世纪 80 年 代 早期 ， 经 过 一 段 沉寂 之 后 又 出 现 了 。 这 包括 为 图 像 处 理 
服务 的 Batcher 的 MPP 系统 以 及 Hillis 为 AI 应 用 所 开发 的 Connection Machine (Hillis 1985)。 关 
键 的 提高 是 提供 了 一 种 问题 要 求 的 通用 互 连 而 不 是 简单 的 基于 网 格 的 通信 。 这 些 想 法 随 着 
Thinking Machines 公司 的 出 现 开始 了 商业 化 ， 首 先是 CM-1 机 器 ， 和 Hillis 的 概念 非常 相近 ， 
然后 是 集成 了 大 量 位 并 行 浮 点 部 件 的 CM-2。 而 且 ，MasPar 和 Wavetracer 将 位 串 或 稍 宽 一 些 的 
组 织 方式 放 到 了 廉价 的 系统 中 。 

20 世纪 80 年 代 早 期 出 现 了 一 种 更 加 形式 化 的 高 度 并 行 系统 一 一 脉动 阵列 机 ， 假 设 很 多 
简单 的 处 理 元 素 可 以 装配 在 一 个 单独 的 芯片 上 。 这 些 数组 将 给 传统 的 计算 机 系统 提供 便宜 、 
高 性 能 、 特 殊 目 的 的 附加 物 。 在 一 定 程度 上 ， 这 些 想法 已 经 在 数据 并 行 机 的 程序 中 被 实现 。 
在 CMU 的 iWARP 项 目 中 设计 了 一 个 更 通用 的 ， 在 与 Intel 公司 的 进一步 合作 中 开发 使 用 的 小 
规模 模块 。 另 外 , 这 些 想法 在 快速 图 形 学 、 压 缩 和 制图 芯片 中 也 得 到 了 应 用 。 

由 VLSI 革命 带 来 的 可 能 性 也 激 起 人 们 研究 一 些 更 加 激进 的 体系 结构 的 概念 ， 包 括 数据 
流 结构 (Dennis 1980; Gurd, Kerkham, and Watson 1985; Papadopoulos and Culler 1990; Arvind and 
Culler 1986) 把 网 络 和 处 理 器 的 指令 调度 机 制 很 好 的 集成 起 来 。 有 人 认为 通过 机 器 的 快速 动 
态 调度 可 以 隐藏 长 的 通信 延迟 和 大 型 机 器 的 同步 开销 ， 因 此 大 大 简化 了 编程 。 这 些 思 想 的 演 
进 趋向 于 通过 消息 驱动 的 计算 和 消息 传递 机 制 相 融 合 (Dally, Keen, and Noakes 1993), 

大 规模 的 共享 存储 设计 也 出 现 了 。IBM 在 RP-3 (Pfister et al. 1985) 中 进行 了 高 层面 的 研 
究 ， 它 通过 蝴蝶 网 络 互 连 很 多 的 早期 RISC 处 理 器 (801) 来 实现 。 这 是 以 NYU 的 超 机 计算 
项 目 为 基础 (Gottlieb et al. 1983)， 在 使 用 混合 操作 方面 非常 的 新 奇 。BBN 开发 了 两 个 大 规 
模 的 设计 ， 即 使 用 Motorola 68000 处 理 器 的 BBN Butterfly 和 使 用 88100 的 TC2000 (Bolt Beranek 
and Newman 1989)。 这 些 设计 ， 在 可 扩展 的 前 提 下 ， 考 察 了 如 何 提供 一 个 完全 的 高 速 缓存 一 
致 性 的 分 布 共享 存储 的 问题 。 斯 坦 福 大 学 的 DASH 项 目 提 供 了 一 个 通过 维护 含有 每 个 高 速 组 
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存 块 存放 位 置 的 目录 的 缓存 一 致 性 分 布 的 共享 存储 器 (Lenoski et al. 1993; Lenoski et al. 
1992)。SCI 代表 了 标准 化 互 连 方式 和 缓存 一 致 性 协议 (IEEE 1993) 的 设计 。MIT 的 Alewife 
项 目 试 图 使 对 共享 存储 的 硬件 支持 最 小 化 (Agarwal et al. 1995)， 并 且 被 威斯康辛 (Wiscon- 
sin) 大 学 的 研究 者 推动 (Wood et al. 1993), Kendall Square Research KSR] 项 目 (Frank, 
Burkhardt, and Rothnie 1993; Saavedra, Gains, and Carlton 1993) 做 进一步 深入 ， 其 至 允许 内 存 
中 的 数据 位 置 可 以 迁移 。 另 外 ，Denelcor HEP 通过 在 一 个 处 理 器 的 上 交叉 执行 很 多 独立 的 线 
程 努 力 隐藏 远程 内 存 时 延 的 代价 。 

从 20 世纪 90 年 代 开始 了 这 些 不 同 派别 之 间 的 融合 ， 这 种 融合 被 很 多 因素 所 推动 。 一 是 
所 有 的 方法 都 有 同样 的 要 求 。 它 们 都 要 求 一 个 快速 的 、 高 性 能 的 互连网 络 。 它 们 从 避免 延迟 
和 减少 它们 所 发 生 的 绝对 时 延 方 面 来 得 到 相应 的 好 处 并 从 隐藏 尽 可 能 多 的 通信 开销 方面 得 到 
了 很 大 的 好 人 处。 它们 必须 支持 不 同形 式 的 同步 。 我 们 已 经 看 到 共享 存储 在 Alewife (Agarwal et 
al. 1995) 和 FLASH (Kuskin et al. 1994) 系统 中 努力 把 消息 传递 集成 在 一 起 ， 以 取得 好 的 性 
能 ， 而 应 用 的 规则 性 可 以 提供 大 的 传输 量 。 我 们 已 经 看 到 数据 并 行 设 计 把 完整 的 商用 处 理 器 
集成 在 CM-5 中 (Leiserson et al.1996)， 并 且 人 允许 在 用 户 级 进行 非常 简单 的 消息 处 理 ， 这 提供 
了 更 有 效 的 消息 驱动 的 计算 和 共享 存储 (von Eicken et al. 1992; Spertus et al. 1993)。 这 里 还 
有 对 快速 全 局 同步 的 进一步 支持 。 我 们 已 经 看 到 了 在 NUMA 共享 内 存 系统 CRAY T3D 
(Kessler and Schwarzmeier 1993; Koeninger, Furtney, and Walker 1994) 中 的 快速 全 局 同步 、 消 息 
队列 、 延 迟 隐 藏 技术 以 及 Meiko CS-2 (Barton, Crownie, and McLaren 1994; Homewood and 
McLaren 1993) 所 支持 的 消息 传递 在 用 户 地 址 空间 内 提供 了 直接 的 点 存 到 虚 存 的 传输 。 新 的 
因素 可 以 区 别 各 个 派别 ， 如 SP-1，SP-2 使 用 完整 的 商用 工作 站 节点 ， 其 他 不 同 的 工作 站 群集 
使 用 了 刚 出 现 的 高 带宽 网 络 (Anderson, Culler, and Patterson 1995; Kung et al. 1989; Pfister 
1995)。 有 上 脆弱 的 存储 系统 集成 的 代价 ， 相 对 不 变 的 网 络 可 靠 性 以 及 通用 的 系统 要 求 使 得 这 些 
系统 和 传统 的 消息 传递 机 制 更 加 一 致 ， 尽 管 将 来 的 发 展 还 并 不 清晰 。 


习题 


1.1 对 表 1-1 的 数据 按 指数 增长 率 外 推 ， 计 算 品 体 管 数 量 、 蝇 片 的 尺寸 、 时 钟 频率 的 年 增 
长 率 。 同 时 从 Web 上 获得 最 新 的 数据 ， 看 这 种 外 推 的 结果 和 实际 情况 相 比如 何 。 
1.2 计算 表 1-2 中 所 示 各 种 计算 机 在 基准 测试 程序 上 的 性 能 年 增长 率 。 对 你 所 看 到 的 差别 
进行 评述 。 
1.3 在 评价 性 能 的 权衡 时 我们 通常 要 评估 由 于 某 种 措施 所 导致 的 性 能 提高 ， 或 称 加 速 比 。 
形式 上 ， 我们 有 
ey, -时 间 (不 用 E) 
由 于 措施 已 带 来 的 加 速 比 = EE EE 
_ 性 能 UH E) 
= Efe (不 用 E) 
特别 地 ， 我 们 经 常 所 到 加 速 比 是 机 器 并 行 度 的 一 个 函数 〈 比 如 ， 处 理 器 的 数目 )。 
假设 给 定 一 个 程序 完成 一 个 固定 量 的 工作 ， 并 且 那 个 工作 的 某 一 部 分 s 必须 品行 
化 ， 其 他 部 分 在 P 个 处 理 器 上 能 完全 并 行 执行 。 假 设 T, 是 一 个 处 理 器 所 花费 的 时 间 ， 
试 推导 出 P 个 处 理 器 所 用 的 时 间 7,。 进 而 用 这 个 结果 来 给 出 P 个 处 理 器 潜在 加 速 比 的 
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ER (这 就 是 常 被 称 作 Amdahl 定律 的 变量 [Amdahl 1967])。 并 解释 为 什么 它 是 上 限 。 
1.4 给 出 一 个 如 图 1-7 所 示 的 表示 可 得 并 行 性 的 直方 图 ， 其 中 上 是 在 一 个 理想 的 机 器 上 发 
出 i 条 指令 所 用 的 周期 数 ， 试 给 出 Amdahl 定律 的 一 种 扩充 形式 ， 来 评估 在 所 发 射 超标 
量 机 器 上 的 潜在 加 速 比 情况 。 把 你 的 公式 应 用 在 图 1-7 的 直方 图 上 ， 产 生 在 该 图 中 所 
示 的 加 速 比 曲线 。 
表 1-1 几 种 微 处 理 器 的 基本 参数 





微 处 理 器 名 年 Die (me?) 总 晶体 管 数 时 针 频 率 (MHz) 
i4004 1971 9 2,300 0.5 
i8008 1972 12.25 3,500 0.8 
i8080 1974 20.25 5,000 3 
M6800 1974 25 5,000 1 
M68000 1979 43.56 68,000 12.5 
i80286 1982 64 130,000 10 
M68020 1984 84.64 180,000 25 
i80386 1985 90.25 275,000 16 
i80486 1988 160 1,200,000 50 
MIPS R3000 1988 72 125,000 33 
Motorola 68040 1989 126.4 1,200,000 25 
Alpha 21064 1992 233.5 1,680,000 160 
Pentium 66 1993 294 3,100,000 66.7 
Alpha 21066 1994 209 l 1,750,000 133 
MIPS R10000 1994 298 5,900,000 200 
Alpha 21164 1995 298.7 9,300,000 300 
UltracSparc 1995 315 3,800,000 167 


OE 


表 1-2 领先 的 工作 站 的 性 能 


ee 


机 器 年 Spec] nt SpecFP LINPACK n= 1,000 峰值 FP 
Sun 4/260 1987 9 6 1.1 1.1 3.3 
MIPS M/120 1988 13 10.2 2.1 4.8 6.7 
MIPS M/2000 1989 18 21 3.9 7.9 10 
IBM RS6000/540 1990 24 44 19 50 60 
HP 9000/750 1991 51 101 24 4? 66 
DEC Alpha AXP 1992 80 180 30 107 150 
DEC 7000/610 1993 132.6 200.1 44 156 200 
AlphaServer 2100 1994 200 291 43 129 190 


EE 


1.5 从 网 上 找到 最 近 的 TPC 性 能 数据 ， 从 系统 配置 、 性 能 以 及 加 速 比 等 方面 和 图 1-4 中 的 


72 


52 


HAP IT BURR 





1 


.10 
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.12 


数据 进行 比较 。 

在 消息 传递 模型 中 ， 给 每 一 个 进程 有 一 个 特定 的 变量 或 函数 ， 来 表示 它 在 执行 程序 过 
程 中 的 惟一 的 序号 或 编号 。 很 多 共享 内 存 编程 系统 提供 了 一 个 fetch&ine 操作 ， 它 读 出 
一 个 内 存单 元 的 值 ， 并 自动 对 这 个 值 做 增 量 操作 。 写 一 个 小 的 伪 代 码 来 表明 如 何 使 用 
fetch&ine 操作 来 为 每 一 个 进程 赋 一 个 惟一 的 序号 。 你 能 使 用 一 种 简单 的 方式 来 决定 组 
成 共享 内 存 并 行程 序 的 处 理 器 数目 吗 ? 


为 了 沿 着 五 个 链 路 来 移动 a 个 字 节 的 消息 ， 在 一 个 空 载 的 存储 -转发 网 络 中 需要 如 于 


+ (H-1) R 的 时 间 ， 其 中 克 是 原始 的 链 路 带宽 ， 尺 是 每 一 跳 的 路 由 延迟 。 在 一 个 具 
有 直通 路 由 的 网 络 中 ， 这 需要 nW (H-1) RR 的 时 间 。 考 虑 一 个 8x8 的 包括 40 MB- 
ps 链 路 和 路 由 器 的 网 格 ， 它 具有 250 ns 的 延迟 。 在 这 个 网 络 中 移动 一 个 64 字 节 的 消息 
需要 多 少时 间 ? 256 个 字 节 的 消息 呢 ? 

考虑 一 个 简单 的 2D 有 限 差分 模式 ， 其 中 每 一 步 算 阵 中 的 每 个 点 通过 4 个 邻居 的 平均 值 
进行 更 新 A [i, j] =A li. j] ~-w(4[i-l, j] +A [itl, j] +4 [i,j-1] 
+A li, j+1])。 所 有 的 值 是 64 位 的 浮 点 数 。 假 设 每 个 处 理 器 一 个 元 素 ， 总 共有 1 024 
x 1 024 个 元 素 ， 则 每 一 步 要 进行 多 少数 据 通 信 ? 解释 这 种 计算 如 何 映射 到 64 个 处 理 
器 上 ， 以 最 小 化 的 数据 量 进行 通信 。 比 较 每 一 步 必须 进行 的 数据 通信 量 。 

考虑 例 1.2 中 所 描述 的 简单 流水 线 部 件 。 假 设 应 用 在 该 部 件 突 发 的 m 个 独立 操作 和 延 
T ns 没有 使 用 该 部 件 的 阶段 中 进行 选择 。 开 发 一 种 描述 基于 这 些 参 数 的 程序 执行 时 
间 的 表达 式 。 对 于 了 = 100 ns, 200 ns、400 ns, 800 ns， 画 出 平均 消息 速率 和 m 的 函数 
关系 ， 讨 论 其 渐进 特性 。 

说 明 如 何 从 式 (1-3) 得 出 式 (1-4)。 

将 式 (1-3) 看 成 是 关于 n 的 一 个 函数 ， 给 出 它 在 横 坐 标 轴 上 截 距 的 含义 。 

如 果 我 们 考虑 从 内 存 装 和 人 一 个 高 速 缓存 数据 块 ， 传 输 时 间 是 在 总 线 上 传输 数据 的 实际 
时 间 。 超 始 时 间 包 括 得 到 总 线 访 问 权 的 时 间 、 传 输 地 址 的 时 间 、 访 局 内 存 和 在 应 答 处 
理 器 之 前 把 数据 放 进 高 速 缓存 中 的 时 间 。 然 而 ， 在 一 个 具有 动态 指令 调度 的 现代 的 处 
理 器 中 ， 开 销 可 能 只 包括 访问 高 速 缓存 检测 扑 空 和 把 请 求 发 送 到 总 线 上 的 部 分 。 内 存 
访问 部 分 组 成 了 时 延 ， 可 以 被 指令 的 执行 所 隐藏 ， 但 不 依靠 装 和 的 结果 。 假 设 我 们 有 
一 个 运行 在 40 MHz, A 64 位 宽 总 线 的 机 器 。 它 使 用 两 个 总 线 周 期 来 为 总 线 仲 裁 并 提 
供 地 址 。 高 速 缓存 线 的 大 小 是 32 字 节 ， 内 存 访 问 时 间 是 100 ns。 读 扑 空 的 时 延 是 多 
少 ? 这 种 传输 所 能 得 到 的 带宽 是 多 少 ? 

假设 2 字 节 的 线 被 传送 给 另 一 个 处 理 器 ， 并 且 通 信 结 构 的 启动 代价 是 2 ms， 数 据 传 
输 带 宽 是 20 MBps。 远 程 操 作 的 总 延迟 是 多 少 ? 

如 果 我 们 考虑 向 另 一 个 处 理 器 发 送 n 个 字 节 的 消息 ,我 们 可 能 使 用 和 习题 1.12 相同 
的 模型 。 起 始 阶段 可 以 被 认为 是 发 送 0 长 度 消息 的 时 间 ; 它 包括 了 两 个 处 理 器 间 的 软 
件 开 销 、 访 问 网 络 接口 的 开销 以 及 实际 穿越 网 络 的 时 间 。 传 输 时 间 通 常 被 路 径 上 具有 
最 小 带宽 的 点 所 决定 ， 也 就 是 ， 瓶 颈 。 假 设 我 们 有 一 个 启动 时 延 是 100 us 的 机 器 ， 非 
对 称 的 峰值 带宽 是 80 MBps。 达 到 峰值 带宽 的 一 半 时 ， 消 息 的 大 小 是 多 少 ? 

在 一 些 情况 下 ， 式 (1-6) 被 用 来 估计 基于 设计 参数 的 数据 传输 性 能 。 在 其 他 场合 中 ， 
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1.17 


1.18 


它 作为 把 测试 的 结果 拟 合 到 直线 上 的 实验 工具 来 决定 有 效 的 起 始 和 系统 的 峰值 带宽 。 
假设 在 传送 一 个 消息 之 前 ， 数 据 必 须 拷贝 到 一 个 缓冲 区 。 基 本 消息 时 间 如 同 习题 
1.14， 但 在 100 兆赫 机 器 上 拷贝 的 代价 是 每 32 位 的 字 要 花 5 个 周期 。 给 出 用 户 层 消息 
时 间 期 望 值 的 公式 。 将 这 种 拷贝 的 代价 和 进入 典型 操作 系统 的 固定 代价 相 比 较 。 
考虑 100 MIPS 的 机 器 ， 运 行 如 下 的 混合 工作 负载 : 50% ALU, 20% 加 载 ,，10% 存 储 和 
20% 转 移 。 假 设 指令 的 扑 空 率 是 1% ， 数 据 扑 空 率 是 5% ， 高 速 缓存 线 的 大 小 是 32 = 
节 。 为 了 计算 的 目的 ， 处 理 一 个 存储 扑 空 要 求 两 个 高 速 缓存 线 传输 ， 一 个 装 入 最 新 更 
新 的 线 ， 另 一 个 替换 脏 的 线 。 如 果 机 器 提供 250 MBps 的 总 线 ， 那 么 在 峰值 带宽 时 可 
以 容纳 多 少 处 理 器 ? 每 个 处 理 器 的 带宽 要 求 是 多 少 ? 
习题 1.16 只 考察 了 平均 带宽 之 和 。 但 是 ， 当 总 线 饱 和 的 时 候 ， 为 了 得 到 总 线 的 访问 
权 需 要 较 长 的 时 间 ， 所 以 对 处 理 器 来 说 ， 内 存 系统 比较 慢 。 效 果 是 使 得 系统 中 的 所 有 
处 理 器 都 慢 下 来 ， 因 此 减 小 了 它们 对 带宽 的 要 求 。 让 我 们 从 其 他 方面 试 一 试 类 似 的 
计算 。 

假设 指令 的 情况 和 扑 空 率 同 习 题 1.16 中 一 样 ,但 是 忽略 了 MIPS， 因 为 它 依 靠 内 
存 系统 的 性 能 。 假 设 处 理 器 在 100 MHz 运行 ， 并 且 具 有 理想 的 CPI (具有 一 个 完美 的 
存储 系统 )。 初 启 高 速 缓存 扑 空 的 代价 是 20 个 周期 。 你 可 以 忽略 存储 的 回 写 。 (作为 
初学 者 ， 你 可 能 想 计算 新 机 器 的 MIPS 运算 速度 ) 假设 存储 系统 (比如 总 线 和 存储 控 
制 器 ) 在 扑 空 时 被 利用 。 使 用 单 处 理 器 的 内 存 系统 U 的 利用 率 是 多 少 ? 从 这 个 结果 
来 看 ， 请 估计 ， 在 满足 处 理 器 要 求情 况 下 可 以 支持 的 处 理 器 数目 。 
我 们 知道 ， 不 管 在 总 线 上 放 多 少 处 理 器 ， 它 们 所 看 到 的 带宽 总 和 绝 不 会 超过 总 线 设计 
的 总 带宽 。 解 释 总 线 争 用 对 处 理 器 性 能 发 生 的 影响 ， 试 将 你 的 认识 作 形式 化 的 表述 。 
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第 2 章 并 行程 序 


为 了 理解 和 评估 在 并 行 计 算 机 系统 设计 时 的 一 些 决 定 ， 我 们 必须 对 软件 在 并 行 机 器 上 
运行 的 情况 有 所 了 解 。 基 于 对 程序 行为 的 理解 ， 我 们 取得 了 单 处理 器 系统 设计 中 一 些 最 重要 
的 进展 ， 包 括 存储 层次 结构 和 指令 集合 的 设计 。 在 多 处 理 器 的 情形 ， 这 种 理解 会 更 加 重要 。 
这 不 仅 是 由 于 设计 自由 度 增加 了 ， 从 而 要 考虑 的 因素 多 起 来 ; 还 由 于 和 单 处 理 器 相 比 ， 应 用 
程序 和 多 处 理 器 系统 结构 之 间 的 不 匹配 所 带 来 的 性 能 损失 要 大 得 多 2 。 

理解 并 行 软件 对 算法 设计 人 员 、 程 序 员 和 系统 结构 设计 人 员 都 是 重要 的 。 对 算法 设计 人 
员 来 说 ， 这 种 理解 会 帮助 他 们 设计 在 真实 并 行 计算 机 上 能 够 有 效 运行 的 算法 。 对 程序 员 来 
说 ,这 种 理解 能 使 他 们 把 握 性 能 增益 或 损失 ) 的 关键 所 在 ， 以 及 如 何 能 在 一 个 系统 上 获得 
最 好 的 性 能 。 作 为 系统 结构 人 员 ， 它 帮助 我 们 理解 机 器 所 要 承担 的 工作 负载 以 及 和 它们 相关 
的 重要 参量 。 并 行 软件 和 它 的 影响 将 在 以 下 3 章 中 讲 到 。 本 章 描述 由 主流 程序 设计 模型 编写 
并 行程 序 的 过 程 。 第 3 章 讲 述 在 这 个 过 程 中 必须 考虑 的 性 能 问题 ， 探 讨 并 行 应 用 程序 和 体系 
结构 之 间 相 互 作 用 的 若干 要 素 。 基 于 对 这 种 软 硬 件 相互 作用 的 影响 ， 第 4 章 给 出 了 用 并 行程 
序 作为 负载 来 评估 体系 结构 设计 中 诸多 折 中 考虑 的 指南 。 除 了 对 体系 结构 人 员 有 帮助 以 外 ， 
这 几 章 的 材料 对 并 行 计 算 机 的 使 用 者 也 是 有 用 的 : 第 2、3 章 对 程序 员 和 算法 设计 人 员 是 非 
常 有 用 的 ， 第 4 章 对 那些 决定 要 购买 何 种 类 型 机 器 的 人 有 很 大 帮助 。 尽 管 如 此 ， 我 们 这 里 主 
要 针对 的 还 是 体系 结构 人 员 ， 讨 论 他 们 在 从 事 机 器 的 细节 设计 之 前 应 该 理解 的 那些 问题 。 

对 串 行 计 算 机 系统 的 设计 师 来 说 * ， 通 常 认为 程序 是 一 个 给 定 的 不 变 因 素 。 这 是 因为 ， 
相关 的 领域 已 经 成 熟 ， 有 大 量 的 程序 早已 存在 ,我 们 可 以 (或 者 必须 ) 认为 它们 已 不 会 再 变 
了 。 于 是 我 们 可 以 针对 这 些 程序 的 要 求 来 优化 机 器 的 设计 。 尽 管 我 们 也 知道 程序 员 有 可 能 进 
一 步 优 化 他 们 的 代码 (例如 当 高 速 缓存 变 大 或 者 浮 点 支持 有 所 改善 时 )， 但 我 们 在 评价 新 的 
设计 时 通常 不 预测 软件 的 这 些 变化 。 编 译 器 可 能 随 着 体系 结构 一 起 进化 ， 但 总 认为 源 程序 是 
不 变 的 。 然 而 ， 在 并 行 体系 结构 方面 ， 机 器 设计 和 并 行 软件 进化 之 间 的 相互 作用 要 强 得 多 ， 
也 更 具有 动态 性 。 由 于 并 行 计 算 旨 在 追求 性 能 ， 程 序 设 计 的 要 义 就 是 要 充分 利用 机 器 所 提供 
的 手段 来 获取 性 能 。 并 行 性 为 程序 设计 提供 了 一 个 新 的 自由 度 〈 处 理 器 的 个 数 ) 并 表现 出 较 
高 的 数据 访问 和 协调 的 代价 ， 这 就 给 了 程序 员 一 个 很 宽 的 软件 优化 范围 。 即 使 作为 体系 结构 
设计 师 ， 我 们 也 需要 打开 应 用 程序 的 “ 黑 盒子 ”。 对 并 行 软件 设计 与 编写 过 程 中 重要 方面 的 
理解 〈 本 章 的 内 容 ) 会 帮助 我 们 认识 到 体系 结构 的 作用 和 局 限 。 在 下 一 章 对 性 能 问题 更 深入 
的 考察 将 更 多 地 讨论 硬件 /软件 的 权衡 。 

即使 对 应 用 问题 有 了 准确 的 理解 并 有 一 个 好 的 串 行 算 法 ， 要 得 到 一 个 相应 的 并 行程 序 以 
及 它 在 一 个 多 处 理 器 系统 上 执行 的 行为 特点 ， 仍 然 不 是 一 个 简单 的 事情 ， 通 常 是 一 个 相当 费 
力 的 过 程 。 这 一 章 给 出 了 程序 并 行 化 过 程 的 一 般 原则 ， 并 用 实际 例子 对 它们 进行 了 诠释 。 首 
先 ， 我 们 介绍 了 在 下 面 两 章 里 作为 范例 的 4 个 实际 问题 。 然 后 借助 于 这 些 例子 ， 描 述 了 开发 





〇 O” 即 通常 所 说 的 峰值 性 能 和 实际 测 得 性 能 之 间 的 差距 ， 在 多 处 理 器 系统 中 要 比 单 处 理 器 系统 大 得 多 。 一 一 译 者 注 
O ”要 和 面 对 许多 相互 影响 的 因素 ， 例 如 硬件 条 件 、 操 作 系 统 、 编 译 技术 、 应 用 程序 的 写法 等 。 一 译 者 注 
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并 行程 序 的 4 个 步骤 ， 随后 是 用 例子 说 明 如 何 用 当前 的 主流 程序 设计 模型 来 编写 简单 的 并 行 
程序 。 如 第 1 章 所 讨论 的 ， 从 程序 设计 的 观点 来 看 ， 具 有 统治 地 位 的 程序 设计 模型 只 剩 下 了 
三 个 : 数据 并 行 模型 、 共 享 地 址 空间 或 共享 存储 模型 、 在 私有 地 址 空间 之 间 的 消息 通信 模 
型 。 本 章 阐述 了 由 这 些 模型 提供 的 基本 操作 及 其 用 法 。 这 些 讨论 都 还 没有 太 涉 及 到 对 性 能 的 
考虑 。 通 过 理解 了 第 3 章 所 讨论 的 在 程序 并 行 化 过 程 中 的 性 能 问题 ， 我 们 将 回 过 头 来 更 详细 
地 研究 这 4 个 应 用 案例 ， 从 而 得 到 高 性 能 的 程序 版 本 。 


2.1 并 行 应 用 的 案例 分 析 


在 前 一 章 里 ， 我 们 看 到 多 处 理 器 的 应 用 范围 很 宽 ， 从 多 道 程 序 设计 到 商业 计算 、 到 所 谓 
重大 挑战 的 科学 问题 ， 其 中 要 求 最 高 的 是 那些 来 自 科学 和 工程 计算 中 的 应 用 。 在 下 面 我 们 要 
研究 的 4 个 案例 中 ， 有 两 个 源 于 科学 计算 ， 一 个 来 自 于 计算 机 图 形 学 ， 另 一 个 属于 商业 计 
算 。 除 了 来 自 不 同 应 用 领域 外 ， 这 些 案例 的 选择 还 展示 了 许多 在 其 他 并 行程 序 中 也 能 观察 到 
的 重要 行为 特征 。 

第 一 个 例子 模拟 洋流 的 运动 ， 其 做 法 是 将 这 个 问题 离散 化 为 规则 的 网 格 ， 然 后 求解 在 这 
个 网 格 上 的 一 组 方程 。 这 种 技术 在 科学 计算 中 是 很 常见 的 ， 所 导致 的 是 一 组 非常 规则 的 通信 
模式 。 第 二 个 例子 研究 代表 科学 计算 的 另 一 种 重要 形式 。 在 这 种 形式 中 ， 计 算 的 数据 域 表 现 为 
大 量 的 、 相 互 有 影响 的 实体 ， 离 散 分 布 在 三 维 空间 中 ， 而 且 它 们 还 由 于 这 种 相互 作用 而 运动 。 
这 种 称 为 六 体 问题 的 例子 在 许多 领域 也 是 常见 的 ， 例 如 星体 物理 学 中 模拟 银河 系 ， 化 学 和 生 
物 学 中 对 蛋白 质 和 其 他 分 子 的 模拟 以 及 对 电磁 相互 作用 的 模拟 等 。 对 于 解决 这 样 的 问题 ， 层 次 
式 算法 是 很 受 欢迎 的 。 而 层次 式 算法 在 许多 其 他 领域 也 有 很 好 的 应 用 。 例 如 我 们 这 里 的 层次 式 
人 体 算法 ， 也 可 以 用 来 解决 计算 机 图 形 学 中 的 重要 问题 以 及 某 些 有 特殊 难点 的 方程 组 类 型 。 与 
第 一 个 例子 不 同 的 是 ， 这 个 例子 所 对 应 的 是 非 规 则 、 大 范围 和 不 可 预测 的 通信 模式 。 

第 三 个 例子 来 自 计算 机 图 形 学 ， 是 中 等 规模 多 处 理 器 中 一 个 很 重要 的 应 用 。 它 以 一 个 高 
度 非 规则 且 不 可 预知 的 访问 模式 遍历 一 个 三 维 空间 的 场景 ， 并 且 将 它 显示 成 一 个 二 维 图 像 。 
上 述 这 三 个 案例 是 一 个 标准 测试 程序 集 的 一 部 分 (Singh，Weber，and Gupta 1992)， 在 文献 资 
料 中 被 广泛 用 于 对 体系 结构 的 评价 ， 因 此 有 许多 关于 它们 的 详细 资料 。 在 本 书 中 ， 它 们 也 将 
被 用 来 解释 在 体系 结构 设计 中 所 作 的 种 种 权衡 。 

最 后 一 个 例子 代表 一 类 日 益 重 要 的 商业 应 用 ， 即 对 我 们 信息 社会 中 产生 的 海量 数据 进行 
分 析 ， 以 发 现 有 用 的 知识 、 类 别 和 趋势 。 这 些 信息 处 理应 用 是 V 密集 型 的 ， 对 它们 的 分 析 
使 我 们 能 感到 计算 中 IO 活动 并 行 化 的 重要 性 。 


2.1.1 洋流 的 模拟 


为 了 建立 地 球 气候 的 模型 ， 理 解 大 气 和 占 地 球 表面 四 分 之 三 的 大 洋 的 相互 作用 是 很 重要 
的 。 这 个 例子 模拟 大 洋 中 水 流 的 运动 。 这 些 洋流 在 若干 物理 力量 的 影响 下 发 生 和 发 展 ， 这 些 
物理 的 力量 包括 大 气 效果 、 风 以 及 和 大 洋 底 的 摩擦 力 。 在 洋 壁 附近 ， 还 有 附加 的 “垂直 ” 麻 
控 力 ， 它 导致 旋涡 流 的 产生 。 这 个 应 用 例子 的 目的 是 要 模拟 这 些 洲 涡流 在 一 段 时 间 里 的 行 
为 ， 理 解 它们 和 普通 洋流 的 相互 作用 。 

为 洋流 行为 建立 有 效 的 模型 是 很 复杂 的 ， 预 报 大 洋 在 任何 时 刻 的 状态 需要 求解 复杂 的 方程 
组 ， 这 只 能 由 计算 机 来 做 。 除 此 以 外 ， 我 们 还 对 这 种 洋流 随时 间 的 变化 行为 感 兴趣 。 实 际 的 物 
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理 问题 在 空间 9 和 时 间 上 都 是 连续 的 ， 但 为 了 能 用 计算 机 来 模拟 ， 我 们 在 这 两 个 方面 都 要 做 离 
散 化 。 在 空间 上 ， 通 常用 一 个 三 维 网 格 来 作为 海盆 的 模型 。 每 个 重要 的 变量 ， 例 如 压力 、 速 度 
和 各 种 流 ， 在 网 格 的 每 一 个 点 上 都 有 一 个 值 。 不 过 在 我 们 这 里 讨论 的 程序 中 没有 用 三 维 网 格 ， 
而 是 用 一 组 二 维 网 格 代 之 ， 其 中 每 个 二 维 网 格 对 应 于 海盆 在 水 平方 向 的 一 个 截面 ( 见 图 2-1)。 
为 简单 起 见 ， 大 洋 被 看 成 是 一 个 长 方形 盆 体 ， 假 定格 点 均匀 分 布 。 每 一 个 变量 因此 也 就 由 一 
二 维 数组 来 表示 ， 对 应 大 洋 的 一 个 横 截面 。 在 时 间 上 ， 我 们 将 时 间 离 散 化 为 一 个 由 有 限 个 时 间 
步 构成 的 序列 。 在 同一 时 间 步 中 ， 运 动 方程 在 所 有 格 点 上 求解 ， 变 量 的 状态 得 到 更 新 ; 然后 运 
动 方程 再 针对 下 一 时 间 步 求解 ， 如 此 重复 。 
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a) 横 截 面 b) 横 截 面 的 空间 离散 化 
图 2-1 通过 海盆 的 水 平 横 截 面 和 将 它们 形成 规则 网 格 的 空间 离散 化 


每 个 时 间 步 本 身 由 若干 计算 阶段 构成 。 其 中 一 些 用 前 一 时 间 步 得 到 的 结果 ， 在 所 有 网 格 
点 建立 不 同 变量 的 值 。 在 另外 一 些 阶段 ， 完 成 该 时 间 步 内 方程 组 的 求解 。 在 所 有 这 些 阶 
段 ， 包 括 方程 组 求解 器 ， 都 涉及 到 遍历 相关 数组 所 有 的 点 ， 对 它们 的 值 进行 处 理 。 其 中 求解 
器 阶段 稍微 复杂 一 些 ， 我 们 在 第 3 章 将 进一步 详细 讨论 。 

在 表达 一 个 固定 大 小 的 大 洋 区 域 时 ， 在 某 一 维 上 我 们 用 的 网 格 点 越 多 ， 我 们 所 做 的 离散 
化 的 空间 分 辨 率 就 越 精细 ， 模 拟 也 就 越 精确 。 对 大 西洋 来 说 ， 大 约 2 000 kmx 2 000 km, H 
100 x 100 点 的 网 格 意味 着 两 点 之 间 的 距离 为 20 km。 这 个 分 辩 率 并 不 很 高 ， 因 此 若 希望 得 到 
较 高 的 模拟 精度 ， 应 该 用 更 多 的 网 格 点 。 类 似 地 ， 较 短 的 时 间 步 间隔 也 导致 较 高 的 模拟 精 
度 。 例 如 ， 要 模拟 大 洋 5 年 的 运动 ， 每 8 个 小 时 更 新 一 次 状态 ， 我 们 大 约 需 要 5 500 个 时 间 
步 。 对 高 精度 的 追求 会 导致 很 大 的 计算 量 ， 因 此 对 并 行 处 理 的 需求 是 明显 的 。 

幸运 的 是 ， 许 多 应 用 问题 很 自然 地 表现 出 大 量 的 并 发 性 : 在 一 个 时 间 步 中 ， 在 网 格 点 上 
建立 变量 初 值 的 许多 计算 是 相互 独立 的 ， 因 此 可 以 并 行进 行 ， 在 一 个 阶段 中 处 理 不 同 的 网 格 
点 或 网 格 计算 本 身 也 可 以 并 行 地 来 做 。 例如， 我 们 可 以 将 大 洋 一 个 模 截面 分 成 若干 不 同 的 部 
分 ， 让 每 个 处 理 器 负责 其 中 一 部 分 ， 完 成 其 中 网 格 点 的 有 关 计 算 (一 种 数据 并 行 的 做 法 )。 


2.1.2 星系 演化 的 模拟 
第 二 个 例子 也 是 来 自 科学 计算 。 它 寻求 理解 银河 系 里 星球 随时 间 的 演化 过 程 。 例 如 ， 我 


O 海盆 一 一 海洋 底部 形成 的 中 形体 。 一 一 译 者 
O ”例如 按照 物理 学 规律 ， Ene n Le TRE SE 一 定 关系 。 一 一 译 者 注 
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们 要 研究 当 银 河 系 碰 擅 时 会 发 生 什么 ， 或 者 一 个 随机 的 星球 集合 是 怎么 变 成 了 一 个 确定 的 银 
河 形体 的 。 这 个 问题 涉及 到 模拟 许多 星体 (这 里 是 星体 在 万 有 引力 下 的 运动 ， 这 就 是 所 谓 
rx 体 问 题 。 这 个 计算 在 空间 是 离散 的 ， 我 们 可 以 将 每 个 星体 看 成 是 一 个 单独 的 体 ， 或 者 通过 
抽样 法 用 一 个 体 来 代表 许多 星球 。 这 里 我 们 同样 将 计算 的 时 间 离 散 化 ， 在 时 间 步 序列 上 模拟 
星系 的 运动 。 在 每 一 个 时 间 步 ， 我 们 计算 由 所 有 其 他 星球 共同 施加 在 每 个 星体 上 的 万 有 引 
力 ， 更 新 其 位 置 、 速 度 以 及 星体 的 其 他 属性 。 

计算 星球 间 的 力 是 一 个 时 间 步 中 最 耗 时 的 部 分 。 计 算 力 的 一 个 简单 方法 是 计算 每 对 星体 
之 间 的 相互 作用 。 对 n 个 星球 来 说 ， 这 具有 O(n’) 计算 复杂 性 ， 因 此 对 我 们 要 模拟 上 百 万 
个 星体 是 不 现实 的 。 然 而 ， 利 用 对 力学 定律 的 认识 ， 人 们 发 明 的 层次 型 算法 能 够 将 计算 复杂 
性 减少 到 O(nlogn)。 这 就 使 得 在 合理 的 时 间 里 模拟 有 上 百 万 个 星体 的 问题 变 得 可 行 ， 但 这 
也 只 有 用 强大 的 多 处 理 机 才 可 能 做 到 。 层 次 型 算法 的 基本 思路 是 : 由 于 万 有 引力 的 强度 


6 一 卫 随 距离 减弱 ， 于 是 较 远 星 球 的 影响 较 弱 ， 因 此 不 需要 计算 得 像 那些 近 的 星球 那么 精 


确 。 这 样 ， 如 果 一 组 星球 对 一 个 给 定 的 星球 足够 远 ， 我 们 就 可 以 考虑 用 在 其 中 心 的 一 个 “等 
价 ” 星 体 ， 来 近似 计算 这 一 组 星球 对 给 定 星球 的 效果 。 当 然 ， 这 会 稍微 损失 些 精度 ( 见 
图 2-2)。 进 一 步 来 看 ， 如 果 和 给 定 星球 的 距离 越 远 ， 用 一 个 等 价 星球 来 近似 的 星球 组 就 可 
以 越 大 。 事 实 上 ， 由 于 许多 物理 相互 作用 的 强度 都 随 距 离 而 减弱 ， 这 种 思想 所 导致 的 层次 型 
算法 在 计算 的 许多 领域 变 得 越 来 越 流行 了 。 
计算 这 个 星体 
上 的 受 力 








`s 足够 远 的 一 组 星体 
星体 太 近 ， 9 | Seat ee 


图 2-2 针对 rr 体 问题 的 层次 型 计算 方法 所 带 来 的 认识 。 对 一 个 给 定 的 星体 组 来 说 ， 一 组 足够 远 
的 星体 组 可 以 近似 地 被 该 组 的 质心 来 代替 。 距 离 越 远 ， 被 近似 处 理 的 星体 组 就 可 以 越 大 


在 本 书 中 ， 按 这 种 思想 计算 受 力作 用 的 算法 是 Bames-Hut 算法 (这 个 案例 分 析 在 文献 中 
称 为 Bames-Hut， 因 此 我 们 也 用 这 个 名 字 )。 在 3.5.2 节 里 ， 我 们 将 看 到 算法 是 如 何 工 作 的 。 
由 于 星系 在 某 些 区 域 稠密 ， 在 另外 一 些 区 域 稀疏 ， 星 体 在 空间 的 分 布 是 高 度 非 规则 的 。 这 种 
” 分布 也 随 星系 的 演化 而 改变 。 这 种 层次 型 思路 的 精 押 是 ;和 星球 稀 朴 的 区 域 相 比 ， 在 稠密 区 
域 的 星球 相互 作用 (以 及 和 其 质量 中 心 的 作用 ) 较 多 ， 因 此 计算 量 较 大 。 在 一 个 时 间 步 里 ， 
涉及 各 个 星球 的 计算 存在 有 大 量 的 并 发 性 。 但 它们 的 非 规则 和 动态 变化 的 特性 ， 使 得 在 一 个 
并 行 体系 结构 上 高 效 地 开发 出 其 中 的 并 发 性 成 为 一 个 挑战 。 


2.1.3 用 光线 跟踪 法 来 实现 复杂 场景 的 可 视 化 


第 三 个 例子 研究 的 是 计算 机 图 形 学 中 复杂 场景 的 可 视 化 。 一 个 用 来 将 这 样 的 场景 呈现 为 
图 像 的 常见 技术 称 为 光线 跟踪 法 。 场 景 被 表示 为 三 维 空间 中 的 一 组 物体 ， 被 显示 的 图 像 表 示 。” [5791] 
为 一 个 二 维 像素 阵列 ， 其 颜色 、 透 明度 、 亮 度 值 是 更 被 计算 的 。 所 有 像素 一 起 表示 这 幅 图 ， 
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图 像 的 分 辩 率 由 在 每 一 维 上 像素 之 间 的 距离 决定 。 场 景 表现 为 从 一 个 特定 的 视点 或 眼睛 的 位 
置 看 到 的 情景 。 光 线 从 视点 发 出 ， 通 过 图 像 平 面 的 每 一 个 像素 进入 场景 。 算 法 跟踪 这 些 光 线 
的 路 径 ， 计 算 当 它们 碰 上 物体 并 从 物体 反射 回来 时 它们 的 反射 、 折 射 以 及 和 光照 的 相互 作 
用 ， 从 而 计算 对 应 像素 的 颜色 和 亮度 值 。 通 过 不 同 像素 的 光线 是 不 同 的 ， 因 此 它们 之 间 有 明 
显 的 并 行 性 。 这 个 案例 称 为 光线 跟踪 ( Raytrace) 。 


2.1.4 针对 关联 性 的 数据 挖掘 


信息 处 理 正 迅速 成 为 并 行 系统 的 一 个 主要 市 场 。 企 业 有 许多 关于 顾客 和 产品 的 数据 ， 要 
通过 计算 从 它们 中 自动 抽取 有 用 的 信息 或 “知识 ”。 有 关 顾 客 数据 库 的 一 个 例子 可 能 包括 决 
定 不 同人 群 的 购买 模式 或 者 按照 购买 模式 将 顾客 区 分 开 来 。 这 个 过 程 称 为 数据 挖掘 (data 
mining)。 它 和 标准 数据 库 查 询 的 不 同 之 处 在 于 其 目的 是 要 识别 数据 中 隐 含 的 趋势 和 模式 ， 
而 不 是 通过 直接 的 、 显 式 查 询 命令 简单 地 查找 数据 。 例 如 ， 找 到 所 有 上 周 买 了 猫 食 的 顾客 不 
是 数据 挖 握 ; 但 是 将 顾客 按照 一 定 的 关系 分 出 层次 来 就 是 数据 控 握 ， 这 里 的 关系 可 能 是 年 龄 
段 、 月 收入 以 及 在 猫 食 、 汽 车 和 厨房 用 具 方 面 的 偏好 等 。 

数据 挖掘 的 一 种 形式 是 关联 挖掘 。 这 里 ， 目 标 是 要 发 现在 已 有 信息 中 的 相关 性 〈 比 如 在 
不 同 的 顾客 和 他 们 的 交易 之 间 ) 来 产生 推导 顾客 行为 的 规则 。 例 如 ， 对 每 一 笔 交易 来 说 ， 数 
据 库 可 能 存 有 该 交易 的 购买 物品 清单 。 挖 据 的 目标 可 能 是 要 决定 经 常 同时 购买 物品 集合 之 间 
的 关联 性 。 例 如 ， 设 S 和 5, 是 经 常 出 现在 顾客 交易 中 的 物品 集合 ， 给 定 在 一 个 交易 中 出 现 
T 3$， 求 该 交易 中 S, 被 发 现 的 条 件 概 率 P (S11/5,)。 如 果 这 个 概率 高 ， 那 么 在 其 购买 的 交 
DPA 5, 的 顾客 很 可 能 是 S, 中 物品 的 广告 对 象 。 

更 具体 一 些 考虑 这 个 问题 。 我 们 有 一 个 数据 库 ， 记 录 有 顾客 的 购买 交易 。 每 笔 交 易 有 一 
个 标识 和 一 组 属性 ， 这 里 就 是 所 购买 的 物品 。 关 联 挖掘 的 第 一 个 上 县 的 是 要 考察 这 个 数据 库 ， 
来 确定 含有 某 k 种 物品 的 交易 数 ， 是 否 超过 数据 库 中 总 交易 数 的 某 个 百分比 〈 出 现 频 度 )。 
在 同一 个 交易 中 一 起 出 现 的 若 于 物品 〈 一 定 个 数 ) 称 为 一 个 物品 集 (itemset)， 出 现 频 度 超 
过 给 定 阔 值 的 物品 集 称 为 高 频 物 品 集 (large itemset)。 一 旦 找到 含有 个 元 素 的 高 频 物 品 集 ， 
以 及 它们 在 数据 库 中 出 现 的 频率 ,决定 它们 之 疗 的 关联 规则 是 相当 容易 的 。 因 此 我 们 考虑 的 
问题 就 集中 在 发 现 含有 上 个 元 素 的 高 频 物 品 集 和 它们 的 频率 上 。 数 据 库 可 能 放 在 主 存 中 ， 
但 更 经 常 是 在 磁盘 上 。 

解决 这 个 问题 的 一 个 简单 方法 是 首先 决定 含有 1 个 元 素 的 高 频 物 品 集 。 从 它们 开始 ， 若 
干 含有 两 个 元 素 的 候选 物品 集 就 能 形成 〈 我 们 注意 到 一 个 物品 集 能 被 称 为 高 频 的 ， 仅 当 其 所 
有 子 集 都 是 高 频 的 ) ， 然 后 就 可 以 统计 它们 在 交易 数据 库 中 的 出 现 频率 。 这 就 得 到 所 有 含有 
两 个 元 素 的 高 频 物品 集 。 重 复 这 个 过 程 ， 我 们 就 能 得 到 大 高 频 物 品 集 。 这 里 的 并 发 性 存在 
于 考察 (k-1) -高 频 物品 集 以 决定 所 候选 集 的 计算 中 ， 还 存在 于 对 每 个 候选 物品 集 在 交易 
数据 库 中 出 现 次 数 的 统计 中 。 


2.2 并 行 化 过 程 


这 4 个 例子 (洋流 模拟 、Barnes-Hut、 光 线 跟踪 和 数据 挖掘 ) 含有 大 量 的 并 发 性 。 借 助 
于 它们 ,我们 在 本 章 和 下 一 章 里 讨论 创建 有 效 的 并 行程 序 的 过 程 。 具 体 来 讲 ， 我 们 将 假设 串 
行 算法 是 给 定 的 ， 而 且 也 许 已 描述 成 了 一 个 串 行程 序 ， 我 们 要 将 其 并 行 化 。 在 许多 情况 下 
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(如 同 在 这 些 例 子 里 )， 对 一 个 问题 的 最 好 串 行 算法 本 身 是 容易 并 行 化 的 ; 在 其 他 一 些 情形 ， 
串 行 算法 不 一 定 表现 出 足够 的 并 行 性 ， 也 许 需 要 一 个 完全 不 同 的 算法 。 并 行 算 法 设计 本 身 是 
一 个 丰富 的 领域 ， 已 经 超出 了 本 书 的 范围 。 然 而 ， 无 论 选 什么 串 行 算法 作为 基础 ， 创 建 一 个 
好 的 并 行 算法 都 是 一 个 不 容易 的 过 程 ， 我 们 必须 理解 这 个 过 程 ， 才 能 够 编 好 并 行 计算 机 的 程 
序 ， 才 能 够 以 并 行程 序 为 基础 对 体系 结构 进行 评估 。 

在 高 层 ， 并 行 化 的 工作 涉及 识别 那些 可 以 用 并 行 方式 来 做 的 工作 ， 确 定 如 何在 处 理 节点 
上 分 配 这 些 工作 (也许 还 有 数据 )， 管理 必 要 的 数据 访问 ， 通 信和 和 同步 。 注 意 ， 这 里 的 “ 工 
作 ” 包 括 计算 、 数 据 访问 和 输入 /输出 活动 。 我 们 的 目标 是 获取 高 性 能 ， 同 时 保持 程序 设计 
的 开销 和 程序 对 资源 的 需求 尽量 低 。 特 别 地 ， 我 们 希望 相对 于 最 好 的 串 行程 序 得 到 好 的 加 速 
比 。 这 就 要 求 我 们 在 处 理 器 之 间 保 证 一 个 平衡 的 负载 分 布 ， 减 少 进程 间 耗 时 的 通信 ， 保 持 低 
的 开销 ， 包 括 通信 、 同 步 、 并 行 性 管理 等 。 

创建 一 个 并 行程 序 的 步 又 可 能 是 由 程序 员 来 完成 ， 也 可 能 由 某 一 层 系统 软件 在 程序 员 和 
体系 结构 之 闻 来 完成 。 这 里 的 层次 包括 编译 、 运 行 系统 和 操作 系统 。 在 理想 的 情形 下 ， 系 统 
软件 应 该 允许 用 户 用 他 们 觉得 最 方便 的 方式 写 程序 (例如 用 某 种 高 级 语言 编写 的 串 行 程序 或 
者 某 种 更 高 层次 的 问题 描述 ) ， 然 后 自动 将 这 些 程序 转换 为 高 效 的 并 行程 序 来 执行 。 尽 管 在 
并 行 化 编译 和 程序 设计 语言 方面 已 有 许多 研究 成 果 ， 但 最 初 设想 很 好 的 自动 并 行 化 目标 目前 
尚未 达到 。 在 今天 的 实践 中 ， 这 个 过 程 的 主要 责任 还 在 程序 员 身 上 ， 尽 管 编译 和 运行 系统 可 
能 会 提供 一 些 帮 助 。 不 管 这 些 责任 是 如 何在 这 些 并 行 化 实体 间 划 分 的 ， 所 涉及 的 问题 和 权衡 
都 类 似 ， 因 此 我 们 理解 它们 就 变 得 很 重要 了 。 从 下 面 的 具体 讨论 来 说 ,我们 在 大 多 数 情况 下 
将 假定 所 有 的 决策 都 是 要 由 程序 员 做 出 的 。 

现在 让 我 们 以 一 种 更 加 结构 化 的 方式 考察 并 行 化 过 程 ， 看 一 看 这 其 中 有 些 什 么 实际 的 步 
又 。 每 一 步 将 与 获得 高 性 能 所 需 考虑 的 若干 问题 有 关 。 这 些 性 能 要 素 在 第 3 章 会 详细 讨论 ， 
这 里 只 是 简单 提 及 。 


2.2.1 程序 并 行 化 过 程 中 的 几 个 步骤 


为 理解 创建 一 个 并 行程 序 中 的 步骤 ， 让 我 们 首先 定义 三 个 重要 的 概念 : 任务 、 进 程 和 处 理 
器 。 任 务 是 程序 要 完成 的 一 个 工作 ， 其 内 容 和 大 小 是 随意 的 ， 它 是 并 行程 序 所 能 处 理 的 并 发 性 
最 小 的 单元 ; 即 一 个 任务 只 能 由 一 个 处 理 器 执行 ， 处 理 器 之 间 的 并 发 性 只 能 在 任务 之 间 开 发 。 
在 大 洋 例子 中 ， 我 们 可 以 将 每 个 计算 阶段 的 一 个 格 点 看 成 是 一 个 任务 ， 也 可 以 将 一 行 格 点 或 者 
网 格 的 某 个 子 集 看 成 是 一 个 任务 。 我 们 还 可 以 认为 整个 网 格 计算 是 一 个 任务 。 在 Bames-Hut 例 
子 中 ， 任 务 可 能 是 和 一 个 星体 相关 的 计算 ; 在 光线 跟踪 例子 中 ， 任 务 可 能 是 一 束 光 或 一 组 光 的 
跟踪 计算 ; 在 数据 挖掘 中 ， 则 可 能 是 检测 某 个 物品 集 在 一 笔 交易 中 的 出 现 情况 。 到 底 是 什么 构 
成 一 个 任务 ， 在 基本 串 行程 序 中 是 不 说 明 的 ; 它 是 并 行 化 工具 /人 的 选择 ， 尽 管 它 通 常会 和 串 
行程 序 结 构 中 某 些 自然 的 工作 粒度 匹配 〈 例 如 ， 循 环 的 一 次 欠 代 )。 如 果 一 个 任务 所 涉及 的 工 
作 量 小 ， 则 称 它 为 细 粒 度 (fine-grained) 任务 ; 否则 称 为 粗 粒度 (coarse-grained) 任务 。 

进程 (这 里 我 们 也 称 为 线程 ) 是 一 个 完成 任务 的 抽象 实体 9 。 一 个 并 行程 序 由 许多 合作 





O 在 第 1 章 ， 我 们 用 的 是 符合 操作 系统 的 关于 进程 的 定义 : 一 个 地 址 空间 和 一 个 或 多 个 控制 线程 共享 该 地 址 空间 。 
ne. 站 失利 经 各 是 有 区 别 的 * 为 简化 本 章 关于 并 行程 序 设 计 的 讨论 ， 我 们 不 做 这 样 的 区 别 ， 但 假设 一 个 进程 
A Z 程 。 


60 HAH EMAAR 





的 进程 构成 ， 每 个 进程 完成 程序 中 任务 的 一 个 子 集 。 通 过 某 种 分 配 机 制 ， 任 务 被 分 配给 进 
程 。 俩 如 ， 如 果 将 洋流 网 格 中 一 行 格 点 的 计算 看 成 是 一 个 任务 ， 那 么 一 种 简单 的 分 配方 法 可 
以 是 让 每 个 进程 负责 同等 数量 相 邻 的 若干 行 ， 因 此 将 大 洋 的 一 个 截面 划分 成 和 进程 一 样 多 的 
水 平 片段 。 在 数据 控 掘 中， 分配 可 能 有 不 同 的 考虑 ， 一 种 可 能 是 将 数据 库 的 不 同 部 分 分 给 不 
同 的 进程 ; 另 一 种 可 能 是 将 候选 物品 集合 分 给 进程 来 查询 数据 库 。 进 程 可 能 需要 相互 通信 和 
同步 来 完成 它们 所 分 配 的 任务 。 最 后 ， 进 程 完成 其 任务 的 方式 是 通过 在 机 器 的 物理 处 理 器 上 
执行 。 

从 并 行 化 的 观点 ， 理 解 进程 和 处 理 器 的 区 别 是 很 重要 的 。 处 理 器 是 物理 资源 ， 进 程 是 将 
多 处 理 器 抽象 〈 或 者 说 虚拟 化 ) 的 一 种 方便 的 形式 : 我 们 通过 进程 ， 而 不 是 物理 处 理 器 来 写 
并 行程 序 ; 然后 是 将 进程 映射 到 处 理 器 。 在 一 次 程序 的 执行 中 ， 进 程 数 不 一 定 要 等 于 处 理 器 
数 。 如 果 进 程 多 ， 一 个 处 理 器 有 可 能 要 执行 多 个 进程 ; 如果 进 程 少 ， 某 些 处 理 器 则 要 闲置 。 

有 了 这 些 概念 ， 从 一 个 串 行程 序 得 到 一 个 并 行程 序 的 工作 由 4 个 步骤 构成 ， 如 图 2-3 所 示 。 

1) 将 计算 分 解 成 任务 。 

2) 将 任务 分 配给 进程 。 

3) 在 进程 之 间 协 调 必要 的 数据 访问 、 通 信和 同步 。 

4) 将 进程 映射 或 绑 定 到 处 理 器 。 

of 
并 行程 序 处 理 器 





串 行 计算 


图 2-3 ”并行 化 步骤 以 及 任务 、 进 程 和 处 理 器 之 间 的 关系 。 分 解 和 分 配 阶段 统称 为 划分 。 整 合 阶 
段 协调 进程 之 间 (P) 数据 的 访问 、 通 信和 同步 ， 映 射 阶段 将 它们 映射 到 物理 处 理 器 (P) 

为 方便 起 见 ， 由 于 分 解 和 分 配 把 合作 进程 中 的 程序 所 做 的 工作 进行 了 分 割 ， 它 们 一 起 被 
称 为 划分 。 下 面 让 我 们 进一步 考察 这 些 步 骤 和 相应 的 目标 。 

1， 问 题 的 分 解 

分 解 指 的 是 将 计算 分 为 一 组 任务 的 集合 。 一 般 来 说 ， 任 务 可 能 是 在 程序 的 执行 过 程 中 动 
态 形成 的 ， 在 一 个 时 间 里 的 任务 数 可 能 随 程序 的 执行 变化 。 在 一 个 时 间 上 最 大 的 任务 数 给 出 
了 能 发 挥 作用 进程 数 (因此 也 就 是 处 理 器 数 ) 的 上 限 。 因 此 ， 分 解 的 主要 目标 就 是 要 揭示 足 
够 的 并 行 性 ， 从 而 尽量 保持 所 有 的 进程 在 所 有 时 间 都 已 ; 同时 要 注意 由 此 引起 的 任务 管理 开 
销 不 能 太 大 〈 相 对 于 所 做 的 有 用 工作 而 言 )。 

有 限 的 并 发 性 是 通过 并 行 处 理 获得 加 速 比 的 最 基本 限制 。 它 不 仅 关系 到 待 求解 问题 本 身 
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有 多 少 可 用 的 并 发 性 ， 还 与 在 分 解 中 多 少 并 发 性 被 揭示 出 来 有 关 。 可 用 并 发 性 对 并 行 处 理 效 
能 的 影响 由 Amdahl 定律 刻画 ， 这 是 并 行 计算 里 不 多 的 “定律 ”之 一 。 如 果 一 个 程序 执行 的 
某 些 部 分 没有 可 用 处 理 器 数 那 么 多 的 并 发 性 ， 某 些 处 理 器 将 在 那些 部 分 闲置 ， 加 速 比 就 会 受 
到 影响 。 从 一 种 最 简单 的 形式 来 看 这 个 问题 ， 考 虑 如 果 程 序 在 单 处 理 器 上 执行 时 间 的 某 一 部 
分 s 在 本 质 上 是 串 行 的 ， 即 这 一 部 分 不 可 能 并 行 。 即 使 程序 的 其 余部 分 能 够 得 到 充分 的 并 
行 ， 在 足够 多 的 处 理 器 上 运行 以 至 于 执行 时 间 可 以 忽略 不 计 ， 但 这 一 部 分 的 串 行 时 间 依 然 保 [4 
持 。 如 果 将 串 行 执行 时 间 规格 化 为 1， 则 并 行程 序 的 总 执行 时 间 将 至 少 为 *， 即 加 速 比 不 会 
超过 V/s, BURN, Æ * =0.2 ( 即 程序 执行 的 20% 为 串 行 )， 则 无 论 用 多 少 处 理 器 ， 即 使 我 们 忽 
略 所 有 其 他 开销 ， 最 大 加 速 比 也 不 能 超过 1/0.2 或 5。 例 2.1 给 出 了 一 个 简单 ， 但 很 实际 的 
例子 。 

例 2.1 考虑 某 个 含有 两 个 阶段 的 程序 。 在 第 一 阶段 ， 一 个 操作 独立 地 执行 在 一 个 n x 
n 网 格 所 有 的 点 上 ， 如 同 大 洋 的 情形 。 在 第 二 阶段 ， 对 n 个 网 格 点 的 值 求 和 。 如 果 我 们 有 
p 个 处 理 器 ， 我 们 给 每 个 处 理 器 分 配 n/p 个 点 ， 在 第 一 阶段 用 n/p 时 间 完 成 并 行 计算 。 在 
第 二 阶段 ， 每 个 处 理 器 可 以 将 它 的 nip 个 值 加 到 全 局 和 变量 上 。 这 种 分 配 有 什么 问题 ? 我 
们 怎么 能 够 揭示 出 更 多 的 并 发 性 ? (暂时 忽略 数据 访问 和 通信 的 开销 ) 

解答 : 为 避免 两 个 处 理 器 同时 修改 全 局 和 变量 ( 见 2.3.5 节 的 互 斥 问题 )， 全 局 和 的 累 
加 过 程 就 成 了 一 个 囊 行 过 程 。 这 样 ， 第 二 阶段 实际 上 是 串 行 的, 不管 pin, WE n 时 
间 。 于 是 总 时 间 为 m2?/p + n? ， 而 串 行 时 间 为 2n*， 因 此 加 速 比 最 多 是 


EE p 多 么 大 ， 加 速 最 多 是 2。 

通过 一 个 小 小 的 技巧 ,我 们 可 以 揭示 出 更 多 的 并 发 人 性。 针对 把 每 个 值 直接 加 到 全 局 和 上 
导致 的 串 行 化 问题 ， 考 虑 将 计算 过 程 的 第 二 阶段 ( 即 求全 局 和 ) 分 成 两 个 阶段 。 在 重 分 后 的 
第 二 阶段 里 ， 每 个 进程 先 独立 地 将 它 自 己 计算 出 来 的 值 求 和 ， 形 成 一 个 局 部 和 。 然 后 ， 在 第 
三 阶段 ， 进 程 将 它们 的 局 部 和 加 到 全 局 和 上 。 重 分 后 的 第 二 阶段 现在 是 全 并 行 的 ; 第 三 阶段 
如 前 一 样 是 串 行 的 ， 但 只 有 p 个 操作 ,而 不 是 =。 于 是 并 行 时 间 为 m/p + m/p + p ， 加 速 比 
的 上 界 变 为 忆 x2n2/ (2r +p?) WE nn 相对 于 p 较 大 ， 这 个 加 速 比 的 极限 几乎 就 是 和 进程 
Kp 成 线性 关系 。 图 2-4 指 出 了 这 种 并 发 性 的 改进 和 影响 。 国 

更 一 般 地 ， 给 定 一 个 划分 和 问题 规模 ， 我 们 可 以 为 其 构造 一 个 并 发 性 态 ( concurrency 
profile) 曲线 ， 它 描绘 了 在 应 用 问题 中 的 给 定 的 时 间 有 多 少 可 以 并 发 执行 的 操作 (或 任务 )。 
并 发 性 态 是 问题 、 划 分 以 及 问题 规模 的 函数 。 然 而 ， 它 是 独立 于 处 理 器 数 的 ， 就 好 像 假 定 处 
- 理 器 数 无 限 的 情形 。 它 也 独立 于 分 配 或 协调 。 应 用 问题 的 并 发 性 态 有 时 可 能 很 容易 通过 分 析 
方法 得 到 〈 如 例 2.1 以 及 我 们 将 要 看 到 的 习题 3.8 中 的 矩阵 因子 分 解 )， 但 有 时 则 可 能 相当 | 85 | 
不 规则 。 例 如 ， 图 2-5 示 出 一 个 并 发 性 态 ， 反 映 一 个 并 行事 件 驱动 模拟 对 数字 逻辑 系统 的 综 
合 。X 轴 是 时 间 ， 以 被 模拟 电路 的 时 钟 周 期 数 为 单位 - Y 轴 是 并 发 性 的 数量 ， 在 这 里 是 电路 
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中 在 给 定时 间 可 被 求 值 的 逻辑 门 数 ， 它 是 电路 、 输 入 值 以 及 时 间 的 函数 。 在 不 同 的 时 钟 周 期 
上 ， 不 可 预测 的 并 发 性 分 布 范围 很 帘 ， 有 些 周 期 几乎 没有 并 发 性 。 
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图 2-4 受 限 并 发 性 影响 的 示例 ，a) 一 个 处 理 器 ; b) p 个 处 理 器 ，n? 操作 的 序列 化 ; ec) p 个 处 
理 器 ，P 个 操作 的 串 行 化 。x 轴 是 时 间 ，y 轴 是 给 定 的 时 间 里 可 并 行 的 工作 量 (由 分 解 表 
现 出 来 的 )。a) 所 示 的 是 单个 处 理 器 的 性 态 。b) 表现 的 是 例子 中 最 初 的 情形 ， 分 两 个 阶 
Bl: 一 是 全 并 发 的 ， 一 是 全 串 行 化 的 。e) 所 示 的 为 改进 版 本 ， 分 为 三 个 阶段 ; 前 两 个 是 
全 并 发 的 ， 最 后 一 个 是 全 串 行 化 的 ， 但 其 工作 量 要 小 得 多 〈 此 时 为 0(p )， 前 面 是 O(n )) 


并 发 性 态 曲线 下 的 面积 是 总 工作 量 ; 邵 所 有 操作 或 任务 在 单个 处 理 器 上 执行 所 需 的 “时 
[s6] 间 ”。 水 平方 向 的 范围 是 在 给 定 分 解 下 ， 假 定 有 无 限 多 的 处 理 器 并 且 没 有 数据 访问 以 及 通信 
开销 ， 最 好 的 并 行程 序 执行 时 间 的 下 界 。 这 个 曲线 下 的 面积 除 以 水 平 范围 ， 就 给 出 在 无 限 多 
处 理 器 上 可 获得 加 速 比 的 极限 ， 这 也 就 是 该 应 用 问题 在 时 间 上 8 的 平均 并 发 性 。 因 此 ，Am- 
dahl 定律 的 另 一 种 形式 为 : 





; 并 发 性 态 曲 线 下 的 面积 
MEE < spe HAM EERE 
对 于 p 个 处 理 器 ， 如 果 f, 是 有 并 发 性 为 上 的 并 发 性 态 图 中 x 轴 上 的 点 数 ， 我 们 就 可 将 
Amdahl 定律 写成 








O 在 这 种 分 解 方案 下 。 一 一 译 者 注 
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2-1 
四 (2-1) 
容易 看 出 ， 如 果 将 总 工作 量 = 


ae 


规格 化 到 1， 并 且 设 s HEP BTR AN s, ALATA UAL, WME 
的 上 限 是 1/s, ， 随 处 理 器 数 p 变化 的 上 限 则 为 


1 

l-s 

= 

事实 上， 并行 处 理 可 能 带 来 各 种 不 同 的 开销 ， 它 们 不 是 用 较 多 处 理 器 就 能 消除 的 ，Amdahl 
定律 也 可 用 来 评价 并 行 性 的 开销 所 带 来 的 影响 (不 一 定 只 是 有 限 的 并 发 性 所 带 来 的 限制 )。 
就 我 们 这 里 来 说 ，Amdahl 定律 量化 了 揭示 足够 多 并 发 性 的 重要 性 ， 这 是 创建 并 行程 序 的 第 
一 步 。 
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图 2-5 一 种 时 间 分 布 ， 离 散 事件 的 逻辑 模拟 器 的 并 发 性 态 。 被 模拟 的 电路 是 一 个 简单 的 
MIPS R6000 微 处 理 器 。y 轴 表 示 在 一 个 给 定 模拟 时 钟 周 期 下 可 求 值 的 逻辑 元 件数 

2. 任务 的 分 配 i 

分 配 指 的 是 确定 一 种 将 任务 分 给 处 理 器 上 执行 的 机 制 。 例 如 ， 在 Bames-Hut 问题 中 哪个 
进程 要 负责 计算 哪些 星体 所 受 的 力 ? 在 数据 挖掘 问题 中 ， 哪 个 进程 要 来 统计 哪些 物品 集 在 数 
据 库 的 哪些 部 分 的 出 现 次 数 ? 

分 配 的 基本 性 能 目标 是 要 在 进程 之 间 做 负载 平衡 (Load balancing)， 要 减少 进程 之 间 的 
通信 量 ， 还 要 减少 运行 时 管理 这 种 分 配 的 开销 。 要 平衡 的 负载 包括 计算 、 输 入 /输出 以 及 数 
据 访 问 和 通信 ; 在 进程 之 间 没有 很 好 平衡 的 程序 称 为 是 负载 不 平衡 的 (Load imbalanced). Jt 
其 是 当 进 程 运行 在 不 同 处 理 器 上 时 ， 进 程 间 通信 的 代价 是 很 高 的 ， 并 且 如 果 任务 分 配 算法 很 
复杂 ， 也 可 能 在 运行 时 产生 明显 开销 。 


[88 | 
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同时 取得 这 些 性 能 目标 看 起 来 是 不 敢 想像 的 。 然 而 ， 许 多 程序 本 身 所 展现 出 来 的 特点 使 
我 们 能 够 用 一 种 相当 结构 化 的 方式 来 对 其 进行 划分 〈 即 分 解 与 分 配 )。 例 如 ,程序 通 常 是 分 
为 阶段 的 ， 在 一 个 阶段 里 的 ， 用 于 分 解 的 候选 任务 通常 很 容易 识别 出 来 ， 就 像 我 们 在 案例 研 
究 中 见 到 的 一 样 。 通 过 观察 程序 代码 或 对 应 用 程序 的 某 种 高 层 理解 ， 通 常 也 能 看 出 合适 的 任 
务 分 配方 案 。 在 不 清楚 的 情形 下 ， 有 些 熟知 的 启发 式 技术 常 可 以 奏效 。 

如 果 一 种 计算 分 配 在 程序 的 开始 或 者 是 在 刚刚 读 人 和 分 析 了 输入 数据 后 就 完全 确定 了 并 
且 以 后 不 再 变化 ， 则 称 它 为 静态 分 配 (static assignment) 或 预先 确定 的 分 配 (predetermined 
assignment); 如 果 计 算 任务 在 进程 上 的 分 配 是 在 程序 运行 过 程 中 确定 的 (也许 是 针对 负载 的 
不 平衡 进行 调整 )， 就 称 为 是 动态 分 配 (dynamic assignment)。 在 第 3 章 里 ， 这 两 种 情形 我 们 都 
会 见 到 。 注 意 这 里 “静态 ”的 意思 和 计算 机 科学 中 常用 的 “编译 时 ”有 所 不 同 。 编 译 时 的 分 
配 ， 如 果 在 运行 时 不 改变 ， 当 然 是 静态 的 ， 但 “静态 ”这 个 词 在 此 的 含义 要 更 一 般 些 。 

分 解 与 分 配 在 程序 并 行 化 中 是 算法 层次 上 的 主要 步骤 。 它 们 通常 独立 于 下 面 的 体系 结构 
和 程序 设计 模型 ， 尽 管 有 时 在 一 定 的 系统 上 用 某 种 原 语 的 代价 和 复杂 度 可 能 影响 分 解 与 分 配 
的 决策 。 作 为 系统 结构 师 ， 我 们 假定 要 在 机 器 上 运行 的 程序 是 基本 上 划分 好 了 的 。 如 果 一 个 
计算 没有 足够 的 并 行 性 或 者 在 进程 间 不 平衡 ,我 们 无 能 为 力 ; 如 果 这 个 程序 的 通信 过 多 ， 墙 
死 了 机 器 ， 我 们 也 无 能 为 力 。 作 为 程序 员 ， 我 们 通常 首先 注意 独立 于 程序 设计 模型 和 结构 的 
分 解 和 分 配 ， 尽 管 在 有 些 情 况 下 程序 设计 模型 和 系统 结构 的 特性 会 导致 我 们 重新 考虑 已 经 作 
出 的 划分 策略 。 

3. 通信 与 同步 的 引入 (协调 ) 

在 协调 这 一 步 又 中 ， 体 系 结构 和 程序 设计 模型 以 及 程序 语言 本 身 都 起 很 大 的 作用 。 为 了 
执行 分 配给 它们 的 任务 ， 进 程 需要 有 命名 和 访问 数据 的 机 制 以 及 和 其 他 进程 交换 数据 ( 通 
信 ) 的 机 制 ， 还 要 相互 同步 。 协 调 指 的 是 利用 可 用 的 机 制 来 正确 和 高 效 地 实现 这 些 目标 。 同 
前 面 两 个 步骤 相 比 ， 在 这 里 所 做 的 一 些 决定 在 很 大 程度 上 和 程序 设计 模型 及 其 基本 操作 的 效 
率 有 关 。 在 协调 中 所 出 现 的 问题 包括 如 何 组 织 数据 结构 ; 如 何 临时 在 进程 中 调度 任务 以 开发 
利用 数据 的 局 部 性 ， 用 显 式 通信 还 是 隐 式 通信 ; 用 小 消息 还 是 大 消息 ; 如 何 准确 地 组 织 和 表 
达 进 程 间 源 于 分 配 的 通信 和 同步 等 等 。 程 序 设计 语言 的 重要 性 既 在 于 这 是 实际 写 程 序 的 一 
步 ， 还 在 于 此 时 某 些 折 中 的 效果 在 很 大 程度 上 受 可 用 的 语言 机 制 和 其 开销 的 影响 。 

协调 中 的 主要 的 性 能 目标 是 降低 处 理 器 之 间 的 通信 和 同步 开销 ， 保 持 数 据 引 用 的 局 部 
性 ; 如 果 一 个 任务 为 许多 其 他 任务 所 依赖 ， 则 要 安排 它 尽量 早 些 完成 ， 降 低 并 行 性 管理 的 开 
销 。 系 统 结构 师 的 工作 是 要 提供 适当 的 、 效 率 高 的 基本 操作 ， 这 些 操作 能 简化 协调 的 过 程 。 
在 我 们 讲 程序 的 编写 过 程 时 ， 有 关 协 调 的 若干 问题 会 得 到 进一步 讨论 。 

4, 进程 与 处 理 器 的 映射 

通过 分 解 、 分 配 和 协调 步骤 所 产生 的 协作 的 进程 构成 了 一 个 能 在 现代 系统 上 运行 的 完整 
的 并 行程 序 。 这 个 程序 本 身 有 可 能 来 控制 进程 到 处 理 器 的 映射 ， 否 则 的 话 ， 操 作 系统 就 要 做 
这 件 事 ， 从 而 得 到 一 次 实际 的 并 行 执行 。 映 射 通 常 针 对 具体 的 系统 或 程序 设计 环境 。 

在 最 简单 的 情形 ， 机 器 中 的 处 理 器 分 成 固定 的 子 集 (也 可 能 整个 机 器 就 被 看 成 是 一 个 集 
合 )。 在 一 个 子 集 上 一 次 只 执行 一 个 程序 。 这 称 为 机 器 的 空间 共享 。 程 序 可 以 将 进程 绑 定 或 
别 〈pin) 到 处 理 器 上 ， 保 证 它们 在 执行 中 不 迁移 ; 甚至 还 可 以 准确 地 控制 进程 和 处 理 器 的 对 
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应 关系 ， 以 保持 在 网 络 拓扑 中 通信 的 局 部 性 。 严 格 的 空间 共享 机 器 ， 加 上 一 些 简 单 的 时 间 共 
享 机 制 ， 使 多 个 应 用 来 分 享 系统 硬件 资源 的 一 个 子 集 ， 是 到 目前 为 止 大 规模 并 行 计 算 机 系统 
的 典型 应 用 情况 。 在 另 一 个 极端 ， 操 作 系 统 可 能 动态 控制 进程 在 什么 时 间 运 行 在 哪个 处 理 器 
E, 不 让 用 户 对 映射 有 任何 控制 。 这 种 方式 有 可 能 取得 较 好 的 总 体 资源 共享 和 利用 。 每 个 处 
理 器 可 以 用 普通 的 多 道 程 序 调度 准则 来 管理 从 相同 或 不 同 程序 中 来 的 进程 ， 进 程 还 可 能 随 调 
度 安排 在 处 理 器 之 间 移 动 。 操 作 系统 可 能 会 扩展 其 调度 规则 ， 使 之 能 够 针对 与 多 处 理 器 特别 
有 关 的 问题 (例如 ， 试 图 让 一 个 进程 尽量 在 同一 个 处 理 器 上 运行 ， 这 样 这 个 进程 能 重用 它 在 
处 理 器 高 速 缓存 里 的 状态 ; 试图 在 同一 个 时 间 调 度 来 自 同一 个 应 用 中 的 进程 等 )。 事 实 上 ， 
大 多 数 现代 系统 处 于 这 两 个 极端 之 间 : 用 户 可 以 要 系统 保留 某 些 特 性 ， 给 用 户 程序 一 些 映 射 
的 控制 权 ， 但 操作 系统 也 可 以 动态 改变 映射 ， 以 得 到 有 效 的 资源 管理 。 

在 多 道 程序 系统 中 的 映射 和 相关 的 资源 管理 是 一 个 活跃 的 研究 领域 。 然 而 ,我 们 这 里 的 
目标 是 要 理解 并 行程 序 设计 的 最 基本 形式 ， 因 此 为 简单 起 见 ， 我 们 假定 单个 并 行程 序 对 机 器 
的 资源 有 完全 的 控制 。 我 们 也 假定 进程 数 等 于 处 理 器 数 ， 上 且 它 们 在 程序 执行 的 过 程 中 都 不 改 
变 。 在 缺 省 情况 下 ， 操 作 系统 将 在 每 个 处 理 器 上 安排 一 个 进程 ， 没 有 特别 的 顺序 。 假 定 在 执 
行 期 间 没有 进程 在 处 理 器 之 间 迁 移 。 由 于 这 个 原因 ， 术 语 “ 进 程 ” 和 “处 理 器 ”在 本 章 的 其 
他 部 分 不 加 区 别 地 使 用 。 


2.2.2 计算 并 行 和 数据 并 行 


如 上 所 述 的 并 行 化 过 程 集中 在 对 计算 或 者 操作 的 并 行 上 ， 而 不 是 针对 数据 。 所 分 解 和 分 
配 的 是 计算 。 然 而 ， 鉴 于 程序 设计 模型 或 性 能 的 考虑 ， 我 们 也 可 能 要 负责 将 数据 分 解 和 分 配 
到 进程 上 。 事 实 上 ， 许 多 重要 的 问题 类 型 ， 工 作 和 数据 的 分 解 有 很 强 的 联系 ， 要 区 别 它 们 是 
困难 的 ， 甚 至 是 不 必要 的 。 大 洋 问 题 是 一 个 好 例子 ， 每 个 通过 大 洋 的 截面 网 格 表 示 为 一 个 数 
组 ， 我 们 可 以 将 并 行 化 看 成 是 分 解数 组 的 数据 ， 将 不 同 的 部 分 分 配给 不 同 的 处 理 器 。 被 分 本 
了 数据 的 进程 然后 负责 和 那些 数据 相关 的 计算 ; 这 称 为 是 拥有 者 计算 (owner compute) 安 
排 。 在 数据 挖掘 中 也 有 类 似 的 情形 ， 我 们 可 以 认为 数据 库 被 分 解 和 分 配 ; 当然 ， 这 里 还 有 将 
物品 集 分 配给 进程 的 问题 。 若 干 语言 系统 ， 包 括 高 性 能 Fortran 标准 (Koebel et al. 1994; 高 
性 能 Fortran 论坛 1993) ， 人 允许 程 序 员 指定 数据 结构 的 分 解 和 分 配 。 计 算 的 分 配 然后 依照 数据 
的 分 配 ， 以 拥有 者 计算 的 方式 进行 。 然 而 ， 在 计算 和 数据 之 间 的 区 别 在 许多 其 他 比较 不 规则 
的 应 用 中 是 比较 强 的， 例如 我 们 将 要 讨论 的 Bames-Hut 和 光线 眼 踪 问题 就 是 如 此 。 由 于 以 计 
算 为 中 心 的 观点 要 更 一 般 化 ， 我 们 将 保留 这 个 观念 并 且 考 虑 数据 管理 是 协调 步 又 中 的 一 部 分 。 


2.2.3 ”并 行 化 过 程 的 目标 


如 前 所 述 ， 用 并 行 计算 机 的 主要 目标 是 要 获得 比 最 好 的 单 处 理 器 更 好 的 性 能 , 这 种 追求 
通常 是 通过 加 速 比 这 个 测度 来 体现 的 。 前 面 讨论 的 程序 并 行 化 的 4 个 步骤 中 ， 每 一 步 在 追求 
全 局 目标 中 都 发 挥 有 一 定 的 作用 ， 每 一 步 都 有 自己 的 性 能 目标 子 集 。 它 们 总 结 在 表 2-1 中 ， 
下 一 章 会 更 详细 地 讨论 它们 。 

创建 一 个 有 效 的 并 行程 序 ， 除 追求 性 能 外 ， 还 要 求 评 估 代 价 。 这 除了 机 器 本 身 值 多 少 美 
元 外 ， 还 必须 考虑 程序 关于 体系 结构 的 资源 需求 (例如 , 它 要 用 多 少 存储 空间 )， 还 有 开发 
出 一 个 满意 的 程序 所 要 花 的 气力 。 尽 管 代价 和 它们 的 影响 常常 要 比 性 能 更 难 量化 ， 但 它们 是 
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非常 重要 的 ,一 定 不 能 忽略 它们 ; 事实 上 ， 我 们 经 常 决定 用 性 能 的 损失 来 换取 一 些 代价 的 减 
少 。 作 为 算法 设计 者 ， 应 该 倾向 于 高 性 能 、 低 资源 要 求 的 方案 ， 同 时 还 希望 在 程序 设计 上 不 
需要 投入 过 度 的 努力 。 作 为 系统 结构 师 ， 在 设计 高 性 能 系统 的 时 候 ， 除 了 追求 低 费 用 外 ， 还 
要 考虑 对 能 够 优化 资源 利用 的 算法 的 支持 ， 考 虑 是 否 能 够 减少 程序 设计 的 努力 。 例 如 考虑 下 
面 两 种 体系 结构 的 情况 : 一 种 随 程序 设计 努力 的 增加 ， 人 性 能 会 逐步 改善 ; 另 一 种 最 终 可 能 给 
出 更 好 的 性 能 ， 但 即使 是 获得 一 般 可 接受 的 性 能 也 要 花 极 大 的 程序 设计 努力 。 人 们 可 能 更 欢 
迎 前 者 。 


R21 并 行 化 进程 的 步骤 和 它们 的 目标 





步骤 是 否 与 体系 结构 有 关 主要 性 能 目标 

分 解 大 多 数 情况 下 无 关 揭示 足够 的 并 发 性 ， 但 也 不 能 太 多 
分 配 大 多 数 情况 下 无 关 FERR, RIMAE 

策划 有 关 通过 数据 的 局 部 性 减少 非 本 质 的 通信 


减少 处 理 器 看 得 见 的 通信 和 同步 开销 
减少 在 共享 资源 上 的 品行 化 调度 任务 ， 尽 早 满 
足 相关 性 要 求 
映射 有 关 如 果 必 要 将 相关 的 进程 放 到 相同 的 处 理 器 上 在 
网 络 拓扑 中 开发 局 部 性 


我 们 可 以 应 用 对 这 个 基本 过 程 和 它 的 目标 的 理解 ， 来 考察 一 个 简单 但 详细 的 例子 ， 针 对 
在 第 1 章 介绍 的 三 种 主要 现代 程序 设计 模型 (共享 地 址 空间 、 消 息 传递 和 数据 并 行 )， 看 一 
看 所 得 到 的 并 行程 序 是 什么 样 。 这 里 ,我们 的 注意 力 将 集中 在 解释 程序 和 编程 的 原 语 ， 而 不 
考虑 太 多 性 能 问题 ( 那 是 第 3 章 的 论题 )。 


2.3 一 个 例子 程序 的 并 行 化 


在 本 章 开始 时 介绍 的 4 个 案例 分 析 所 导致 的 并 行程 序 都 太 复杂 、 太 长 ， 作 为 例子 程序 不 
合适 。 这 一 节 里 ,我 们 给 出 Ocean 问题 求解 核心 的 一 个 简化 的 版 本 ， 即 它 的 方程 求解 器 过 
程 。 我 们 用 这 个 例子 来 解释 在 3 种 程序 设计 模型 上 如 何 分 别 实现 一 个 并 行程 序 。 除 了 数据 并 
行 版 本 需要 用 一 种 高 级 数据 并 行 语言 外 ， 这 些 并 行程 序 并 不 是 用 什么 特殊 的 语言 写成 的 (有 
些 语言 可 能 提供 一 定 的 软件 层次 ， 将 协调 和 通信 的 抽象 对 程序 员 屏蔽 起 来 )。 反 之 ， 它 们 用 
类 似 于 C 或 Pascal 的 伪 代 码 写 成 ， 用 简单 的 并 行 性 扩展 来 加 强 ， 以 揭示 共享 地 址 空间 或 消息 
传递 抽象 必须 提供 的 基本 通信 和 同步 原 语 。 通 过 并 行 原 语 对 标准 串 行程 序 设计 语言 进行 扩 
充 ， 也 反映 了 当前 实际 并 行程 序 设 计 的 现状 。 


2.3.1 方程 求解 器 的 内 核 


方程 求解 器 内 核 表示 的 是 在 一 个 网 格 上 求解 一 个 简单 的 偏 微分 方程 ， 用 的 是 所 谓 有 限 差 
分 方法 。 它 操作 在 一 个 规则 的 、 含 有 (n +2) x (n+2) 个 元 素 的 二 维 网 格 或 数组 F， 例 
如 海盆 的 一 个 水 平 截面 。 网 格 边界 的 行 和 列 包含 固定 不 变 的 边界 值 ， 内 部 的 nx n 个 点 由 这 
个 求解 器 从 它们 的 初 值 开始 来 更 新 。 计 算 进 行 若干 次 遍历 。 在 每 一 次 遍历 中 ， 它 操作 网 格 内 
部 的 所 有 n x n 个 点 。 对 于 每 个 点 来 说 ， 它 用 一 个 加 权 平均 值 和 包含 它 自己 以 及 周围 上 下 左 
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右 四 个 点 ， 来 取代 旧 值 (如 图 2-6 所 示 )。 这 种 更 新 在 网 格 中 就 地 完成 ， 于 是 一 个 点 的 更 新 
计算 看 到 的 是 它 上 面 点 和 左边 点 的 新 值 ， 下 面 点 和 右边 点 的 旧 值 。 这 种 更 新 的 形式 称 为 Gauss 


更 新 每 个 内 部 点 的 表达 式 : 
Ali jf} = 0.2 x (Alij) + Alij- 1} + Ali- 1, f+ 
Alij+ 1) + Ali+ 1, 用 
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图 2-6 程 求 解 器 网 格 点 的 近邻 更 新 。 二 维 数组 表示 网 格 ， 按 照 图 右边 的 公 
a 


色 的 点 4 li, j] 按照 图 中 右边 方程 用 它 自己 和 周围 四 个 点 来 更 新 


1. int n; /*size of matrix: (n + 2-by-n + 2) elements*/ 
2. float **A, diff = 0; 


3 main() 

4 begin 

5. read(n) ; /*read input parameter: matrix size*/ 
6. A malloc (a 2-d array of size n + 2 by n + 2 doubles); 
7 initialize(A); /*initialize the matrix A somehow*/ 

8 Solve (A); /*call the routine to solve equation*/ 
9 end main 

10. procedure Solve (A) /*solve the equation system*/ 

11. float **A; /*A is an (n + 2)-by-(n + 2) array*/ 
12. begin 

13. int i, j, done = 0; 

14. float temp; ， 

15 . while (!done) do /*outermost loop over sweeps*/ 

16. diff = 0; /*initialize maximum difference to 0*/ 
17. for i e 1 ton do /*sweep over nonborder points of grid*/ 
18. for j «+ 1 ton do 

19. temp = A[i,j]; /*save old value of element*/ 

20. Ai,jl & 0.2 * (Ri,jl + Ali, j-1) + Ali-1,j] + 

21. A[i,j+1] + A[i+1,j]); /*compute average*/ 

22. diff += abs(A{i,jj] - temp); 

23. end for 

24. end for 

25. if (diff/(n*n) < TOL) then done = 1; 

26. end while 


27. end procedure 


图 2-7 描述 串 行 方程 求解 内 核 的 伪 码 。 在 每 一 次 遍历 中 要 完成 的 主要 计算 量 是 17 ~ 23 行 
的 嵌 套 循环 。 这 就 是 我 们 要 并 行 化 的 (斜体 字 表 示 串 行程 序 设计 语言 的 关键 字 ) 
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Seidl 方法 。 在 每 一 次 遍历 期 间 ， 这 个 内 核 也 计算 一 个 元 素 和 它 先 前 值 的 平均 差 。 如 果 这 个 
平均 差 小 于 某 个 预先 定好 的 “ 容 召 ”参数 ， 就 说 这 个 解 已 经 收敛 了 ， 求 解 器 就 在 这 次 凯 历 结 
束 时 退出 。 否 则 ， 它 就 进行 下 一 次 遍历 ， 并 进行 收敛 性 测试 。 串 行 伪 代 码 如 图 2-7 所 示 。 现 
在 让 我 们 分 别针 对 不 同 的 程序 设计 模型 ， 一 步 步 来 将 这 个 简单 方程 求解 器 转换 成 一 个 并 行程 
序 。 对 于 所 讨论 的 3 种 模型 来 说 ， 分 解 和 分 配 步 又 基 本 上 是 相同 的 ， 因 此 对 这 两 个 步骤 我 们 只 
是 笼统 地 进行 讨论 。 一 旦 我 们 进入 了 协调 阶段 ， 讨 论 将 针对 程序 设计 模型 分 别 进行 。 


2.3.2 分 解 


有 些 程序 的 结构 表现 为 循环 或 循环 戏 套 ， 对 于 这 样 的 程序 ， 一 个 简单 的 识别 并 发 性 的 方 
法 是 从 循环 结构 开始 。 一 个 个 考察 单独 的 循环 或 循环 嵌 套 ,看 它们 的 迭代 能 不 能 并 行 完成 ， 
确定 是 否 揭示 了 足够 的 并 发 性 。 然 后 可 以 寻找 跨 循环 的 并 发 性 或 者 取 一 种 不 同 的 角度 来 做 这 
项 分 解 工作 (如 果 必 要 的 话 )。 让 我 们 遵循 这 种 基于 程序 结构 的 做 法 来 分 析 图 2-7 中 的 程序 。 

从 第 15 行 开始 ， 最 外 层 while 循环 的 每 次 迭代 遍历 了 整个 网 格 。 由 于 在 一 次 迭代 中 修改 
的 数据 要 被 下 一 次 选 代 访问 ， 这 些 选 代 显 然 是 不 独立 的 。 考 虑 17 ~ 24 FFE, Ze 
WA Gift 的 那些 程序 行 。 先 看 内 层 循 环 〈 从 第 18 行 开 始 的 了 循环 ) 。 这 个 循环 的 每 次 迭代 
BARAA Li，j -1]， 其 值 是 上 一 次 迭代 写 人 的 。 由 此 可 看 出 这 些 欠 代 是 顺序 相关 的 ， 我 
们 称 这 样 的 循环 为 顺序 篇 环 由 于 i - 1 行 的 元 素 是 由 第 i -1 次 迭代 写 人 的 ， 这 个 循环 振 套 
的 外 层 循环 也 是 顺序 的 。 这 样 ， 对 于 这 个 循环 和 它们 的 相关 性 的 简单 分 析 ， 说 明 在 这 个 程序 
中 没有 并 发 性 存在 。 

通常 ， 除 了 依赖 程序 的 结构 来 发 现 并 发 性 外 ， 另 外 一 种 途径 是 回 到 所 用 的 底层 算法 的 基 
本 依赖 关系 的 分 析 中 ， 而 不 管 程序 或 循环 的 结构 。 在 上 面 的 方程 求解 器 中 , 我们 可 以 从 单个 
网 格 点 的 粒度 ， 来 看 在 数据 的 产生 和 使 用 中 发 生 的 基本 依赖 关系 。 如 前 面 所 讨论 的 ， 由 于 计 
算是 从 左 到 右 ， 从 上 到 下 进行 的 ， 在 串 行程 序 中 计算 一 个 网 格 点 要 用 到 它 上 面 点 和 左边 点 的 
更 新 值 。 这 种 数据 相关 的 模式 如 图 2-8 所 示 。 其 结果 是 沿 着 反对 角 线 (西南 到 东北 ) 的 元 素 
之 间 没 有 依赖 关系 ， 因 此 可 被 并 行 计算 ， 而 在 下 一 排 反 对 角 线 上 的 点 依赖 于 上 一 排 的 若干 
点 。 从 这 个 图 ， 我 们 能 够 观察 到 在 每 一 次 凯 历 中 要 涉及 0( 姑 ) 工 作 量 ， 这 有 一 种 和 成 
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各 没有 依赖 关系 ， 可 以 并 行 计算 
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一 定 关 系 的 、 沿 着 反对 角 线 的 固有 并 发 性 ; 也 有 一 种 和 n OA, EX f RUF 
MKR 

假设 我 们 要 将 网 格 点 作为 分 解 粒度 ， 使 得 更 新 一 个 网 格 点 是 一 个 任务 。 我 们 能 够 开发 在 
几 个 方面 表现 出 来 的 并 发 性 。 首 先 ， 我 们 能 够 不 动 程序 的 循环 结构 ， 但 加 进 点 到 点 的 同步 以 
保证 在 一 次 遍历 中 一 个 点 的 新 值 被 计算 出 来 的 时 机 先 于 它 被 下 面 点 和 右边 点 的 引用 。 这 样 ， 
该 顺序 程序 的 不 同 的 循环 做 套 ， 甚 至 不 同 的 遍历 都 有 可 能 在 不 同 的 元 素 上 同时 进行 ， 只 要 元 
素 级 依赖 关系 不 被 违反 。 但 是 这 种 在 网 格 点 级 别 的 同步 开销 可 能 太 高 。 再 者 ， 我 们 可 能 改变 
循环 结构 ;第 一 个 for 循环 (第 17 行 ) 可 以 是 作用 在 反对 角 线 的 ， 而 内 层 for 循环 作用 在 一 
条 反对 角 线 内 的 元 素 上 。 内 层 循环 于 是 可 被 完全 并 行 执行 ， 使 同步 在 外 层 for 循环 的 迭代 之 
HRE (以 保守 地 保持 跨越 反对 角 线 之 间 的 依赖 关系 )。 对 这 两 种 情况 ， 通 信 的 安排 将 是 相 
当 不 同 的 ;如 果 通 信和 是 显 式 消 息 的 话 ， 情 况 会 更 如 明显 。 然 而 ， 这 种 做 法 也 有 问题 。 全 局 同 
步 仍 然 很 频繁 一 一 一 条 反对 角 线 一 次 。 除 此 以 外 ， 在 并 行内 层 循 环 的 迭代 次 数 随 着 不 同 的 外 
层 循环 迁 代 随 反对 角 线 长 短 的 变化 而 变化 。 由 于 同步 的 频繁 、 负 载 的 不 平衡 以 及 程序 设计 的 
复杂 ， 上 面 两 种 方法 在 现代 系统 结构 中 用 得 都 不 多 。 

第 三 个 ， 也 是 最 常用 的 办 法 是 基于 对 问题 本 身 的 知识 ， 不 一 定 遵守 顺序 程序 本 身 的 依赖 
关系 。 对 于 Gauss-Seidel 方法 来 说 ， 串 行 算法 中 网 格 点 更 新 的 次 序 ( 即 从 左 到 右 ， 从 上 到 下 ) 
实际 上 不 是 很 重要 的 ， 它 不 过 是 一 种 对 于 串 行 程序 设计 来 说 比较 方便 的 一 种 次 序 而 已 。 由 于 
Gauss-Seidel 方法 不 是 一 种 精确 解法 〈 不 同 于 高 斯 消去 法 )， 它 只 是 要 求 欠 代 到 收敛 ， 我 们 可 
以 用 不 同 的 次 序 来 更 新 网 格 点 ， 只 要 我 们 足够 频繁 地 用 到 更 新 了 的 值 。 这 样 一 种 常用 的 序 
称 为 红 - 黑 序 。 其 基本 思想 是 将 网 格 点 分 为 交替 的 红 点 和 黑 点 ， 如 同 棋盘 那样 ( 见 图 2-9), 
相 邻 的 点 有 不 同 的 颜色 。 由 于 每 个 点 只 读 它 的 四 个 近邻 ,为 计算 一 个 给 定 的 红 点 ， 我 们 不 需 
要 任何 其 他 红 点 的 新 值 ; 我 们 只 需要 它 上 面 和 左边 的 黑 点 的 新 值 (在 标准 遍历 中 ) ， 计 算 黑 
点 的 情形 类 似 。 因 此 我 们 可 以 将 网 格 的 遍历 过 程 分 为 两 个 阶段 ， 首 先 计算 所 有 的 红 点 ， 然 后 
计算 所 有 的 黑 点 。 在 每 一 阶段 内 部 ， 网 格 点 之 间 没 有 依 束 关系 存在 ， 于 是 我 们 可 以 并 行 计算 


所 有 ” /2 个 红 点 ， 做 一 次 全 局 同步 ， 然 后 并 行 计算 所 有 n?/2 个 黑 点 。 由 于 计算 一 个 黑 点 并 


个 需要 所 有 红 点 都 被 计算 出 来 ， 全 局 同步 是 保守 的 做 法 ， 可 以 被 格 点 级 的 点 到 点 同步 来 取 
Ks 不 过 全 局 同步 做 起 来 要 方便 得 多 。 

由 于 红 - 黑 序 不 同 于 我 们 最 初 的 顺序 序 ， 它 达到 收敛 的 遍历 次 数 可 能 会 多 ， 也 可 能 会 少 。 
它 也 可 能 产生 不 同 的 网 格 点 终 值 (尽管 也 在 收敛 范围 )。 在 一 次 遍历 中 ， 红 点 更 新 时 看 不 到 
任何 黑 点 的 新 值 ， 黑 点 却 看 得 到 它 所 有 相 邻 红 点 的 新 值 (从 第 一 个 阶段 产生 的 )， 不 仅 是 左 
边 和 上 面 的 点 。 和 老 的 序 比 起 来 ， 这 种 新 的 序 的 优 劣 取决 于 问题 本 身 。 由 于 在 一 个 阶段 里 
没有 依赖 关系 出 现 ， 红 - 黑 序 还 有 一 个 优点 ， 即 产生 的 值 和 收敛 特性 独立 于 参与 计算 的 处 理 
器 数 。 如 果 串 行程 序 本 身 也 用 红 - 黑 序 ， 那 么 并 行 化 完全 不 会 改变 结果 或 者 收敛 特性 ， 从 而 
使 得 并 行程 序 具 有 确定 性 。 

红 - 黑 序 所 产生 的 内 核 代码 较 长 ， 不 便于 用 来 解释 并 行程 序 设计 。 让 我 们 来 考察 一 个 简 
单 但 仍然 常用 的 异步 方法 ， 它 不 需要 将 格 点 划分 为 红 点 和 黑 点 。 这 个 方法 从 根本 上 忽略 在 一 


O ”即使 我 们 不 用 在 当前 遍历 〈 即 while ARER) 中 更 新 了 的 值 ， 而 是 用 在 上 一 次 遍历 时 产生 的 ， 系统 也 会 收敛 ， 
只 是 慢 些 。 这 称 为 是 Jacobi 迭代 法 ， 不 同 于 Gauss-Seidel HARE. 
O 即 初始 数据 。 一 一 译 者 注 
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次 遍历 中 格 点 之 间 的 依赖 关系 。 同 前 面 的 做 法 一 样 全 局 同步 只 是 用 于 相继 的 遍历 之 间 ， 但 一 
个 进程 在 一 次 遍历 中 不 是 从 上 到 下 ， 从 左 到 右 地 依次 更 新 格 点 。 取 而 代 之 ， 在 一 次 遍历 内 进 
程 更 新 所 有 分 配给 它 的 格 点 值 ， 访 问 有 关 的 相 邻 点 ， 不 管 那些 点 是 否 在 本 次 遍历 中 已 被 相应 
进程 更 新 。 如 果 只 有 一 个 进程 ， 这 种 方法 就 是 最 初 的 顺序 。 如 果 有 多 个 进程 参与 ， 这 个 次 序 
就 是 不 可 预测 的 ; 它 取 决 于 格 点 在 进程 之 间 的 分 配 、 所 用 到 的 进程 数 以 及 在 运行 时 不 同 进程 
向 前 推进 的 相对 速度 。 这 个 执行 不 再 是 确定 性 的 ， 为 达到 收敛 所 需 的 遍历 数 可 能 就 要 取决 于 
所 参与 计算 的 处 理 器 数 。 然 而 ， 对 于 多 数 合理 的 分 配 来 说 ， 遍 历数 的 变化 将 不 会 很 大 。 





图 2-9 方程 求解 器 的 红 黑 序 。 在 网 格 上 的 遍历 被 分 为 两 次 子 遍历 : 第 一 次 计算 所 有 的 红 点 ， 第 二 
次 计算 所 有 的 黑 点 。 由 于 红 点 只 依赖 于 黑 点 ， 反 之 亦 然 ， 在 一 次 子 遍历 中 就 没有 依赖 关系 了 


如 果 决 定 将 分 解 做 到 内 层 循环 的 迭代 ( 即 格 点 粒度 )， 改 写 图 2.7 中 的 15 ~ 26 行 可 得 相 
应 程序 。 图 2-10 用 黑体 指示 了 代码 的 变化 : 所 做 的 是 用 for all 替换 关键 字 for, 
for-al1 循 环 千 诉 下 面 的 硬件 /软件 系统 ， 循 环 中 的 所 有 迁 代 都 可 并 行 执行 ， 不 要 担心 相关 


“性 问题 ， 但 它 没 讲 分 配 。 一 个 两 层 都 是 for all 的 循环 嵌 套 意味 着 所 有 迭代 OBE nxn 


次 ) 都 可 并 行 执行 。 系 统 可 以 以 任何 方式 来 分 配 和 安排 并 行 化 ;程序 对 此 没有 任何 限制 。 它 


15. while (!done) do /*a sequential loop*/ 
16. aiff = 0; 

17. for all i <1 ton do /*a parallel loop nest*/ 
18. for_all j — 1 ton do 

19. temp = A[i,j}; 

20. Ali, j] © 0.2 * (A[i,j] + Ali, j-1}] + Afi-1,j] + 
21. Afi, j+1] + Ali+1,4)); 

22. diff += abs (A[i,j] - temp); 

23. end for_all 

24. end for_all 

25. if (diff/(n*tn) < TOL) then done = 1; 


26. end while 


图 2-10 ”并行 方 程 求解 器 内 核 ， 网 格 点 分 解 ， 没 有 显 式 的 分 配 。 由 于 两 个 for 循环 都 用 for_all 并 
行 表示 ， 分 解 的 粒度 就 是 单个 网 格 点 。 除 了 这 个 变化 外 ， 代码 的 其 他 部 分 和 串 行 代码 一 样 


R2E #47 RF 71 





所 要 求 的 只 是 在 for_all 循环 能 套 后 有 一 个 隐 含 的 全 局 同步 。 

事实 上 ， 我 们 对 这 个 计算 的 分 解 不 仅 可 以 落实 到 内 层 循 环 的 单个 迭代 上 ， 还 可 以 落实 到 
一 组 迭代 上 。 注 意 到 这 里 的 计算 分 解 和 网 格 分 解 是 相当 对 应 的 。 假 设 我 们 要 按 行 来 分 解 网 格 
上 护 ， 从 而 一 行 上 的 工作 成 为 一 个 不 可 分 的 任务 ， 必 须 分 配 到 同一 个 进程 中 。 我 们 表达 这 种 想 
法 的 方式 可 以 是 将 for all 改 回 for， 从 而 将 第 18 行 的 内 层 循环 改 成 顺序 循环 ， 但 保持 第 
17 行 的 循环 为 并 行 的 for_ al1。 由 此 表现 出 来 的 并 行 性 ， 即 并 发 性 的 程度 ， 就 从 问题 本 身 
所 具有 的 n MAT n: 本 来 是 rw 个 独立 的 任务 ， 每 个 具有 一 个 时 间 单 位 ; 现在 成 了 n 个 独 
立 的 任务 ， 每 个 具有 n 个 时 间 单 位 。 如 果 每 个 任务 在 不 同 的 处 理 器 上 执行 ， 对 于 n 个 点 ， 我 
们 将 有 大 约 2n 字 的 通信 量 (访问 那些 由 其 他 进程 计算 的 格 点 )， 这 导致 通信 与 计算 比 为 0(1)。 


2.3.3 分 配 


用 基于 行 的 分 解 ， 我 们 来 看 怎么 将 网 格 的 行 分 配 到 进程 上 。 最 简单 的 做 法 是 静态 (事先 
确定 的 ) 分 配 ， 其 中 每 个 进程 负责 一 个 连续 行 块 ， 如 图 2-11 所 示 。 第 i 行 分 给 进程 


图 2-11 并 行 方程 求解 器 的 一 种 简单 分 配方 案 。 
每 个 处 理 器 被 分 给 网 格 上 若干 连续 的 、 
等 量 的 行 。 在 每 次 遍历 中 ， 处理 器 完成 
分 给 它 的 行 上 的 元 察 的 更 新 。 图 中 只 显 
示 了 那些 在 一 次 遍历 中 要 更 新 的 内 部 点 


其 中 p 是 进程 个 数 。 这 种 方式 称 为 块 方式 。 另 外 一 种 静态 分 配方 式 是 循环 分 配方 式 ， 网 格 
中 的 行 交替 地 在 进程 间 分 配 Gi, i+ p 行 分 配给 进程 ?， 等 等 )。 我 们 也 可 以 考虑 一 种 动态 
的 分 配方 案 ， 其 中 每 个 进程 在 完成 一 行 的 计算 后 去 动态 获取 下 一 个 尚未 计算 的 行 ， 这 样 就 不 
可 能 事先 确定 那个 进程 计算 哪些 行 。 下 面 的 讨论 将 基于 静态 块 分 配 。 由 于 每 一 行 的 工作 量 是 
统一 的 ， 只 要 网 格 内 部 的 行 数 能 被 进程 数 整除 ， 这 种 简单 的 划分 就 具有 很 好 的 负载 平衡 特 
性 。 我 们 看 到 ， 通 过 使 任务 变 大 ， 这 种 静态 分 配 进 一 步 将 并 行 性 (或 并 发 度 ) 从 n EAT 
ps 通过 将 相 邻 的 行 分 给 同一 个 进程 〈 块 分 配 ) ， 从 而 减少 了 通信 。 通 信和 计算 比 现在 是 


(7) 
考察 了 分 解 和 分 配 后， 我 们 就 要 进入 协调 阶段 了 。 这 要 求 我 们 落实 到 程序 设计 模型 。 我 们 从 


一 个 高 层 的 数据 并 行 模型 开始 ， 然 后 看 看 两 个 主要 的 程序 设计 模型 、 共 享 地 址 空间 和 显 式 消 
息 传 递 。 数 据 并 行 模型 和 其 他 一 些 高 层 模型 都 可 能 编译 到 这 两 种 模型 上 。 
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2.3.4 在 数据 并 行 模型 下 的 协调 


数据 并 行程 序 设计 模型 适合 于 上 述 方程 求解 器 的 内 核 。 这 是 由 于 所 涉及 的 计算 可 以 自然 
地 看 成 是 一 个 单 控制 线索 ， 在 一 个 大 数组 数据 结构 上 进行 全 局 变换 ” (Hillis 1985; Hillis and 
Steele 1986) 。 从 划分 的 角度 看 ， 面 向 计算 和 面向 数据 在 相当 程度 上 是 等 价 的 ， 一 种 简单 的 数 
据 分 解 和 分 配 就 可 以 在 进程 之 间 得 到 很 好 的 负载 平衡 ， 这 种 分 配 (划分 ) 在 形状 上 是 很 规则 
的 ,可 以 由 简单 表达 式 来 描述 。 这 种 数据 并 行 方程 求解 器 的 伪 代 码 如 图 2-12 所 示 。 我 们 假 
设 全 局 的 变量 声明 (所 有 过 程 之 外 的 ) 描述 的 是 共享 数据 ， 所 有 其 他 数据 〈 例 如 ， 过 程 栈 上 
的 数据 ) 是 私有 于 一 个 进程 的 。 对 于 数组 A 那 样 的 共享 数据 ， 存 储 分 配 通 过 G_MALLOC 


1. int n, nprocs; /*grid size (n + 2-by-n + 2) and number of processes*/ 


2. float **A, diff = 0; 

3 main() 

4 begin 

5. read(n); read(mproes) ;; /*read input grid size and number of processes*/ 
6. A © GMALLOC (a 2-d array of size n+2 by n+2 doubles); 
7 initialize (A); /*initialize the matrix A somehow */ 

8 Solve (A); /*call the routine to solve equation */ 

9 end main 

10. procedure Solve(A) /*solve the equation system*/ 

11. float **A; /*A is an (n + 2-by-n + 2) array*/ 

12. begin 

13. int i, j, done 0; 


14. float mydiff = 0, temp; 
14a. DSCOMP A[BLOCK,*, nprocs]; 


15. while (!done) do /*outermost loop over sweeps*/ 

16. myäiff = 0; /*initialize maximum difference to 0*/ 
17. for all i + 1 to n do /*sweep over non-border points of grid*/ 
18. for_all j 4+ 1 ton do 

19. temp = Ali,j); /*save old value of element*/ 

20. Ali,j) e 0.2 * (Ali,j] + Ali,j-1] + Af{i-1,j] + 
21. Ali, j+1] + Ali+1,j}]); /*compute average*/ 

22. my@iff += abs(Afi,j] - temp); 

23. end for_all 

24. end for_all 

24a. REDUCE (myGifft, diff, ADD); 

25. if (diff/(n*n) < TOL) then done = 1; 

26. end while 


27. end procedure 


图 2-12 ”描述 数据 并 行 方程 求解 器 的 伪 码 。 和 串 行 代码 的 区 别 见 黑体 字 所 示 。 斜 黑体 字 所 表示 的 
是 为 获得 并 行 性 设计 的 成 分 。 分 解 依然 是 落实 到 了 单个 元 素 ， 如 舱 套 的 for_all 循环 所 
示 。 分 配 由 DECOMP 语句 所 指 ， 将 数据 分 成 连续 行 块 状 〈 沿 列 方向 做 了 划分 ， 行 方向 上 没 划 
分 )。REDUCE 语句 将 本 地 计算 好 的 mydi ffs 求 和 到 全 局 ditt H, while 循环 依然 是 串 行 的 


避 ” 即 对 其 中 的 元 素 做 相同 或 类 似 的 计算 。 一 一 译 者 注 
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(全 局 malo) 动态 实现 ， 而 不 是 一 般 的 malloc, G_MALLOC 在 堆 空间 的 一 个 共享 区 域 为 数据 
分 配 内 存 ， 这 个 空间 可 被 任何 进程 访问 和 修改 。 除 此 以 外 ， 和 串 行程 序 相 比 主要 不 同 〈 如 黑 
体 所 示 ) 在 于 for _all 循环 的 使 用 ， 而 不 是 for 循环 ; 还 有 DECOMP 语句 ; 每 个 进程 都 有 的 私 
有 mydiff ZE; VA REDUCE 语句 等 。 

我 们 已 经 看 到 了 forall 循环 说 明 迭 代 可 被 并 行 完 成 。 除 执行 主 控 的 进程 外 ， 并 行进 
程 隐 含 在 数据 并 行 模型 中 ， 且 仅仅 在 这 些 并 行 循 环 时 才 活 跃 。DECOMP 语句 有 两 个 目的 。 首 
先 ， 它 说 明了 迭代 在 进程 之 间 的 分 配 (DECOMP 在 这 个 意义 下 是 一 个 不 合适 的 字 )。 这 里 ， 
它 是 [BLOCK, *, nprocs] 分 配 ， 即 第 一 维 ( 行 ) 在 nprocs 进程 之 间 被 划分 为 连续 块 ， 
第 二 维 不 做 划分 。 如 果 是 [CYCLIC, *, nprocs] 则 意味 着 在 nprocs 进程 之 间 对 行 做 循 
环 或 交替 划分 ， 而 [BLOCK, BLOCK, nprocs] 则 是 做 两 维 上 的 抉 划分 ， [xx ，CYCLIC， 
nprocs | 则 意味 着 对 列 做 交替 式 划分 。DECOMP 的 第 二 个 相关 的 目的 是 ， 它 也 说 明了 网 格 数 
据 应 该 如 何 分 配 到 分 布 存储 机 器 的 存储 器 中 。 (在 当前 多 数 数 据 并 行 语 言 中 ， 依 照 拥 有 者 计 
算 原 则 ， 这 被 限制 为 和 计算 分 配 相 同 。 对 这 个 例子 来 说 ， 数 据 分 配 和 计算 分 配对 应 得 相当 
好 )。mydiff 变量 用 来 让 每 个 进程 首先 独立 地 计算 它 所 拥有 格 点 差 值 的 和 。 然 后 ，REDUCE 
语句 指示 系统 将 所 有 部 分 mydiff 值 加 到 共享 的 diff 变量 里 。 如 例 2.1 所 讨论 过 的 ， 这 增 
加 了 并 发 性 。REDUCE 操作 实现 一 种 规约 ， 其 中 许多 进程 (在 全 局 规约 中 是 所 有 进程 ) 一 起 
在 逝 辑 上 共享 的 数据 上 完成 满足 结合 律 的 操作 〈 如 相 加 、 取 最 大 值 等 )。 结 合 律 曹 含 着 操作 
的 次 序 无 关 。 这 里 进行 的 计算 机 浮 点 操作 ， 由 于 侈 入 误差 的 累积 和 操作 的 次 序 有 关 ， 严 格 来 
讲 是 不 满足 结合 律 的 。 然 而 ， 差 别 不 明显 ， 于 是 通常 忽略 它们 ; 尤其 是 在 迭代 计算 的 情形 ， 
本 来 结果 就 是 近似 的 。 规 约 操作 可 以 用 一 种 最 适合 底层 体系 结构 方式 的 库 来 实现 。 

数据 并 行程 序 设计 模型 适合 于 说 明 在 大 型 数组 数据 上 进行 规则 计算 时 的 划分 和 数据 的 分 
布 〈 例 如 方程 求解 器 内 核 或 Ocean 应 用 )， 但 对 较 不 规则 的 应 用 ， 适 应 性 不 一 定 总 是 很 好 ; 
特别 是 有 些 应 用 ， 通 信 模 式 或 者 任务 之 间 的 工作 分 配 随时 间 不 可 预测 地 变化 〈 例 如 ， 考 虑 
Bames-Hut 中 的 星体 或 Raytrace 中 的 光线 ， 如 果 给 每 个 进程 都 分 配 相同 数量 的 光线 ， 会 导致 
严重 的 负载 不 平衡 )。 下 面 讲 更 灵活 的 、 层 次 较 低 的 程序 设计 模型 ， 其 中 进程 是 显 式 的 ， 它 
们 各 自 有 自己 的 控制 线程 ， 当 需要 的 时 候 会 相互 通信 。 
2.3.5 在 共享 地 址 空间 模型 下 的 协调 

在 共享 地 址 空间 ， 我 们 可 以 直接 了 当地 将 矩阵 4 声明 成 一 个 单一 的 共享 数组 一 一 如 同 
我 们 在 数据 并 行 模型 所 做 的 那样 一 一 进程 可 以 通过 读 人 和 写 出 操作 ， 用 和 串 行程 序 同样 的 数 
组 下 标 引 用 它 所 需 的 部 分 ; 通信 随 需 要 隐 含 产生 。 由 于 此 时 进程 是 显 式 的 ， 我 们 需要 机 制 来 
创建 它们 ， 并 通过 同步 来 协调 它们 ， 还 要 控制 负载 在 进程 之 间 的 分 配 。 我 们 用 的 原 语 是 典型 
的 低层 程序 设计 环境 ， 如 parmacs (Boyle et al.1987) ， 综 合 起 来 如 表 2-2 所 示 。 

R22 关键 共享 地 址 空间 的 原 语 








原 语 名 称 语 法 功 能 
CREATE CREATE (p, proc, args) 创建 个 进程 ， 用 参数 args 从 过 程 proc 开始 执行 
G_MALLOC G_MALLOC (size) 分 配 size 字 节 的 共享 数据 
LOCK LOCK (name) 获得 互 斥 访问 权 


UNLOCK UNLOCK (name) 释放 互 斥 访问 权 








97 
a 
100 











101 
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( 续 ) 
原 语 名 称 语 法 功 能 
"BARRIER - BARRIER(name, num- 在 number 个 进程 之 间 做 全 局 同步 ， 只 有 所 有 
ber) number 个 进程 都 达到 后 ， 才 能 通过 BARRIER 
WAIT_FOR_END WAIT_FOR_END (number) 等 待 number 个 进程 -- 起 终止 
wait for flag while (!flag); or 等 待 flag 的 出 现 (踏步 或 阻塞 ); 
WAIT (flag) 用 于 点 对 点 事件 同步 
set flag flag = 1; or 设置 flag ; 唤醒 踏步 或 阻塞 等 在 flag 上 的 
SIGNAL (flag) 进程 


在 共享 地 址 空间 里 的 并 行 方程 求解 器 的 伪 代 码 如 图 2-13 所 示 。 和 并 行 性 有 关 的 特别 原 
语 如 黑体 所 示 。 通 常 它们 用 库 或 宏 来 实现 ， 每 一 个 扩展 成 若干 条 指令 来 达到 其 目的 。 尽 管 
Solve 过 程 的 代码 和 串 行 版 本 极端 相似 ， 我 们 还 是 有 必要 一 步 步 进 行 讨论 。 


lda. 
14b. 


16. 


图 2-13 


int n, mprocs; /*matrix dimension and number of processors to be used*/ 
float **A, diff; /*A is global (shared) array representing the grid*/ 
/*diff is global (shared) maximum difference in current 
sweep*/ 
LOCKDEC(4i££_ lock); /*declaration of lock to enforce mutual exclusion*/ 
BARDEC (bar1); /*barrier declaration for global synchronization between 
sweeps*/ 
main() 
begin 
read(n); read(nprocs); /*read input matrix size and number of processes */ 
A G_MALLOC (a two-dimensional array of sizen+2 by n+2 doubles}; 
initialize{A) ; /*initialize A in an unspecified way*/ 
CREATE (nprocs-1, Solve, A); 
Solve (A); /*main process becomes a worker too*/ 


WAIT_FOR_END (nprocs-1) ; /*wait for all child processes created to terminate*/ 
end main 


. procedure Solve(A) 


float **A; /*A is entire n+2-by-n+2 shared array, 
as in the sequential program*/ 


- begin 


int i,j, pid, done = 0; 

float temp, mydiff = 0; /*private variables* / 

int mymin = 1 + (pid * n/nprocs); /*assume that n is exactly divisible by*/ 
int mymax = mymin + n/nprocs - 1 /xnprocs for simplicity here*/ 


while (!done) do /*outer loop over all diagonal elements*/ 
mydiff = diff = 0; /*set global diff to 0 (okay for all to do it)*/ 


在 共享 地 址 空间 描述 并 行 方 程 求解 器 的 伪 码 。 带 有 字母 的 语句 行 号 表示 在 串 行 代码 中 没有 的 语句 。 
语句 行 号 的 选取 尽量 和 串 行 代码 中 的 匹配 ， 数据 结构 的 设计 不 需要 在 串 行程 序 的 基础 上 有 什么 改变 。 
计算 进程 通过 CREATE 凋 用 创建 ， 主 进程 在 程序 的 结尾 处 用 wAIT _FOR _END 调用 等 待 它们 的 完成 。 
由 于 内 层 循 环 没有 改动 ， 分 解 是 成 行 的 ， 外 层 循环 将 数据 行 分 给 了 进程 。 栅 障 用 来 将 不 同 的 遍历 晤 
离开 来 《还 将 收敛 测 试 和 对 dite 的 进一步 更 新 隔离 开 来 ) ， 锁 用 来 保证 对 全 局 ai ff 变量 的 互 斥 访问 
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16a . BARRIER(bar1, nprocs);  /*ensure all reach here before anyone modifies diff*/ 

17. for i © mymin to mymax do /*for each of my rows*/ 

18. for j «+ 1 ton do /*for all nonborder elements in that row*/ 

19. temp = A[i,j]; 

20. Afi, j] = 0.2 * (A[i,j] + A{i,j-1] + Afli-1,j] + 

21. A[i,j+1] + Afi+1,j]); 

22. mydiff += abs(A[i,j] - temp); 

23. endfor 

24. endfor 

25a. LOCK (diff lock); /*update global diff if necessary */ 

25b. diff += mydiff; 

25c. UNLOCK (diff£_lock) ; 

25d. BARRIER(barl1, nprocs); /*ensure all reach here before checking if done*/ 

25e. if (diff/(n*n) < TOL) then done = 1; /*check convergence; all get 
same answer*/ 

25f. BARRIER(bari, nprocs); 

26. endwhile 


27. end procedure 


FA 2-13 (48) 


操作 系统 首先 启动 一 个 进程 ， 从 称 为 main 的 过 程 开始 来 执行 这 个 程序 。 让 我 们 称 它 为 
主 进程 。 它 读 和 人 输入 数据 ， 指 定 网 格 4 的 大 小 (记得 输入 n 表示 一 个 (n+2) x (n +2) 
网 格 ， 其 中 nxn 点 由 求解 器 来 更 新 )。 它 然后 将 网 格 4 作为 一 个 二 维 数组 ， 在 共享 地 址 空 
间 中 ， 用 G MALLOC 调用 获得 〈 见 2.3.4 节 ) 存储 空间 ， 并 将 它 初始 化 。 对 于 那些 没有 动态 
在 堆 上 分 配 空间 的 数据 ， 对 一 个 进程 来 讲 哪些 是 共享 的 、 哪 些 是 私有 的 ， 不 同 的 系统 有 不 同 
的 假设 。 让 我 们 作 如 同 先前 数据 并 行 例子 中 同样 的 假设 。 在 所 有 过 程 外 声明 的 数据 ， 例 如 图 
2-13 里 的 nprocs 和 n 是 共享 的 。 在 过 程 堆栈 上 的 数据 (例如 mymin, mymax, mydiff, 
temp, i, j) 对 于 对 应 于 该 过 程 的 进程 是 私有 的 ， 由 常规 malloc 调用 分 配 的 数据 也 是 私 
有 的 。( 在 有 些 情 形 ， 还 可 能 显 式 说 明 私 有 数据 ， 但 本 程序 没有 这 种 情况 )。 

分 配 了 数据 空间 ， 初 始 化 了 网 格 ， 程 序 就 准备 开始 对 系统 进行 求解 。 它 创建 (nprocs 
-1) 个 “工作 者 ”进程 ， 它 们 在 Solve 过 程 开始 执行 。 主 进程 然后 也 调用 solve HE, 
这 样 所 有 nprocs 进程 并 行进 入 这 个 过 程 ， 它 们 是 平等 的 伙伴 。 所 有 创建 的 进程 执行 相同 的 
代码 映像 ， 直 到 它们 从 程序 出 来 并 终止 。 也 就 是 说 ， 我 们 用 的 是 一 种 结构 化 的 ， 单 程序 多 数 
HE (SPMD) 的 程序 设计 风格 。 但 这 不 意味 着 它们 完全 以 步 步 锁定 的 方式 向 前 推进 ， 或 者 执 
行 同样 的 指令 〈 如 在 单 指令 多 数据 (SIMD) 模型 那样 ) 。 一 般 来 说 ， 它 们 可 能 循 着 不 同 的 控 
制 路 径 在 程序 中 通过 。 在 进程 之 间 的 任务 分 配 以 及 进程 访问 什么 数据 ， 是 通过 几 个 私有 变量 
来 实现 的 ; 对 于 不 同 的 进程 ， 那 些 变量 取 不 同 的 值 (例如 ，rmymin 和 mymax )。 对 循环 控制 
变量 的 处 理 也 是 控制 计算 任务 分 配 的 方式 。 例 如 ， 假 定 每 一 个 进程 在 被 创建 时 会 在 自己 的 私 
有 地 址 空间 自动 地 获得 一 个 在 0 和 nprocs -1 之 间 的 惟一 进程 标识 (ia), MBE AK 
Ñ pid ( 见 14a~ 14b 行 ) 来 确定 分 配给 它 的 行 。 进 程 通 过 调用 同步 原 语 来 进行 同步 ， 下 面 将 
会 马上 讨论 。 





O 通常 ,在 进程 开始 时 用 一 个 调用 来 获得 pido 





译 者 注 
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为 简单 起 见 ， 我 们 假设 内 部 行 的 数目 是 进程 数 nprocs 的 整 倍数 ， 这 样 每 个 进程 所 分 得 
的 行 数 相等 。 每 个 进程 用 它 的 私有 变量 mymin 和 mymax 计算 出 它 所 分 得 数据 块 的 第 一 行 和 
最 后 一 行 的 下 标 。 然 后 进入 实际 求解 方程 的 循环 。 

最 外 层 while 循环 (第 1517) 仍然 是 作用 于 相继 的 网 格 遍 历 之 上 的 。 尽 管 这 个 循环 的 
迭代 是 顺序 进行 的 ， 但 其 中 每 次 兴 代 或 遍历 本 身 可 由 所 有 进程 来 并 行 执 行 。 是 否 要 执行 下 一 
次 遍历 由 每 个 进程 或 控制 线程 分 别 决定 (通过 设置 done 变量 ， 判 断 while (! done) 条 
件 )。 在 这 里 安排 的 是 让 每 一 个 进程 都 做 同样 的 决定 : 这 里 完成 的 元 余 工作 和 在 处 理 器 之 间 
交流 一 个 完成 标志 或 diff 值 相 比 是 很 小 的 。 

完成 实际 数据 更 新 的 代码 (19 ~ 22 行 ) 基本 上 和 串 行 程序 完全 一 样 。 除 了 循环 控制 语句 
的 界 以 外 【〔 它 控制 任务 的 分 配 )， 惟 一 的 区 别 是 每 个 进程 维护 一 个 私有 变量 mydiff 。 如 同 
数据 并 行 的 例子 ， 这 个 私有 变量 记录 分 配给 它 的 格 点 的 新 旧 值 的 总 差别 。 它 在 本 次 遍历 结束 
时 加 到 共享 的 diff 变量 上 ， 而 不 是 让 每 个 点 的 差 值 直接 加 到 上 面 去 。 除 了 在 2.2.1 节 ( 例 
2.1) 讨论 的 串 行 化 和 并 发 性 原因 外 ， 所 有 进程 重复 修改 和 读 同 一 个 共享 变量 还 要 引起 大 量 
昂贵 的 通信 ， 因 此 我 们 不 应 该 让 每 个 格 点 都 这 样 做 。 

在 程序 的 剩 下 部 分 ， 有 意思 的 方面 是 同步 ， 包 括 互 斥 和 事件 同步 。 首 先 ， 不 同 进 程 对 共 
享 变量 的 累加 应 该 是 互 斥 的 。 考 虑 一 个 处 理 器 要 将 它 的 mait 变量 (假定 在 寄存 器 r+ 2 
中 ) 加 到 共享 变量 di ff 上 要 执行 的 指令 序列 ( 即 执行 源 程序 的 语句 diff + = mydiff ): 
将 ditt 装载 到 寄存 器 r+ 1 P; 

将 寄存 器 r2 加 到 rl 上 ; 

将 寄存 器 xl 的 值 存 到 diff 

假设 最 初 变量 diff 的 值 为 0， 每 个 进程 的 mydift 值 是 1。 在 两 个 进程 执行 了 这 段 代 码 
， 我 们 期 望 aiff 的 值 为 2。 然 而， 如 果 这 两 个 进程 以 下 面 的 方式 交叉 地 执行 了 它们 的 操 
它 却 可 能 是 1。 


= HT 


~ 





Pi P, 
ri¢ediff iP, 在 n 中 得 到 值 01 





rl (人 Gift |P, 也 得 到 值 0} 
rlCri + 了 I2 ip 将 口 设 为 1 rlCrl + r2 [P rl HA 1 
aiffCrl |P, 将 1 存储 到 aiff 中 | 


differi PB 也 将 1 存储 到 dite 中 | 
Pe ee EE 


这 并 不 是 我 们 希望 发 生 的 。 这 里 的 问题 在 于 一 个 进程 OA P) 读 一 个 逻辑 上 共享 变 
量 的 aiff 值 ， 发 生 在 另 一 个 进程 (P) 读 Giff 并 将 diff 写 回 之 间 。 为 了 防止 这 种 交叉 的 
操作 ， 我 们 希望 不 同 进程 的 操作 序列 的 执行 相互 具有 原子 性 ( 即 做 到 互 斥 )。 这 样 一 个 要 原 
子 性 执行 的 操作 序列 称 为 是 临界 区 : 一 旦 一 个 进程 开始 执行 其 中 的 第 一 条 指令 ， 任 何其 他 进 
程 都 不 能 执行 其 相应 临界 区 中 的 指令 ， 直 到 前 面 的 进程 完成 了 它 临 界 区 中 的 最 后 一 条 指令 。 
在 第 25b 行 左右 的 LOCK-UNLOCK 对 就 是 要 保证 由 aiff + = mydiff 构成 的 临界 区 的 互 斥 。 

像 Siff_lock 这 样 的 锁 可 以 看 作 是 一 种 共享 的 标记 ， 代 表 一 -个 排 它 的 权利 。 通 过 Lock 
原 语 获得 这 把 锁 给 予 一 个 进程 执行 其 临界 区 的 权利 。 具 有 锁 的 进程 ， 在 完成 了 它 的 临界 区 
后 ， 通 过 执行 UNLOCK 命令 来 释放 它 。 此 时 取决 于 具体 实现 ， 该 锁 就 可 以 被 另外 的 进程 获 
取 ， 或 由 系统 将 它 赋予 某 个 进程 。LOCK 和 UNLOCK 原 语 的 实现 必须 保证 互 斥 的 体现 。 锁 的 
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开销 是 很 大 的 ， 如 果 多 个 进程 试图 在 同一 个 时 间 访 问 一 把 锁 ， 可 能 发 生 竞争 和 串 行 化 。 我 们 
的 LOCK 原 语 用 一 把 锁 的 名 字 作 为 参数 ， 这 样 的 好 处 是 允许 我 们 用 不 同 的 锁 来 保护 不 相关 的 
临界 区 ， 减 少 竞争 和 串 行 化 。 

一 旦 一 个 进程 将 它 的 mydiff 加 到 全 局 的 diff 后 ， 它 就 应 该 等 待 ， 直 到 所 有 其 他 进程 
都 完成 了 这 个 操作 ，diff 的 值 的 确 是 有 关 所 有 各 点 的 总 的 差 值 。 这 就 要 求全 局 的 事件 同步 ， 
这 里 用 BARRIER 实现 。 栅 障 操作 取 机 障 名 和 同步 所 涉及 的 进程 数 为 参数 ， 所 有 进程 都 要 执 
行 。 当 一 个 进程 调用 栅 障 时 ， 它 登记 它 已 到 达 程 序 这 一 点 的 事实 ; 它 将 不 再 推进 ， 直 到 所 有 
进程 都 执行 了 相应 的 栅 障 操作 。 于 是 ，BARRIER (name, p) 的 语义 如 下 : 等 到 所 有 p 个 
进程 都 到 达 此 处 ， 然 后 继续 推进 。 关 于 为 什么 需要 另外 两 个 栅 障 ， 习 题 2.6 给 出 答案 。 

栅 障 通常 用 于 将 程序 中 的 不 同 计算 阶段 分 隔 开 来 。 例 如 ， 在 Bames-Hut 星系 模拟 中 ， 我 
们 在 每 一 时 间 步 结束 更 新 星体 的 位 置 后 ， 在 用 这 些 位 置 做 引力 计算 之 前 插入 一 个 栅 障 ， 在 数 
据 挖 掘 中 ， 我 们 可 以 在 统计 候选 物品 集合 和 用 大 物品 集 来 产生 狭义 候选 表 之 间 用 栅 障 。 由 于 
栅 障 实现 的 是 全 部 对 全 部 事件 同步 ， 它 们 通常 是 一 个 维持 相互 关系 的 保守 方式 ; 通常 ， 并 不 
是 所 有 在 栅 障 后 的 操作 (或 进程 ) 都 需要 等 待 所 有 在 栅 障 前 的 操作 都 完成 后 才能 进行 。 在 进 
程 对 或 组 之 间 更 特定 的 事件 同步 可 使 得 某 些 进程 较 早 地 通过 它们 的 同步 操作 ; 然而 ， 从 程序 
设计 的 观点 来 看 ， 和 根据 实际 的 依赖 关系 在 进程 之 间 用 点 到 点 同步 相 比 ， 用 一 个 栅 障 要 方便 
得 多 。 

当 需 要 点 到 点 同步 的 时 候 ， 在 共享 地 址 空间 实现 的 一 种 方式 是 通过 在 信号 灯 上 做 等 待 和 
发 信号 操作 ， 如 同 在 操作 系统 中 我 们 所 熟悉 的 那样 。 在 并 行程 序 中 更 常用 的 方式 是 用 普通 共 
享 变量 作为 标志 来 进行 事件 同步 ， 如 图 2-14 所 示 。 由 于 P 只 是 简单 的 在 一 个 while 循环 名 
圈子， 等 待 标志 变量 置 1， 使 处 理 器 在 这 个 期 间 忙 ， NK ARH FA (spin waiting) 或 
忙 等 待 〈busy-waiting)。 记 得 在 信号 灯 的 情形 ， 等 待 进程 是 不 原 地 踏步 的 ， 因 此 也 就 不 消耗 
处 理 器 资源 ; 它 将 自己 阻塞 ( 挂 起 ) ， 等 待 另 一 个 进程 给 出 信号 灯 信 和 号 。 

Py P2 
A = 1; 


b: flag = 1; 
a: while (flag is 0) do nothing; 


print A; 





图 2-14 用 标志 变量 实现 点 到 点 事件 同步 。 假 设 我 们 要 做 到 在 进程 P, 到 达 程 序 中 的 某 一 点 5 之 前 ， 
进程 中 不 应 通过 程序 中 的 另 一 点 a。 假 定 变量 flag 和 A 在 进程 到 达 这 种 情况 之 前 都 初始 化 
为 0。 如 果 P, 到 达 语 句 a MP, 已 经 执行 了 5，P, 就 能 够 通过 ao WEP 还 没有 执行 5，P 就 
ARTE while AE, HF) P, AA b 并 将 flag 置 1，P 才能 从 循环 上 出 来 继续 执行 。 如 果 我 们 
假设 P, 的 写 为 P 可见 的 序 和 P, 发 出 它们 的 序 相同 ， 这 种 同步 就 能 保证 P 打印 4 时 的 值 为 1 


在 进程 子 集 的 事件 同步 情形 ， 或 称 组 事件 同步 (group event synchroni zation) ， 一 个 或 多 
个 进程 可 能 要 等 待 某 个 事件 ， 一 个 或 多 个 进程 可 能 通知 它们 该 事件 的 出 现 。 组 事件 同步 的 实 
现 可 用 普通 共享 变量 作为 标志 或 在 进程 子 集 之 间 用 栅 障 。 

返回 图 2-13 的 方程 求解 器 ， 一 旦 某 个 进程 通过 了 栅 障 ， 它 就 读 di ff 的 值 ， 考 察 在 所 有 
格 点 上 的 平均 差 (diff / (nx n)) 是 否 小 于 给 定 误差 范围 ， 来 决定 收 和 剑 性 。 如 果 收 敛 ， 它 
就 置 aone 标 志 ， 从 while 循环 出 去 ; 否则 ， 它 就 继续 下 一 次 遍历 。 
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最 后 ， 在 程序 的 结束 部 分 〈 行 8b) 由 主 进程 调用 的 WAIT_FOR_END 是 一 种 多 对 一 同步 
的 特殊 形式 。 通 过 它 ， 主 进程 等 待 它 所 创建 的 工作 者 进程 的 结束 。 其 他 进程 不 调用 WAIT. 
FOR_END ， 只 是 隐 式 地 参与 这 个 同步 ， 通 过 离开 solve 过 程 《 它 们 进入 程序 的 人 口 点 ) 时 
终止 自己 。 

综合 起 来 ， 对 这 个 简单 的 方程 求解 器 来 说 ， 在 共享 地 址 空间 的 并 行程 序 在 结构 上 和 串 行 
程序 相差 无 几 。 在 控制 流 的 主要 区 别 通过 某 些 循环 控制 变量 的 改变 来 实现 。 其 他 的 差别 在 于 
进程 的 创建 ， 任 务 在 它们 之 间 的 划分 以 及 通过 简单 旦 通用 的 原 语 的 同步 。 计 算 循 环 体 基本 上 
没有 变化 ， 主 要 的 数据 结构 和 对 它们 的 引用 也 没什么 变化 。 给 定 分 解 、 分 配 和 同步 的 策略 ， 
在 这 个 例子 中 ， 插 人 必要 的 原 语 ， 作 必要 的 修改 以 生成 一 个 正确 的 并 行程 序 是 相当 机 械 的 。 
在 分 解 和 分 配 上 的 变化 也 容易 体现 ， 如 例 2.2 所 示 。 尽 管 许多 简单 程序 在 共享 地 址 空间 下 有 
上 述 这 些 易于 并 行 化 的 特点 ， 我 们 在 后 面 将 看 到 ， 如 果 要 追求 更 高 的 并 行 性 能 ， 或 者 是 考虑 
更 复杂 的 并 行程 序 时 ， 在 串 行程 序 上 做 更 实质 性 的 改变 是 需要 的 。 

例 2.2 如 果 我 们 保留 按 行 的 分 解 但 将 行 在 进程 之 间 的 分 配 改 为 循环 交叉 方式 的 ， 同 样 
是 在 共享 地 址 空间 ， 图 2-13 所 示 的 方程 求解 器 程序 应 该 如 何 修改 ? 

解答 : 图 2-15 给 出 了 相关 的 代码 。 所 有 的 变化 只 是 在 第 17 行 的 循环 控制 表达 式 。 同 样 
的 全 局 数据 结构 ， 同 样 的 下 标 引 用 ， 其 他 部 分 保留 原样 。 和 赴 


17. for i © pid+1 to n by nprocs do /*for my interleaved set of rows*/ 
18. for j & 1 ton do /*for all elements in that row*/ 
19. temp = Afi,jl; 

20. Afi,j] = 0.2 * (Ri,jl + A[i,j-1] + Afi-1,j] + 

21. Afi,j+1} + Afi+i1,j]); 

22. mydiff += abs(A{i,j] - temp); 

23. endfor 

24. endfor 


图 2-I5 在 共享 地 址 空间 中 ， 基 于 行 的 求解 器 的 循环 分 配方 案 。 和 图 2.13 所 永 的 块 划 
分 相 比 ， 改 变 的 仅仅 是 第 17 行 的 语句 。 数 据 结构 和 访问 方式 不 需要 有 变化 


2.3.6 在 消息 传递 模型 下 的 协调 


我 们 现在 考察 并 行 求解 器 在 私有 地 址 空间 之 闻 进 行 显 式 消息 传递 的 一 种 实现 ， 分 解 和 分 
配 如 前 不 变 。 由 于 没有 了 共享 地 址 空间 ， 我 们 不 能 简单 地 声明 矩阵 4 是 共享 的 ， 从 而 使 进 
程 能 够 像 在 顺序 程序 那样 引用 它 的 各 个 部 分 。 这 里 ， 逮 辑 数据 结构 4 必须 由 一 组 较 小 的 ， 
属于 不 同 进程 的 数据 结构 来 表示 。 这 些 数据 结构 在 合作 进程 的 私有 地 址 空间 中 进行 存储 分 
配 ， 和 工作 的 分 配 保持 某 种 一 致 性 。 特 别 地 ， 分 配 有 数组 4 中 的 若干 行 的 进程 将 那些 行 作 
为 一 个 数组 分 配 在 自己 的 私有 地 址 空间 中 。 

用 于 消息 传递 程序 设计 的 一 组 简单 原 语 如 表 2-3 所 示 。 图 2- 16 所 示 的 消息 传递 程序 用 
到 了 其 中 一 些 原 语 ， 在 结构 上 很 像 图 2- 13 的 共享 地 址 空间 程序 (在 3.6 节 ， 更 复杂 的 程序 将 进 
一 步 地 揭示 区 别 )。 这 里 ， 也 有 一 个 由 操作 系统 启动 的 主 进程 ， 这 个 主 进 程 创建 rocs _ 1 
个 其 他 进程 和 它 协同 工作 。 我 们 也 假设 每 一 个 创建 的 进程 自动 地 获取 一 个 0 到 nprocs -1 
之 问 的 进程 标识 符 (pia)，CREATE 调用 自动 地 将 程序 的 输入 参数 (n 和 nvrocs ) 传 到 每 
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个 进程 的 地 址 空间 ” 。solve 过 程 的 最 外 层 循环 (第 1517) (REE GREK, 
直到 收敛 ; 在 每 一 次 迭代 ， 一 个 进程 对 分 配给 它 的 行进 行 计算 ， 并 按 需 要 进行 通信 。 这 里 主 
要 的 区 别 在 于 协调 ， 在 于 用 来 表示 逻辑 上 共享 的 矩阵 A 的 数据 结构 ， 在 于 进程 间 的 通信 和 
间 步 是 如 何 实 现 的 。 我 们 将 主要 关注 这 些 差别 。 

R23 ”若干 基本 的 消息 传递 原 语 





原 语 名 称 语 法 功 能 
CREATE CREATE (procedure) 创建 从 procedure 开始 执行 的 进程 
SEND SEND(src_addr, size, 从 src_addr 开始 ， 向 dest 进程 
dest, tag) 发 送 标识 为 tag size FH 
RECEIVE RECEIVE (buffer_addr, 从 src 进程 接收 一 个 标识 为 tag 


size, src, tag) 的 消息 , 将 其 size 个 字 节 放 到 


buffer_addr 开始 的 缓冲 区 中 
SEND_PROBE SEND_PROBE (tag, dest) 检查 标记 为 tag 的 消息 是 否 已 经 送 
给 了 进程 dest (只 用 于 异步 消息 传 
递 ， 其 含义 取决 于 本 章 讨论 的 语义 ) 
RECV_PROBE RECV_PROBE (tag, src) 检查 是 否 已 经 从 src 进程 收 到 标 
记 为 tag 的 消息 (只 用 于 异步 消息 
传递 ， 其 含义 取决 于 语义 ) 
BARRIER BARRIER (name, number) 在 number 个 进程 之 间 做 全 局 同 
步 ， 如果 number 个 进程 没有 到 齐 ， 
任何 一 个 都 不 能 通过 BARRIER 
WAIT_FOR_END WAIT_FOR_END (number) Eff number 个 进程 终止 


应 用 问题 的 数组 规模 是 (n +2) x (n +2), 我们 这 里 不 可 能 将 它 表 示 为 一 个 全 局 数 
组 。 在 消息 通信 程序 中 ， 每 个 进程 在 其 私有 地 址 空间 中 分 配 一 个 大 小 为 (nprocs/n+2) x 
(n +2) 的 数组 myA 。 这 个 数组 表示 所 分 配给 它 的 矩阵 4 的 nprocs/n 行 ,加 上 边界 的 两 
行 ， 以 容纳 从 它 的 相 邻 划分 来 的 边界 数据 (用 于 网 格 点 的 更 新 )。 从 其 邻居 来 的 边界 行 必 须 
和 它 显 式 地 通信 ， 并 拷贝 到 这 些 额 外 的 或 了 朋 影 (ghost) 7, 否则 由 于 不 在 进程 的 空间 中 ， 它 
们 的 元 素 就 不 能 被 直接 引用 。 阴 影 行 的 使 用 在 于 如 果 没 有 它们 ， 通 信 的 数据 就 得 接收 在 特别 
为 此 创建 的 单独 的 有 不 同名 字 的 一 维 数组 中 ， 这 就 使 得 数据 的 引用 不 可 能 像 内 循环 20 ~ 21 
行 那么 简单 。 由 于 被 通信 的 数据 总 是 必须 要 拷贝 到 接收 者 的 私有 地 址 空间 , 通过 将 现 有 数据 
结构 扩大 一 些 ， 而 不 是 分 配 一 个 新 的 ， 会 使 程序 设计 容易 许多 。 

回顾 第 1 章 所 提 到 的 ， 在 一 个 消息 传递 程序 中 ， 通 信和 同步 都 是 基于 两 个 原 语 : SEND 和 
RECEIVE 。 程序 中 引起 数据 传送 的 事件 是 SEND 操作 ， 而 不 像 在 共享 地 址 空间 其 数据 传送 通常 
由 消费 者 或 接收 者 用 read (load) 指令 引起 。 当 一 个 消息 到 达 了 目的 处 理 器 ， 它 要 么 保存 在 网 
络 队列 里 或 者 暂时 存放 在 一 个 系统 缓冲 区 中 ， 直 到 运行 在 目的 处 理 器 上 的 一 个 进程 给 出 一 个 对 
应 的 RECEIVE 。 通 过 这 个 RECEIVE ， 进 程 将 在 网 络 队列 里 或 系统 缓冲 区 中 的 消息 读 入 它 自己 
私有 (应 用 ) 地 址 空间 的 某 个 特定 部 分 。RECEIVE 自己 不 引起 任何 跨越 网 络 的 数据 传送 。 





O ”另外 一 种 做 法 是 用 所 谓 “ 无 主机 ”模型 ， 没 有 一 个 主要 的 进程 。 所 用 的 进程 数 在 程序 启动 时 告诉 给 系统 。 系 统 
然后 启动 相应 数量 的 进程 ， 将 代码 分 发 到 相应 的 处 理 节点 。 在 程序 中 用 不 着 CREATE 原 语 ; 每 个 进程 各 自 读 程 
序 的 输入 (nM nproc), 但 它们 仍然 要 获得 惟一 的 用 户 级 标识 号 。 
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1. intpid, n, nprocs; /*process id, matrix dimension and number of 
processors to be used*/ 


2 float **myA; 

3. main() 

4. begin 

5. read(n); read(nprocs);  /*read input matrix size and number of processes*/ 
8a. CREATE (nprocs-1, Solve); 

8b. Solve(); /*main process becomes a worker too*/ 

8c. WAIT_FOR_END (nprocs-1); /*wait for all child processes created to terminate*/ 
9. end main 


10. procedure Solve() 


11. begin 
13. int i,j, pid, n’ = n/nprocs, done = 0; 
14. float temp, tempdiff, mydiff = 0; /*private variables * / 


6. myA ¢ malloc(a 2-d array of size [n/nprocs + 2] by n+2); 
/*my assigned rows of A*/ 
7. initialize (mya); /*initialize my rows of A, in an unspecified way */ 


15. while (!done) do 
16. mydiff = 0; /*set local diff to 0*/ 
l6a. if (pid != 0) then SEND (&myA[1,0],n*sizeof (float) ,pid-1,ROW); 
16b. if (pid = nprocs-1) then 
SEND (&myaA[n',0],n*sizeof (float) ,pid+1, ROW); 
16c. if (pid !=0) then RECEIVE(&myA[0,0] Nn*sizeof (float) ,pid~1,ROW) 
16d. if (pid !=nprocs-1) then 
RECEIVE (&myA(n‘+1,0],n*sizeof (float), pid+1, ROW); 
/*border rows of neighbors have now been copied 
into myA[0,*] and myA[n‘ +1,*]*/ 


r 


17. fori © 1 ton’ do /*for each of my (nonghost) rows*/ 

18. for j © 1 ton do /*for all nonborder elements in that row*/ 
19. temp = myA[i, j]; 

20. myA(i,j] = 0.2 * (myA[i,j] + myA[i,j-1] + myA[i-1,j] + 
21. myA[i,j+i) + myA[i+1,j]); 

22. mydiff += abs (myA[i,j] - temp); 

23. endfor 

24. endfor 


/*communicate local diff values and determine if 
done; can be replaced by reduction and broadcast*/ 


25a. if (pid != 0) then /*process 0 holds global total diff*/ 
25b. SEND (mydiff,sizeof (float) ,0,DIFF); 

25c. RECEIVE(done, sizeof (int) ,0,DONE); 

25d. else /*pid 0 does this*/ 

25e. for i + 1 to nprocs-1 do /*for each other process*/ 

25f . RECEIVE (tempdiff,sizeof (float),*,DIFF); 


图 2-16 用 显 式 消息 传递 方式 描述 并 行 方程 求解 器 的 伪 码 。 现 在 ， 数据 结构 和 它们 下 标的 变化 在 并 行 代码 
中 有 所 体现 。 每 个 进程 有 它 自己 的 myA 数据 结构 ， 表 示 分 给 它 的 网 格 部 分 ， 不 同 进程 对 myA [i, 
j) 的 引用 指 的 是 逻辑 上 全 局 网 格 的 不 同 部 分 。 通 信 发 生 在 16a ~ 16d 和 25a ~ 25f 行 。 由 于 同步 隐 含 
在 send/receive 原 语 中 ， 不 再 需要 栅 障 和 锁 。 还 有 几 行 代码 用 来 协调 用 简单 发 送 和 接收 实现 的 通信 





25g. my@iff += tempdiff; /*accumulate into total*/ 
25h. endfor 

25i if (mydiff/(n*n) < TOL) then done = 1; 

25j. for i & 1 to nprocs-1 do /*for each other process*/ 
25k. SEND(done, sizeof (int) ,i, DONE) ; 

251. endfor 


25m. endif 
26. endwhile 
27. end procedure 


图 2-16 ( 续 ) 


用 在 这 个 例子 程序 中 的 SEND 和 RECEIVE 原 语 ， 假 设 了 被 传送 的 数据 是 在 虚拟 地 址 空 
间 的 一 个 连续 的 区 域 上 。 在 我 们 简单 的 SEND 调用 中 的 参数 是 : 被 发 送 数据 在 发 送 进程 的 私 
有 地 址 空间 里 的 起 始 地 址 ; 消息 的 大 小 〈 字 节 数 ); 目的 进程 的 pia (不 同 于 在 共享 地 址 空 
闻 的 情形 ， 我 们 现在 必须 要 能 够 显 式 命名 进程 ); 还 有 一 个 可 选 的 和 消息 关联 的 标记 或 类 型 ， 
用 于 在 接收 方 匹 配 。RECEIVE 调用 的 参数 是 一 个 局 部 地 址 ， 从 那里 开始 放置 收 到 的 数据 ; 消 
息 的 大 小 ; 发 送 者 的 pia ; 以 及 可 选 的 消息 标记 或 类 型 。 所 指定 的 发 送 者 pia 和 消息 标记 ， 
如 果 出 现 ， 被 用 来 和 已 经 接收 到 系统 缓冲 区 的 消息 进行 匹配 ， 看 哪 一 个 和 要 接收 的 对 应 。 这 
样 的 参数 可 以 是 通 配 的 ， 可 以 和 来 自 于 任何 源 进程 或 任何 消息 标记 匹配 。sEND 和 RECEIVE 
原 语 通常 在 一 个 针对 特别 的 体系 结构 的 库 中 实现 ， 如 共享 地 址 空间 的 BARRIER 和 LOCK 那 
样 。 常 用 于 实际 程序 的 消息 传递 原 语 是 称 为 消息 传递 接口 标准 的 一 部 分 。 消 息 传 递 接口 简称 
为 MPI (不 同 层次 的 描述 见 Pacheco 1996; MPI Forum 1993; Gropp, Lusk, Skjellum 1994)。 一 个 
重要 的 扩充 是 存储 器 非 连 续 区 域 的 传送 ， 无 论 是 含有 规则 的 跨 距 (例如 在 地 址 a。 和 b 之 间 的 
每 第 10 个 字 或 每 隔 6 个 字 取 4 个 字 ) ， 还 是 用 索引 向 量 来 说 明 非 结 构 化 的 地 址 ， 从 中 在 发 送 
方 收集 数据 或 在 接收 方 分 布 数据 。 另 一 个 进步 是 说 明 消息 匹配 标记 的 灵活 性 程度 的 提高 ， 以 
及 潜在 的 匹配 复杂 性 。 例 如 ， 进 程 可 能 被 分 为 组 ， 只 在 组 内 进行 某 种 类 型 的 消息 通信 ， 集 体 
通信 操作 可 以 用 如 下 描述 的 方式 提供 。 

从 语义 上 讲 ， 在 我 们 程序 中 能 用 的 最 简单 形式 的 SEND 和 RECEIVE 是 所 谓 同步 形式 。 
一 个 同步 的 SEND 操作 把 控制 返回 到 调用 进程 ， 仅 当 对 应 的 RECEIVE 已 经 完成 了 。 一 个 同 
PH) RECEIVE 返回 控制 ， 仅 当 数据 已 经 收 到 了 目的 进程 的 地 址 空间 中 。 用 同步 消息 ， 我 们 
在 16a ~ 16d 行 的 通信 实现 实际 上 是 死 锁 的 。 所 有 进程 首先 发 出 它们 的 SEND ， 然 后 停 下 来 等 
对 应 的 接收 被 执行 ， 因 此 谁 也 不 会 开始 真正 执行 它们 的 RECEIVE ! 一 般 来 说 ， 如 果 我 们 不 
小 心 的 话 ， 同 步 消 息 在 成 对 交换 数据 的 情形 下 很 容易 死 锁 。 避 免 这 个 问题 的 一 种 方式 是 让 一 
些 进程 先 做 SEND ， 后 做 RECEIVE; 而 让 另 一 些 进 程 先 做 RECEIVE, GA SEND 。 另 外 的 
方式 是 用 含有 不 同 语义 的 发 送 和 接受 原 语 ， 后 面 将 简要 地 讨论 。 

在 每 次 迭代 开始 时 ， 所 有 的 通信 是 一 次 完成 的 ， 而 不 像 在 共享 地 址 空间 的 情形 ， 通 信 的 
单位 是 网 格 点 。 这 里 也 可 以 一 个 网 格 点 一 个 网 格 点 地 通信 ， 但 发 送 和 接收 操作 的 开销 通常 太 
大 ， 这 样 做 很 不 合理 。 作 为 结果 ， 不 同 于 共享 空间 的 版 本 ， 消 息 传递 程序 是 确定 性 的 。 尽 管 
一 个 进程 更 新 其 边界 行 时 它 的 邻居 正在 同一 次 遍历 中 计算 ， 由 于 它们 不 在 其 地 址 空间 邻居 不 
会 看 到 当前 遍历 中 的 更 新 。 因 此 ， 一 个 进程 所 看 到 的 邻居 边界 行 是 上 一 次 遍历 结束 时 的 值 。 
按照 我 们 前 面 的 讨论 ( 红 - 黑 序 在 这 里 会 特别 有 用 ) ， 这 可 能 需要 较 多 的 遍历 才能 收敛 。 
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一 旦 一 个 进程 将 它 邻居 的 边界 行 收 到 它 的 阴影 行 ， 它 就 可 以 更 新 分 配给 它 的 格 点 ， 用 的 
代码 几乎 和 顺序 程序 和 共享 存储 程序 完全 一 样 。( 尽 管 我 们 用 不 同 的 名 字 mya 来 表示 进程 的 
局 部 数组 ， 不 同 于 顺序 和 共享 地 址 空间 程序 的 入， 这 只 是 为 了 将 它 和 逻辑 上 共享 的 网 格 A 
区 别 开 来 ，A 在 此 只 是 概念 上 的 ; 我 们 完全 可 以 就 用 A 来 作为 它 的 名 字 ) 循环 的 边界 是 不 同 
的 ， 每 个 进程 都 是 从 1 到 nprocs/n (在 代码 中 由 n 代替 )， 而 不 是 像 硕 序 程序 中 的 从 0 到 
n- 1 或 者 共享 地 址 空间 程序 中 的 mymin 到 mymax 。 实 际 上 ， 用 来 引用 mya 的 下 标 是 局 部 下 
标 ; 如 果 整 个 混 辑 共享 的 网 格 A 要 作为 一 个 共享 数组 引用 的 话 ， 则 必须 用 全 局 下 标 。 例 如 ， 
引用 mya [1, 1] 对 不 同 的 进程 来 说 指 的 是 逻辑 共享 网 格 A 的 不 同 元 素 - 。 在 要 用 到 全 局 索 
引 的 场合 ， 使 用 局 部 索引 空间 有 时 可 能 会 显得 费解 ， 如 习题 2.7 所 示 。 

和 共享 地 址 空间 相 比 ， 这 里 的 同步 和 它 相 当 不 同 ， 包 括 将 私有 myaiff 变量 累加 到 逻辑 
上 共享 的 diff 变量 上 ， 以 及 随后 的 done 条 件 的 判断 。 假 设 我 们 用 简单 的 同步 发 送 和 接收 ， 
阻塞 进程 直到 操作 完成 ，send/receive 匹配 包含 有 一 个 同步 事件 ,不 需要 什么 特别 的 操作 UR 
锁 和 栅 障 ) 或 附加 变量 来 实现 同步 。 对 于 互 斥 来 说 ,逻辑 上 共享 的 aiff 变量 必须 分 配 在 某 
个 进程 的 私有 地 址 空间 (这 里 是 进程 0) 。 这 个 进程 的 标识 必须 为 所 有 其 他 进程 所 知 。 每 个 进 
程 将 它 的 mydiff 值 送 给 进程 0， 它 将 mwraiff 值 加 到 逻辑 上 共享 的 aiff 中 。 由 于 只 有 进程 
0 能 够 处 理 这 个 逻辑 上 共享 的 变量 ， 互 斥 和 序列 化 自然 发 生 ， 不 需要 用 锁 。 事 实 上 上 ， 进程 0 
可 以 就 用 它 自己 的 myaiff 变量 作为 全 局 的 diff ， 将 其 他 进程 送 来 的 myaiff 加 到 其 上 。 

现在 考虑 用 来 确定 done 条 件 的 全 局 事件 同步 。 一 旦 进程 0 收 到 了 所 有 其 他 进程 的 
myaiff 值 并 将 它们 累加 了 起 来 ， 它 就 测试 done 条 件 ， 然 后 将 done 变量 送 给 所 有 其 他 进 
程 ， 它 们 正 用 receive 调用 等 着 它 。 这 里 不 需要 有 一 个 概 障 ， 因 为 同步 接收 的 完成 隐 含 着 进 
程 0 已 经 送出 了 done 结果 ， 因 此 所 有 进程 的 mydiff 都 已 被 累加 起 来 了 。 所 有 进程 这 时 就 
可 以 局 部 地 测试 done 和 条件， 来 决定 是 否 进行 下 一 次 遍历 。 当 然 ， 如 果 对 程序 设计 更 方便 的 
话 ， 我 们 也 可 以 用 消息 来 实现 锁 和 栅 障 ， 尽 管 那 意味 着 请 求 - 回答 通信 而 因此 会 有 较 多 的 消 
息 往 返 。 后 面 我 们 也 会 看 到 ， 比 我 们 在 此 用 的 同步 型 更 复杂 的 send/receive 语义 可 能 要 求 除 
消息 本 身 以 外 的 附加 同步 。 

注意 ， 当 用 点 到 点 发 送 和 接收 作为 通信 操作 时 ， 用 于 累加 和 结束 条 件 判定 的 代码 已 经 扩 
展 到 了 好 几 行 。 在 实践 上 ， 程 序 设计 环境 常会 为 程序 员 提供 库 函 数 ， 如 REDUCE (将 多 个 进 
程 中 的 私有 变量 累加 到 某 个 进程 的 单个 变量 中 ) 和 BROADCAST (从 一 个 进程 向 所 有 其 他 进程 
发 送 )， 在 进程 中 直接 用 它们 能 简化 这 些 典 型 情况 下 的 代码 。 用 这 些 函 数 ， 图 2-16 中 的 
25a ~ 25m 行 能 由 图 2-17 PHYS 行 代 苦 。 系 统 可 能 提供 特别 的 支持 ， 来 改善 这 些 以 及 其 他 一 
些 集 体 通 信 操 作 的 性 能 (例如 一 对 多 、 多 对 多 以 及 所 有 对 所 有 进程 的 通信 )。 例 如 ， 这 种 支 
持 可 能 是 将 发 送 方 的 开销 减少 到 只 有 一 条 消息 。 有 时 ， 这 些 操作 可 能 就 是 在 用 户 级 别 的 库 
中 ， 建 立 在 通常 的 点 对 点 发 送 和 接收 上 ， 从 而 提供 程序 设计 的 方便 。 

最 后 ， 我 们 前 面 提 过 ， 不 同 的 SEND 和 RCCEIVE 操作 版 本 有 不 同 的 语义 ， 我 们 可 以 用 
它们 来 解决 前 面 的 死 锁 问 题 。 让 我 们 进一步 考察 这 一 点 。 这 里 的 主要 区 别 在 于 它们 的 完成 语 
义 一 一 即 ， 何 时 将 控制 返回 到 调用 发 送 或 接收 的 用 户 进程 。 这 些 语义 影响 操作 所 用 到 的 数据 
结 梅 或 者 缓冲 区 何 时 能 被 重用 ， 而 不 影响 正确 性 。 两 种 主要 的 SEND/RECEIVE 是 同步 和 异 








O SEY row ， 有 误 。 -一 一 译 者 注 


BIE #47 BF 83 





步 的 ; 异步 又 分 两 种 : 阻塞 和 非 阻塞 。 让 我 们 考察 这 些 情况 ， 看 它们 如 何 用 在 我 们 的 程序 中 。 
同步 的 SEND 和 RECEIVE 是 我 们 以 前 所 假定 的 ， 因 为 对 程序 员 来 说 它们 的 语义 最 简单 。 

同步 的 SEND 把 控制 返回 到 调用 进程 ， 仅 当 在 目的 端的 相应 同步 RECEIVE 已 经 成 功 完成 且 向 

发 送 者 发 送 一 个 确认 。 如 果 没 收 到 这 个 确认 ， 发 送 进程 就 不 能 执行 SEND 后 面 的 任何 代码 。 收 

到 确认 消息 ， 意 味 着 接收 者 已 经 从 系统 缓冲 区 将 整个 消息 取 到 了 应 用 空间 。 这 样 ，SEND 的 完 

成 保证 了 《如 果 没 有 硬件 错误 ) 消息 已 被 成 功 接收 ， 所 有 相关 的 数据 结构 和 缓冲 区 能 被 重用 。 

/*communicate local diff values and determine if done, using reduction and broadcast */ 

25b. REDUCE(0,mydiff,sizeof (float) ,ADD): 

25c. if (pid == 0) then 

25i. if (mydiff/(n*n) < TOL) then done = 1; 

25k. endif 

25m. BROADCAST(0,done,sizeof(int),DONE); 


图 2-17 用 REDUCE Ħ BROADCAST 实现 的 累加 和 收敛 测试 。REDUCE 函数 的 第 一 个 参数 是 目的 进程 。 在 
REDUCE 的 实现 中 ， 所 有 其 他 进程 要 对 这 个 进程 做 一 个 发 送 操作 ， 这 个 进程 进行 接收 操作 。 下 一 
个 参数 是 要 被 归 约 的 私有 变量 (所 有 进程 都 有 ) ， 同 时 也 是 归 约 结果 变量 【对 目的 进程 来 说 )， 第 
三 个 参数 是 这 个 变量 所 占 的 存储 空间 。 最 后 一 个 变量 是 在 归 约 中 在 这 些 变量 上 要 实现 的 函数 ， 类 
似 地 ，BROADCAST 的 第 一 个 参数 是 发 送 进程 标识 符 ， 这 个 进程 进行 发 送 操作 ， 其 他 进程 进行 接 
收 操作 。 第 二 个 参数 是 要 广播 和 接收 的 变量 ， 第 三 个 是 其 大 小 。 最 后 一 个 是 可 选 的 消息 类 型 
阻塞 异步 (或 者 就 称 为 阻塞 ) SEND ， 把 控制 返回 到 调用 进程 时 消息 已 经 从 发 送 应 用 程 
序 的 源 数据 结构 中 取 走 ， 因 此 已 在 系统 的 管理 之 下 。 这 意味 着 当 控制 返回 时 ， 发 送 进程 能 
修改 源 数据 结构 而 不 会 影响 消息 。 和 同步 SEND 相 比 , 这 人 允许 发 送 进 程 更 早 地 向 前 推进 ， 但 
控制 的 返回 不 保证 消息 已 被 或 者 将 被 送 到 适当 的 进程 。 要 得 到 这 样 的 保证 需要 进程 之 间 额 
外 的 握手 。 阻 塞 的 异步 RECEIVE 和 同步 的 RECEIVE 类 似 ， 返 回 时 消息 已 经 到 了 应 用 程序 
的 地 址 空间 。 一 旦 返回 ， 应 用 程序 就 能 立即 使 用 缓冲 区 中 的 数据 。 不 同 的 是 ， 阻 塞 RE- 
CEIVE 不 向 发 送 者 发 送 确认 。 
BRAD (或 简单 地 称 为 非 阻塞 的 ) SEND 和 RECEIVE 允许 计算 和 消息 传递 之 间 最 
大 的 重要 ， 它 返回 调用 进程 最 快 。 非 阻塞 SEND 立即 返回 控制 。 非 阻塞 RECEIVE 在 简单 地 
表达 了 接收 意图 后 返回 控制 ; 消息 的 实际 接收 和 在 应 用 程序 数据 结构 中 的 放置 ， 在 不 确定 
的 时 间 由 系统 基于 提出 的 接受 要 求 异 步 完成 。 然 而 ， 在 非 阻塞 SEND 和 RECEIVE 中 ， 控 制 
的 返回 不 意味 着 任何 事情 ， 无 论 是 消息 的 状态 ， 还 是 它 所 用 的 应 用 程序 的 数据 结构 都 不 清 
楚 ， 因 此 当 需 要 的 时 候 用 户 有 责任 来 确定 那些 状态 。 系 统 常常 提供 单独 的 原 语 用 来 查询 这 
些 状态 。 这 样 ， 非 阻塞 消息 典型 地 以 两 段 式 来 使 用 : 首先 ，SEND/RECEIVE 操作 本 身 ， 然 
后 在 需要 的 时 候 进行 检测 。 这 样 的 检测 (必须 由 消息 传递 库 提 供 )， 可 能 阻塞 直到 所 盼望 的 
状态 出 现 ; 还 可 能 立即 返回 并 报告 所 查 到 的 状态 。 
选择 哪 一 种 语义 的 SEND/RECEIVE 取决 于 程序 要 如 何 使 用 它 的 数据 结构 ， 我 们 通常 是 
在 程序 设计 的 容易 程度 、 程 序 的 可 移植 性 以 及 性 能 之 间 权 衡 。 因 为 仅 有 私有 地 址 空间 ， 互 
斥 自然 不 需要 了 ， 这 些 语 义 主要 影响 事件 的 同步 。 在 方程 求解 器 例子 中 ， 用 异步 的 SEND 
和 阻塞 异步 的 RECEIVE 将 能 避免 死 锁 ， 因 为 此 时 进程 能 够 越过 SEND ， 到 达 RECEIVE 。 然 
而 ， 如 果 用 非 阻塞 的 异步 RECEIVE ， 在 实际 用 其 所 指定 的 数据 结构 之 前 ， 我 们 就 得 做 检 
测 。 注 意 阻 塞 的 SEND/RECEIVE 等 价 于 非 阻塞 的 SEND/RECEIVE ， 紧 跟着 一 个 阻塞 的 检测 。 
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为 了 更 好 地 体会 共享 地 址 空间 和 消息 传递 程序 设计 模型 的 区 别 ， 通 过 一 个 练习 来 将 这 
个 方程 求解 器 的 消息 传递 版 本 改写 成 循环 分 配 数 组 的 版 本 将 是 有 教 益 的 ， 如 同 我 们 在 例 2.2 
对 共享 地 址 空间 版 本 所 做 的 那样 。 在 这 种 情形 要 考察 的 要 点 有 是， 尽管 两 个 消息 传递 版 本 表 
面 上 看 起 来 相似 ，mya 数据 结构 的 含义 将 完全 不 同 。 在 一 种 情形 下 它 是 这 个 全 局 数组 的 一 
个 连续 的 部 分 ， 另 一 种 情形 下 它 是 一 组 分 开 的 行 。 只 有 通过 对 数据 结构 和 通信 模式 仔细 的 
审视 ， 你 才能 确定 一 个 给 定 的 消息 传递 版 本 是 如 何 对 应 于 原始 的 顺序 程序 或 者 它 的 共享 地 
址 空间 对 应 版 本 的 。 


2.4 结论 


将 一 个 顺序 应 用 程序 并 行 化 的 过 程 是 相当 有 条 理 的 : 我 们 将 程序 要 做 的 工作 分 解 为 任 
务 ; 将 这 些 任务 分 配给 进程 ; 协调 数据 访问 、 通 信和 进程 之 间 的 同步 ， 可 能 还 要 将 进程 映 
射 到 处 理 器 上 。 对 许多 应 用 来 说 ， 包 括 本 章 所 用 的 简单 方程 求解 程序 ， 最 初 的 分 解 和 分 配 
都 是 类 似 ， 甚 至 是 完全 一 样 的 ， 因 此 与 采用 共享 地 址 空间 还 是 消息 传递 程序 设计 模型 是 无 
关 的 。 区 别 是 在 协调 部 分 ， 尤 其 是 数据 结构 的 组 织 和 访问 的 方式 以 及 通信 和 同步 的 实现 方 
式 。 共 享 地 址 空间 使 我 们 用 和 串 行程 序 同 样 的 数据 结构 ， 也 可 以 产生 正确 的 并 行程 序 。 通 
信和 隐 含 在 数据 访问 中 ， 至 少 从 正确 性 的 保证 来 考虑 ， 数 据 划分 是 不 需要 的 。 在 消息 通信 的 
情形 ,我们 必须 从 每 个 进程 的 私有 数据 结构 来 同步 逻辑 上 共享 的 数据 结构 。 通 信和 是 显 式 的 ， 
在 进程 的 私有 地 址 空间 中 需要 进行 数据 的 显 式 划分 ， 进 程 必须 能 够 相互 用 名 字 来 通信 。 另 
一 方面 ， 共 享 地 址 空间 程序 要 求 有 附加 的 同步 原 语 (不 同 于 读 和 写 ) 来 完成 隐 式 通信 ; 在 
许多 消息 传递 系统 中 ， 同 步 功能 包含 在 显 式 的 发 送 和 接收 操作 中 。 随 着 我 们 考察 更 复杂 的 
应 用 程序 的 并 行 化 ， 例 如 本 章 介绍 的 4 种 案例 ， 我 们 将 理解 这 些 区 别 对 于 程序 设计 的 难 易 
程度 以 及 由 对 高 性 能 的 追求 所 带 来 的 各 种 考虑 的 影响 。 

这 个 简单 的 方程 求解 程序 的 若干 并 行 版 本 在 这 里 用 来 解释 程序 设计 的 原 语 。 尽 管 这 些 
版 本 的 性 能 不 会 十 分 差 〈 例 如 ， 我 们 用 块 划分 ， 而 不 是 用 循环 划分 行 来 降低 通信 ; 通过 首 
先 累加 到 局 部 的 myai fts ， 然 后 再 到 全 局 的 diff ， 大 大 地 降低 了 通信 和 同步 )， 程 序 仍 有 
改进 的 潜力 。 在 下 一 章 ， 我 们 将 注意 力 转移 到 并 行程 序 的 性 能 问题 ， 将 看 到 如 何 进 行 改进 
并 看 到 所 采取 的 改进 方法 会 如 何 影响 加 到 体系 结构 上 的 工作 负载 。 


习题 


2.1 举 出 两 个 例子 ， 说 明 好 的 并 行 算 法 并 不 一 定 基 于 最 好 的 串 行 算法 ， 因为 最 好 的 串 行 算 
法 体现 不 出 足够 的 并 行 性 。 

2.2 在 我 们 所 讨论 的 4 个 案例 中 (Ocean、Bames-Hut、 Raytrace, Data Mining) ， 哪 些 你 认为 
更 适合 进行 数据 分 解 ， 从 而 在 并 行 化 中 使 用 拥有 者 计算 原则 而 不 是 计算 分 解 ” 如 果 在 
其 他 情况 下 用 严格 的 数据 划分 和 拥有 者 计算 原则 ， 你 认为 问题 出 在 哪里 ? 

2.3 在 共享 存储 空间 , 有 两 种 主要 的 模型 规范 父子 进程 是 如 何 相 关联 的 。 重量 级 的 称 为 进 
程 模型 ， 当 一 个 进程 创建 其 他 进程 时 ， 子 进程 得 到 父 进 程 映像 的 一 个 拷贝 ， 即 ， 如 果 
父 进程 分 配 了 一 个 变量 +， 那么 子 进 程 在 它 的 地 址 空间 也 有 变量 x, 它 初始 化 为 父 进 
程 创建 子 进程 时 的 值 。 然 而 ， 任 何 一 个 进程 对 它 自己 的 x EM 的 修改 只 有 自己 所 见 。 
在 轻 量 级 的 线程 模型 中 ， 子 进程 或 线程 得 到 对 父 进程 映像 的 指针 ， 于 是 子 进 程 和 父 进 
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2.4 


2.5 


2.6 


2.7 


程 看 到 的 是 相同 的 存储 单元 。 在 这 种 模型 下 ， 除 了 在 过 程 栈 上 的 以 外 ， 由 任何 进程 或 

线程 分 配 的 所 有 数据 都 是 共享 的 。 

1) 考虑 一 个 进程 要 在 程序 的 不 同 部 分 访问 它 的 进程 标识 数 pid ， 特 别 考 虑 在 它 调用 
的 子 程序 中 的 引用 〈 在 调用 链 中 ) 。 用 第 一 种 模型 ， 你 打算 如 何 实现 这 一 要 求 ? 你 
需要 用 进程 的 私有 数据 ， 还 是 完全 用 全 局 共享 数据 ? 

2) 用 前 一 种 模型 (进程 ) 写 的 程序 可 能 依赖 于 这 样 的 事实 : 子 进 程 得 到 父 进 程 数据 
结构 的 一 个 私有 拷贝 。 你 要 做 什么 样 的 改变 来 把 此 程序 移植 到 后 一 种 (线程 ) 模 
型 ， 其 进程 在 创建 子 进程 后 i) 只 读数 据 结构 i) 既 读 还 写 ? 

经 典 的 有 限 缓冲 问题 是 点 到 点 事件 同步 的 一 个 范例 。 两 个 进程 通过 一 个 有 限 缓冲 区 通 

信 。 当 缓 冲 区 没 满 时 ， 一 个 进程 、 生 产 者 将 数据 项 加 到 缓冲 区 ; 当 缓 冲 区 非 空 时 ， 消 

费 者 从 缓冲 区 读数 据 。 如 果 消 费 者 发 现 缓冲 区 空 ， 它 就 必须 等 待 生产 者 插入 数据 项 。 

当 生 产 者 准备 插入 一 个 数据 项 时 , 它 检查 缓冲 区 是 否 满 ; 若 满 ， 它 就 要 等 消费 者 从 中 

取 走 一 些 项 。 如 果 缓 冲 区 空 , 生产 者 要 加 一 项 , 那么 取决 于 实现 情况 ; 消费 者 可 能 正 

等 通知 , 因此 生产 者 要 通知 它 。 你 能 仅 用 点 到 点 事件 同步 实现 有 限 缓 冲 区 吗 ?或 也 需 

要 用 互 斥 ? 设计 一 个 实现 , 包括 伪 代 码 。 

对 于 单 处 理 器 操作 系统 ,你 是 用 在 一 个 标志 上 踏步 等 待 , 还 是 用 进程 阻塞 来 做 进程 间 

同步 ? 在 多 处 理 器 情形 , 你 怎么 考虑 阻塞 和 踏步 等 待 之 间 的 权衡 ? 

在 共享 存储 空间 版 本 的 并 行 方程 求解 程序 中 (如 图 2-13 所 示 ) ， 我 们 在 一 次 while 循环 

迭 带 中 为 什么 需要 第 一 个 和 第 三 个 栅 障 (16a 行 和 25f 行 )? 你 能 去 掉 它 们 而 不 加 入 任 

何其 他 同步 吗 ， 也 许 当 做 某 些 操作 时 需要 做 些 改动 ” 考虑 所 有 可 能 的 情况 。 

高 斯 消 元 法 是 一 种 求解 联 立 线性 方程 组 的 著名 技术 。 变 量 一 个 一 个 地 消去 ， 直 到 剩 下 

一 个 变量 ， 然 后 回 带 得 到 所 有 变量 的 值 。 在 实践 中 , 将 方程 组 的 未 知 数 的 系数 表达 成 

一 个 矩阵 4， 首 先 将 这 个 矩阵 转换 成 一 个 上 三 角 阵 (在 主 对 角 线 下 的 所 有 元 素 均 为 

零 )， 然 后 用 回 带 。 通 过 相继 的 变量 消 元 将 矩阵 4 转换 成 上 三 角 阵 。 串 行 高 斯 消 元 法 

的 伪 代 码 如 图 2-18 所 示 。 上 循环 的 对 角 线 元 素 称 为 主 元 ， 它 所 在 的 行 称 为 主 元 行 。 


procedure Eliminate (A) /*triangularize the matrix A*/ 
begin 
for k e 0 to n-1 do /*loop over all diagonal (pivot) elements*/ 


begin 
for j e k+l to n-1 do /*for all elements in the row of, and to the right of, 
the pivot element*/ 


Ay, j = hkj / Akp)? /*divide by pivot element*/ 
Ay,k = l; 
for i © k+l to n-1 do /*for all rows below the pivot row*/ 


for j € k+l to n-1 do /*forall elements in the row*/ 
Ai j = A,j T Aik" Angi 
endfor 
Aik = 0; 
endfor 
endfor 


end procedure 


图 2-18 描述 串 行 高 斯 消 元 法 的 伪 代 码 
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1) 画 一 个 简单 的 图 ,解释 矩阵 元 素 之 间 的 依赖 关系 。 

2) 假设 一 个 按 行 的 分 解 和 按 连续 行 块 的 分 配 , 写 一 个 共享 存储 的 并 行 版 本 ， 用 本 章 方 
程 求解 器 所 用 的 原 语 。 

3) 对 相同 的 分 解 和 分 配 ， 写 一 个 消息 传递 版 本 ; 先 用 同步 的 消息 传递 ， 再 用 任何 一 
种 异步 消息 传递 。 

4) 你 能 发 现 这 种 划分 带 来 的 明显 性 能 问题 吗 ? (我 们 将 在 下 一 章 进一步 讨论 ) 

5) 修改 共享 存储 和 消息 传递 版 本 ， 用 行 循环 的 分 配方 式 。 

6) 讨论 共享 存储 和 消息 传递 版 本 在 程序 设计 方面 的 权衡 (编程 的 容易 性 和 可 能 的 主要 
性 能 差别 ) 。 

2.8 假设 一 个 支持 共享 地 址 空间 的 系统 不 支持 概 障 , 但 只 支持 信号 灯 。 即 使 全 局 事件 同步 
也 得 通过 信号 灯 或 普通 标志 来 构成 。 信 号 灯 的 使 用 可 作 如 下 考虑 。 假设 进程 P 要 向 进 
程 P 指出 (用 信号 灯 ) P 已 经 到 达 程序 的 上 点， 因此 P 可 以 推进 通过 a 点 (CEE 
那里 等 待 )。P, 到 达 a 点 后 在 一 个 信号 灯 上 做 一 个 等 待 操作 (也 称 为 P 操作 或 down 
操作 )，P 到 达 b 点 后 在 同样 的 信号 灯 上 发 一 个 信号 (做 一 个 V 操 作 或 者 up 操作 )。 
如 果 P, Æ P, BA b 前 到 达 a, CMH HACHEREZ, SHRP, WSR, 

118 D 在 共享 存储 的 并 行 高 斯 消 元 法 中 ， 你 会 怎么 设计 同步 ， 针 对 i) 用 标记 i) 用 信号 
AT ACHE? 你 能 用 点 对 点 或 组 事件 同步 ， 而 不 用 全 局 事件 同步 吗 ? 
2) 对 方程 求解 器 例子 回答 同样 的 问题 。 

2.9 在 我 们 所 讨论 的 这 种 直接 的 ， 基 于 循环 的 并 行 化 高 斯 消 元 法 中 ， 并 行 性 仅 在 最 外 层 、 
循环 选 代 里 得 到 开发 。 由 于 主 元 和 它 的 行 NEA (pivot row)) 实际 上 是 直接 
广播 到 所 有 需要 它 的 进程 ， 这 称 为 是 广播 版 本 。 高 斯 消 元 法 也 能 并 行 化 ， 以 一 种 更 激 
进 的 形式 开发 可 用 的 并 行 性 ， 甚 至 跨越 外 层 循 环 迁 代 。 在 第 大 次 迭代 期 间 ， 分 配 有 主 
元 行 的 进程 能 简单 地 将 主 行 送 给 下 一 个 进程 ， 而 不 是 将 它 广 播 。 这 个 进程 能 用 主 行 立 
即 更 新 它 所 分 得 的 行 ， 同 时 将 它 传送 到 下 一 个 进程 ， 等 等 。 只 要 这 个 进程 完成 了 顺序 
程序 中 循环 的 第 次 迭代 的 计算 ， 它 就 能 立即 做 它 的 主 元 行 的 计算 ,对 第 (k+1) 次 
迭代 ,不 需要 等 所 有 其 他 进程 都 收 到 第 让 行 ， 做 它们 在 第 次 沈 代 中 的 工作 。 然 后 进 
程 也 可 以 将 这 〔k + 1) 行 传送 到 下 一 个 进程 ， 它 能 够 马上 用 上 一 进程 ， 而 不 用 等 整个 
有 次 迁 代 的 完成 。 多 次 大 循 环 选 代 就 可 同时 进行 ， 只 要 它们 已 被 计算 出 来 ， 和 矩阵 的 行 
就 可 以 沿 着 处 理 器 流水 线 向 下 传送 ， 并 且 只 要 所 需 的 行 通过 流水 线 到 达 后 即 开始 计 
算 。 我 们 称 此 为 流水 形式 的 并 行 化 。 

1) 写 一 个 共享 地 址 空间 的 伪 代 码 ， 如 图 2- 13 的 细节 程度 ， 实 现在 个 别 元 素 粒 度 的 流 
119 水 并 行 性 。 示 出 所 有 必要 的 同步 。 你 需要 栅 障 吗 ? 
2) 针对 1) 所 提 的 流水 情形 ， 写 一 个 消息 传递 伪 代 码 在 图 2-16 的 细节 程度 。 假 定 仅 
有 的 通信 原 语 是 同步 和 异步 〈 阻 塞 和 非 阻 塞 ) 的 发 送 和 接收 。 你 会 用 发 送 和 接收 
的 哪 种 版 本 ， 为 什么 不 选用 其 他 的 ? 
3) 对 比 讨论 基于 循环 和 流水 并 行程 序 设计 中 的 折 中 。 

2.10 多 播 (从 一 个 进程 向 一 组 其 他 进程 发 送 消息 ) 是 在 进程 子 集 之 间 的 一 种 有 用 的 通信 

机 制 。 
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1) 你 如 何 用 多 播 而 不 是 广播 来 实现 一 个 消息 传递 的 高 斯 消 元 法 数据 循环 分 配 的 版 
本 ? 设计 一 个 多 播 原 语 并 写 出 伪 代 码 ， 比 较 两 种 版 本 程序 设计 的 难 易 。 

2) 你 认为 哪 一 种 性 能 会 好 些 , 为 什么 ? i 

3) 除 多 播 外 ,你 认为 一 个 消息 传递 系统 还 应 该 支持 什么 样 的 组 通信 原 语 ? 给 出 计算 
的 例子 来 说 明 它 们 的 用 处 。 
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第 3 章 面向 性 能 的 程序 设计 





我 们 知道 ， 用 并 行 处 理 系统 的 目的 是 为 了 获得 高 性 能 。 具 体 地 理解 了 分 解 、 分 配 和 协 
调 等 步骤 是 怎么 体现 在 实际 运行 在 机 器 上 的 并 行程 序 代码 中 的 ， 我 们 就 可 以 来 考察 那些 限 
制 并 行程 序 性 能 的 关键 因素 以 及 在 许多 问题 中 它们 是 如 何 表现 出 来 的 。 我 们 将 看 到 在 程序 
设计 过 程 中 所 做 的 决定 是 如 何 影响 给 体系 结构 的 运行 时 特征 以 及 体系 结构 的 特征 是 如 何 影 
响 程序 设计 决定 的 。 理 解 程序 设计 技术 和 这 些 相互 制约 的 关系 ， 不 但 对 并 行 软件 设计 人 员 ， 
而 且 对 系统 结构 人 员 都 是 重要 的 。 除 了 将 并 行程 序 看 成 我 们 所 设计 系统 的 工作 负载 外 ， 我 
们 从 中 学 会 做 硬件 /软件 之 闻 的 权衡 。 特 别 是 ， 我 们 可 以 认识 到 系统 结构 能 够 有 效 地 影响 可 
编程 性 和 性 能 的 哪些 方面 ， 而 其 他 方面 最 好 留 给 软件 。 对 于 多 处 理 器 系统 的 性 能 来 说 ， 程 
序 和 系统 的 相互 依赖 关系 要 比 单 处 理 器 情形 所 涉及 的 面 更 宽 、 更 加 复杂 也 更 加 重要 ; 因此 ， 
对 于 我 们 设计 高 性 能 系统 ， 要 降低 代价 和 程序 设计 劳作 的 目标 来 说 ， 理 解 这 种 相互 作用 是 
很 关键 的 。 从 第 4 章 讨 论 工作 负载 驱动 的 系统 结构 评估 的 方法 开始 ， 这 种 理解 将 是 我 们 贯 
穿 全 书 的 一 种 基本 精神 。 

有 关 性 能 问题 和 并 行 软件 技术 的 内 涵 是 丰富 的 : 不 同 的 目标 相互 制约 ， 更 好 地 实现 某 
个 目标 的 技术 可 能 使 我 们 重新 考虑 用 于 解决 另外 目标 的 技术 。 这 就 是 并 行 软件 创建 的 引 人 
和信 胜 之 处 和 挑战 所 在 。 如 同 在 单 处 理 器 的 情形 一 样 ， 多 数 性 能 问题 能 够 通过 软件 算法 和 程 
序 设计 技术 , 或 者 由 体系 结构 技术 来 解决 或 者 两 者 兼用 。 本 章 着 重 于 性 能 问题 和 软件 技术 。 
至 于 体系 结构 方面 的 技术 ， 将 在 本 书 的 其 余部 分 讨论 ， 本 章 只 是 隐 含 地 涉及 一 些 要 点 。 

尽管 我 们 必须 要 考虑 若 于 具有 相互 作用 的 性 能 问题 ， 但 它们 不 是 同时 来 处 理 的 。 创 建 
一 个 高 性 能 程序 的 过 程 是 逐步 求 精 的 过 程 。 如 第 2 章 所 讨论 的 ， 划 分 的 步骤 〈 分 解 和 分 配 ) 
常常 是 和 底层 系统 结构 或 程序 设计 模型 相 独 立 ， 它 们 主要 关心 算法 方面 的 问题 ， 只 依赖 于 
问题 加 有 的 特性 。 特 别 地 ， 这 些 步 又 只 是 将 多 处 理 器 简单 地 看 成 是 一 组 相互 通信 的 处 理 器 。 
它们 的 目标 是 要 解决 进程 间 的 工作 负载 平衡 ; 减少 程序 中 固有 的 进程 间 通信 ; 减少 为 了 计 
算 和 管理 划分 所 带 来 的 额外 的 工作 。 我 们 首先 将 注意 力 集中 在 这 些 和 划分 有 关 的 问题 上 。 

然后 ， 我 们 看 体系 结构 ， 考 察 它 在 协调 和 了 映射 步骤 中 所 涉及 的 新 的 性 能 问题 。 这 意味 
着 我 们 要 认识 到 两 种 事实 。 第 一 ， 多 处 理 器 不 仅 是 一 组 处 理 器 ， 而 且 还 是 一 组 存储 器 ， 每 
个 处 理 需 可 以 将 这 存储 器 看 成 是 一 种 扩充 的 存储 器 层次 结构 。 在 这 些 存 储 层次 中 数据 的 管 
理 可 能 引起 更 多 的 数据 在 网 络 上 传送 ， 使 得 实际 发 后 的 通信 要 比 并 行程 序 划 分 所 导致 的 固 
有 通信 要 多 。 因 此 ， 实 际 发 生 的 通信 和 既 依 赖 于 划分 ， 也 依赖 于 程序 访问 的 模式 ， 数 据 引 用 
的 局 部 性 和 这 种 扩充 的 存储 器 层次 结构 的 组 织 与 管理 相互 作用 。 第 二 ， 由 处 理 器 所 看 到 的 
通信 代价 〈 也 就 是 通信 在 程序 执行 时 间 中 的 份额 ) 不 仅 取决 于 通信 量 ， 还 取决 于 它 的 结构 
以 及 和 体系 结构 的 相互 作用 。3.2 节 讨 论 通信 、 数 据 的 局 部 性 及 其 和 扩充 的 存储 结构 之 间 的 
关系 。 然 后 在 3.3 节 针 对 这 些 在 协调 和 上 映 射 方面 的 主要 性 能 问题 ， 考 察 有 关 的 软件 技术 : 
通过 在 扩充 的 存储 器 层次 结构 上 开发 数据 的 局 部 性 ;减少 额外 的 通信 ; 将 通信 结构 化 以 减 
少 其 开销 。 
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当然 ， 在 协调 步骤 中 ,我 们 必须 面 对 系 统 结构 的 相互 作用 和 通信 代价 的 问题 ， 这 有 时 
会 使 我 们 回 过 头 去 ， 重 新 修改 我 们 的 划分 方法 ， 这 对 于 并 行程 序 的 提炼 是 一 个 重要 的 环节 。 
尽管 相互 作用 和 权衡 发 生 在 我 们 所 讨论 的 所 有 性 能 问题 之 间 ， 本 章 尽 量 独立 地 考虑 每 个 因 
素 并 在 适当 的 场合 指出 各 因素 之 间 的 折 中 之 处 。 所 有 的 例子 都 源 于 第 2 章 介 绍 的 4 个 案例 
分 析 ， 通 过 一 些 测试 数据 ， 我 们 可 以 解释 一 些 具体 程序 设计 技术 的 影响 ， 所 用 的 计算 机 是 
SGI 的 Origin2000， 一 种 物理 上 具有 分 布 存储 器 、 缓 存 一 致 性 的 机 器 (这 种 机 器 在 第 8 章 详 
细 讨 论 )。 在 我 们 的 讨论 中 ， 方 程 求解 器 内 核 也 经 常 作为 例子 出 现 。 在 介绍 提高 性 能 的 技术 
时 ， 只 要 和 它 相 关 我 们 总 是 试图 给 出 在 它 上 面 的 应 用 ; 这 样 ， 在 讨论 的 结束 时 ， 我 们 将 会 
得 到 该 求解 器 的 一 个 高 性 能 并 行 版 本 。 

当 考 虑 影响 性 能 的 因素 时 ， 我 们 将 给 出 简单 的 分 析 表 达 式 ， 来 表达 并 行程 序 的 加 速 比 ， 
解释 每 种 性 能 因素 是 如 何 影响 加 速 比 公式 的 。 然 而 ， 从 系统 结构 的 观点 来 看 ， 一 个 更 具体 
的 考察 性 能 的 方式 是 ， 要 从 机 器 中 每 个 处 理 器 的 角度 看 执行 时 间 的 不 同 组 成 部 分 一 一 即 多 
少时 间 花 在 执行 指令 上 ; 多 少时 间 花 在 访问 扩充 存储 器 层次 结构 的 数据 上 ; 多 少时 间 花 在 
等 待 同步 事件 的 发 生 上 。 事 实 上 ， 执 行 时 间 的 这 些 成 分 能 直接 映射 到 性 能 问题 上 ， 这 些 问 
题 必须 由 软件 在 创建 并 行程 序 时 考虑 。 考 察 性 能 的 这 种 观点 帮助 我 们 非常 具体 地 理解 并 行 
程序 作为 工作 负载 呈现 给 系统 结构 执行 的 情形 ， 映 射 帮助 我 们 理解 程序 设计 技术 如 何 能 改 
变 这 个 特性 。 这 些 主 题 在 3.4 节 讨 论 。 

一 且 我 们 研究 了 性 能 问题 和 技术 ， 我 们 可 以 以 4 个 案例 分 析 为 例 ， 考 虑 如 何 创建 实际 
应 用 的 高 性 能 并 行程 序 版 本 。 在 3.5 节 ， 我 们 对 每 一 个 案例 依次 应 用 并 行 化 过 程 和 提高 性 
能 的 技术 。 它 解释 这 些 技术 如 何 一 起 使 用 以 及 所 导致 的 执行 特征 的 范围 ， 这 些 特 征 在 执行 
时 呈现 给 系统 结构 ， 反 映 在 执行 时 间 的 多 种 性 态 中 。 我 们 还 将 考虑 实际 应 用 在 两 种 底层 程 
序 设计 模型 之 闻 的 影响 和 折 中 ， 这 两 种 程序 设计 模型 即 共享 地 址 空间 和 显 式 消息 传递 。 权 
衡 的 要 点 在 于 程序 设计 的 难 易 和 程序 执行 的 性 能 ， 将 在 3.6 节 讨论 。 下 面 让 我 们 从 分 解 和 
分 配 中 算法 的 性 能 问题 开始 。 l 


3.1 划分 阶段 的 性 能 问题 


在 分 解 和 分 配 步 又 中 ， 我 们 可 以 将 并 行 计算 机 系统 简单 地 看 作 是 一 个 相互 合作 的 处 理 
器 集合 ， 不 用 考虑 程序 设计 模型 和 硬件 系统 组 织 。 我 们 只 需 知道 在 处 理 器 之 间 的 通信 开销 
是 很 大 的 。 在 算法 方面 的 三 个 基本 要 素 是 ; 

。 平衡 工作 负载 ， 减 少 花 在 等 待 同步 事件 上 的 时 间 。 

。 减少 通信 开销 。 

”减少 由 确定 和 管理 分 配 所 带 来 的 附加 工作 。 

不 幸 的 是 ， 即 使 这 三 种 基本 目标 彼此 之 间 也 是 有 冲突 的 ， 必 须 进行 权衡 。 例 如 ， 只 要 
在 一 个 局 部 存储 器 装 下 所 需 的 数据 ， 让 程序 在 一 个 处 理 器 上 运行 就 能 使 通信 最 小 ， 但 这 就 
产生 了 负载 的 最 不 平衡 。 在 另 一 方面 ， 使 程序 中 每 个 基本 操作 都 成 为 单独 的 任务 ， 随 机 分 
配 它们 可 能 获得 最 接近 优化 的 负载 平衡 ， 但 通信 和 管理 开销 将 大 得 信人 。 进 而， 在 许多 复 
杂 应 用 中 ， 负 载 平衡 和 通信 可 能 通过 在 确定 分 配方 案 中 花 较 多 的 时 间 得 以 改善 ， 但 这 意味 
者 需 要 附加 的 工作 。 分 解 和 分 配 的 目的 是 在 这 些 冲突 的 要 求 中 获得 一 个 较 好 的 折 中 。 我 们 
将 在 案例 分 析 和 方程 求解 器 内 核 中 具体 讨论 。 
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3.1.1 负载 平衡 和 同步 等 待 时 间 


工作 负载 平衡 最 简单 的 理解 是 要 让 每 个 处 理 器 尽量 做 同样 多 的 工作 。 它 进一步 的 含义 
则 是 揭示 足够 的 并 发 性 〈 见 第 2 章 对 Amdahl 定律 的 讨论 )， 做 适当 的 任务 分 配 ， 降 低 操作 
的 串 行 化 的 现象 。 在 这 种 概念 下 ， 可 能 得 到 的 加 速 比 的 简单 上 限 如 下 : 








HIER 
加 速 比 wa (P) < EREK LTE 


“工作 ”在 此 的 含义 不 仅 是 完成 了 多 少 计算 ， 还 有 花 多 少时 间 完 成 它们 ， 这 也 包含 了 数 
据 访 问 和 通信 。 

事实 上 ， 负 载 平衡 要 比 简单 地 将 工作 均 分 复杂 一 些 。 负 载 平 衡 不 仅 要 让 不 同 的 处 理 器 
做 同样 多 的 事情 ， 而 且 它 们 也 要 同时 工作 。 极 端的 情况 是 ， 工 作 尽管 均 摊 在 进程 之 间 ， 但 
每 一 时 刻 只 有 一 个 进程 活跃 ， 因 此 根本 不 会 有 加 速 比 ! 负载 平衡 的 真正 目标 是 要 极 小 化 进 
程 花 在 等 待 同步 点 上 的 时 间 ， 包 括 在 程序 结束 时 隐 含 的 同步 。 这 也 就 涉及 到 要 使 进程 操作 
的 串 行 化 现象 最 小 ， 而 由 于 互 斥 (等 待 进入 临界 区 ) 或 数据 的 依赖 关系 ， 这 种 串 行 化 是 不 可 避 
免 的 。 在 分 配 步 又 ， 我 们 应 该 保证 低 串 行 化 的 可 能 性 ， 而 协调 步骤 则 应 该 保证 这 种 可 能 性 成 为 
现实 。 

平衡 负载 和 减少 同步 等 待 时 间 的 过 程 分 为 4 步 . 

1) 在 分 解 中 识别 足够 的 并 发 性 ， 减 少 Amdahl 定律 的 影响 。 

2) 决定 管理 并 发 性 的 方式 (静态 还 是 动态 )。 

3) 确定 并 发 性 开发 的 粒度 。 

4) 降低 串 行 化 和 同步 代价 。 

本 节 通 过 4 个 案例 和 其 他 应 用 中 的 例子 ， 考 察 一 些 有 关 的 技术 ， 

1. 识别 足够 的 并 发 性 : 数据 并 行 和 功能 并 行 性 

在 对 方程 求解 器 内 核 并 行 化 的 时 候 ， 我 们 看 到 发 现 并 发 性 有 多 种 途径 ， 可 以 通过 考察 
程序 的 循环 ， 还 可 以 通过 深入 研究 数据 的 基本 相关 性 ， 也 可 以 通过 对 所 求解 问题 事务 的 进 
一 步 理解 ， 发 现 具有 更 大 并 发 性 的 算法 。 将 循环 并 行 化 通常 导致 一 种 情形 ， 即 相似 的 (不 
一 定 是 相同 的 ) 操作 序列 或 功能 ， 作 用 在 一 个 大 数据 结构 的 元 素 上 ; 如 同 在 方程 求解 器 内 
核 所 见 到 的 那样 。 这 称 为 是 数据 并 行 性 ， 是 一 种 更 一 般 的 并 行 性 形式 ， 它 激发 了 如 第 1 音 
所 讨论 的 数据 并 行 体系 结构 。Bames-Hut 中 计算 不 同 粒子 的 作用 力也 是 这 方面 的 一 个 例子 。 

除了 数据 并 行 性 外 ， 应 用 程序 通常 也 表现 出 功能 并 行 ， 完全 不 同 的 计算 可 能 并 发 地 作 
用 在 相同 或 不 同 的 数据 上 。 功 能 并 行 常常 也 称 为 是 控制 并 行 或 任务 并 行 (我 们 也 注意 到 这 
些 术 语 在 不 同 的 场合 含义 可 能 有 些 不 同 )。 例 如 ， 在 Ocean 例子 中 ， 为 求解 器 建立 一 个 方程 
系统 要 求 许多 不 同 种 类 的 计算 ， 这 些 计算 作用 在 大 洋 的 横 截 面 上 ， 每 种 计算 要 用 到 儿 个 截 
面 网 格 。 在 整个 网 格 或 数组 级 别 分 析 相 关 性 揭示 出 这 些 计 算是 相互 独立 的 ， 可 以 并 行 执行 。 
流水 是 另 一 种 功能 并 行 的 形式 ， 其 中 流水 线 的 不 同 的 功能 或 阶段 并 发 作用 在 不 同 的 数据 上 。 
例如 ， 在 为 视频 帧 编码 时 ， 每 一 帧 的 每 一 块 要 通过 几 个 阶段 预 过 滤 、 从 时 域 到 频 域 的 郑 
积 、 量 化 和 墙 编码 等 。 流 水 并 行 在 这 些 阶 段 上 就 可 使 用 (例如 ， 为 每 个 阶段 安排 几 个 进程 ， 
并 发 操作 )， 而 数据 并 行 存在 于 帧 之 间 、 同 一 帧 的 块 中 ， 以 及 在 一 块 上 的 操作 内 。 





条 了 介面 向 性 能 的 程序 说 矿 9] 





功能 并 行 和 数据 并 行 在 应 用 程序 中 常常 是 同时 存在 的 ， 表 现 出 一 种 并 行 性 的 层次 结构 ， 
我 们 需要 从 中 挑选 〈 例 如 ， 在 海洋 (Ocean) 例子 中 ， 有 跨越 网 格 计算 的 功能 并 行 性 和 网 格 
内 部 计算 的 数据 并 行 性 ， 在 视频 编码 例子 中 也 有 类 似 情 况 )。 数 据 或 功能 并 行 的 正 交 层次 在 
许多 其 他 应 用 中 也 常见 到 ; 例如 , 在 VLSI 电路 中 的 布线 应 用 ， 在 要 被 排 布 的 线路 之 间 ， 一 
条 线路 内 的 不 同 段 之 间 以 及 每 段 的 多 种 可 能 的 布线 方式 , 都 表现 出 并 行 性 ( 见 图 3-1). 





段 S 扩展 成 路 由 
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图 3-1 一 种 VLSI 布线 应 用 中 的 三 种 并 行 性 : a) 线 间 的 并 行 性 ; b) 同一 条 线 内 不 同 段 之 间 的 并 行 
性 ; c) 在 同一 段 上 的 不 同 布线 法 之 间 的 并 行 性 。 图 中 的 实心 圆圈 表示 由 线路 连接 的 焊 点 

可 用 的 功能 并 行 性 通常 是 不 大 的 ， 并 且 不 会 随 着 待 求 解 问题 的 规模 有 大 的 变化 。 另 一 方 
面 ， 数 据 并 行 性 通常 随 数据 集合 的 增 大 而 增 大 。 由 于 不 同 的 功能 涉及 到 不 同 的 工作 量 ， 有 不 
同 的 扩 放 特点 ， 功 能 并 行 性 常常 也 是 更 难以 开发 ， 难 以 做 到 工作 负载 平衡 。 按 照 我 们 松散 的 
定义 ， 大 多 数 在 大 规模 机 器 上 运行 的 并 行程 序 都 是 数据 并 行 的 ， 开 发 功能 并 行 性 主要 是 为 了 
减少 数据 并 行 计 算 之 间 的 全 局 同步 量 (如 3.5.1 节 的 海洋 所 示 )。 

通过 识别 应 用 中 不 同类 型 的 并 发 性 ， 我 们 常常 会 发 现 问题 所 表现 出 来 的 并 行 性 比 我 们 做 
工作 负载 平衡 所 需 的 要 多 。 于 是 ， 在 分 解 的 下 一 步 是 通过 确定 任务 的 粒度 来 控制 实际 要 用 的 
并 行 性 。 然 而 ， 任 务 大 小 的 选择 也 取决 于 我 们 期 望 如 何 来 管理 并 发 性 ， 下 面 我 们 就 来 讨论 这 
一 点 。 

2. 确定 如 何 管理 并 发 性 : 静态 分 配 和 动态 分 配 的 对 比 

开发 并 发 性 的 关键 是 希望 能 得 到 好 的 工作 负载 平衡 ， 具 体 可 以 通过 一 种 静态 的 或 者 事先 
确定 的 分 配 (第 2 章 所 介绍 的 ) 方法 ， 或 者 采用 动态 的 方法 。 静 态 分 配 通 常 就 是 构造 一 个 任 
务 向 进程 的 映射 算法 ， 如 同 前 面 所 讨论 的 简单 方程 求解 内 核 的 情形 那样 。 任 务 (网 格 点 或 者 
行 ) 在 进程 上 的 具体 分 配 可 能 取决 于 问题 规模 、 进 程 个 数 以 及 其 他 的 参数 ， 但 一 旦 定 下 来 
了 ， 在 运行 时 分 配 就 不 再 变化 。 由 于 分 配 是 事先 确定 的 ， 静 态 技术 在 运行 时 不 会 引起 太 多 管 
理 开 销 。 不 过 ， 为 了 取得 好 的 负载 平衡 ， 要 求 静态 技术 要 么 能 够 相当 准确 地 预测 不 同 任务 中 
的 相对 工作 量 ， 或 者 能 有 足够 多 的 任务 来 从 统计 上 保证 一 种 平衡 的 任务 分 配 。 除 程序 本 身 
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外 ， 其 他 环境 条 件 也 是 很 重要 的 。 例 如 来 自 其 他 应 用 的 干扰 ， 虽 然 不 影响 处 理 器 之 间 的 关 
系 ， 但 限制 了 项 态 负载 平衡 方法 的 健壮 性 。 

动态 划分 技术 是 在 运行 时 对 工作 负载 分 布 的 情况 进行 调整 ， 有 两 种 形式 。 在 半 静 态 
(semistatic) 技术 中 ， 一 个 阶段 计算 的 分 配 在 那个 阶段 开始 前 通过 一 定 的 算法 来 决定 ， 但 要 
基于 在 运行 时 收集 的 工作 负载 分 布 信息 周期 性 地 重复 计算 分 配方 案 ， 并 据 此 重新 调整 负载 的 
分 配 。 例 如 ， 我 们 可 以 刻画 WA) 每 一 个 任务 在 一 个 阶段 所 完成 的 工作 量 ， 并 用 它 作 为 下 
一 次 在 这 个 阶段 中 工作 量 的 估 值 。 这 种 重新 划分 的 技术 在 Bames-Hut 中 (3.5.2 W) 用 来 将 
星体 分 配给 进程 ， 在 星系 的 演化 过 程 的 时 间 步 之 间 采 集 有 关 数 据 ， 重 新 计算 分 配方 案 。 星 系 
是 缓慢 演化 的 ， 因 此 在 星体 之 间 的 工作 负载 分 布 在 相继 的 时 间 步 里 变化 不 多 。 图 3-2a 显示 
了 在 Origin 2000 上 对 于 512 上 个 粒子 半 静 态 划 分 和 静态 划分 相 比 的 优势 ， 尽 管 周期 性 重新 划 
分 也 会 有 些 附加 的 计算 代价 。 很 清楚 ， 性 能 的 差别 随 使 用 的 处 理 器 数 的 增 大 而 增 大 。 









Origin，semistatic 
= Challenge, senmistatic 
-@— Origin, static 

=*= Challenge, static L- 






加 速 比 





0 
a) 1 3 5 7 9 11131517 19 21 2395 27 99 31 1 3 5 7 9 11131517 19 21 23 25 27 29 31 


处 理 器 数目 处 理 器 数目 


图 3-2 负载 平衡 动态 划分 的 性 能 影响 曲线 。a) 显示 Bames-Hut 应 用 在 静态 划分 和 半 甫 
态 划 分 情形 下 的 加 速 比 ，b) 显示 Raytrace 的 加 速 比 情况 。 即 使 在 这 些 有 大 量 
并 行 性 的 应 用 中 ， 和 静态 划分 相 比 动态 划分 对 改善 负载 平衡 来 说 也 有 明显 作用 


第 二 种 动态 技术 ， 动 态 任务 调度 (dynamic tasking) ， 用 来 对 付 那些 即使 是 周期 性 重新 计 
算 负载 平衡 的 分 配 ” ， 也 很 难 决定 负载 分 布 的 情况 。 例 如 ， 在 Raytrace 中 ， 和 每 一条 光线 相 
关 的 计算 量 是 不 可 能 预测 的 。 尽 管 泻 染 从 不 同 的 视点 是 重复 的 ， 但 视点 的 变化 不 一 定 是 渐变 
的 。 动 态 任务 调度 的 做 法 将 计算 分 成 任务 ， 并 维护 一 个 待 执行 的 任务 池 (在 Raytrace H, — 
个 任务 可 能 是 一 条 光线 或 一 组 光线 )。 每 个 进程 不 断 从 这 个 任务 池 中 取出 任务 并 执行 它 (还 
可 能 将 新 的 任务 插入 到 池 中 ) 直到 所 有 任务 被 执行 完 。 当 然 ， 对 任务 池 的 管理 要 保证 任务 
之 间 的 相关 性 一 一 例如 ,新 插入 的 任务 应 该 是 随时 可 执行 的 ,由 于 动态 任务 调度 应 用 的 广 





© 静态 或 者 半 静 态 分 配 的 适用 性 不 仅 取决 于 程序 的 计算 性 质 ， 还 和 程序 同 存储 和 通信 系统 的 相互 作用 以 及 执行 环 
伐 的 可 预见 性 有 关 。 例 如 ， 即 使 负载 从 计算 量 来 看 是 平衡 的 ， 但 存储 和 通信 停 灌 时 间 (由 于 缓存 扑 空 、 缺 页 或 
者 冲突 等 原因 ) 的 不 同 可 能 会 引起 在 同步 点 观察 得 到 的 不 平衡 。 静 态 分 配对 分 时 或 者 异 构 系统 也 可 能 是 不 全 
适 的 。 
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泛 性 ， 让 我 们 看 看 某 些 实现 任务 池 的 专门 技术 。 图 3-2b 基于 在 Origin2000 上 的 测试 数据 ， 显 
示 了 在 Raytrace 应 用 中 ， 动 态 任 务 法 相对 于 静态 分 配 法 将 光线 分 给 处 理 器 的 优势 ， 其 中 的 数 
据 是 一 堆 安排 得 像 一 堆 葡萄 的 球体 。 

在 共享 地 址 空间 系统 做 动态 任务 划分 的 一 个 简单 例子 是 并 行 循环 的 自 调度 。 循环 计数 器 
是 执行 该 循环 迭代 的 所 有 进程 的 共享 变量 。 进 程 通过 在 该 计数 器 上 执行 原子 性 的 增 量 操 作 来 
获得 一 次 循环 办 代 ; 参与 工作 的 进程 不 断 执 行 和 迭代 并 更 新 计数 器 ， 直 到 所 有 迭代 完成 。 任 务 
大 小 (粒度 ) 可 以 通过 一 次 取 多 个 迭代 来 增加 ， 即 ， 在 共享 循环 控制 变量 上 加 上 一 个 比 1 大 
的 数 。 然 而 ， 这 样 可 能 会 增加 负载 的 不 平衡 。 有 一 种 引导 式 的 自 调度 方法 (guided self-sched- 
uling, Aiken and Nikolau 1988): 进程 开始 取 较 多 的 任务 ， 随 着 循环 的 进展 逐步 减少 ， 希 望 这 
样 能 够 减少 对 共享 计数 器 的 访问 次 数 而 不 影响 负载 平衡 。 

更 一 般 的 动态 任务 池 通 常用 一 组 队列 来 实现 ， 进 程 将 任务 插入 这 些 队列 并 从 这 些 队列 中 
取出 执行 。 这 可 能 是 单个 集中 式 队列 或 者 是 一 个 分 布 队列 的 集合 ， 典 型 的 是 每 个 进程 一 个 队 
列 ， 如 图 3-3 所 示 。 集 中 的 队列 简单 ， 但 每 个 进程 访问 相同 的 任务 队列 有 不 利之 处 ， 可 能 
会 增加 通信 和 引起 处 理 器 和 争 用 队列 访问 的 情况 。 而 对 队列 的 修改 〈 添 加 任务 或 删除 任务 ) 必 
须要 互 斥 ， 这 就 进一步 增加 了 冲突 ， 导 致 了 操作 的 串 行 化 。 如 果 任 务 的 粒度 不 大 ， 使 得 进程 
每 访问 一 次 队列 取 走 一 个 任务 ， 干 不 了 一 会 儿 就 又 要 回来 访问 队列 ， 当 进程 数 增加 时 ， 一 个 
集中 式 的 队列 会 很 快 成 为 性 能 的 瓶颈 。 





所 有 的 进程 都 向 
队列 中 插入 任务 P, 插入 P| 插入 P, | Ps | 
a % Q, Q, 
其 他 进程 
可 能 窃取 A A 
所 有 的 进程 都 从 P 取出 P, 取出 P 取出 P, 取出 
队列 中 取 走 任务 
a) 集中 任务 队列 b) 分 布 式 任务 队列 (每 个 进程 一 个 ) 


图 3-3 用 任务 队列 组 来 实现 动态 任务 池 


对 于 分 布 式 队列 (distributed queue) ， 每 个 进程 最 初 在 它 本 地 的 队列 中 会 分 得 一 些 任务 。 
这 种 初始 的 分 配 可 以 用 某 种 智能 化 方法 得 到 以 减少 进程 间 通 信 ， 这 样 可 以 提供 比 自 调度 和 集 
中 队列 更 多 的 控制 。 一 个 进程 尽量 从 它 自己 的 队列 中 移出 和 执行 任务 。 如 果 它 创建 了 任务 ， 
它 将 它们 插入 本 地 队列 。 当 本 地 队列 中 没有 任务 时 ， 它 就 查询 其 他 进程 的 队列 来 从 中 获得 任 
务 ， 这 就 是 一 种 称 为 任务 窃取 的 机 制 。 由 于 任务 窃取 (task stealing) 隐 含 有 通信 ， 还 可 能 产 
生 竞争 ， 在 实现 窃取 过 程 中 就 提出 了 若干 有 趣 的 问题 : 例如 ， 如 何 极 小 化 窃取 ;从 哪儿 闪 
取 ; 每 次 窃取 多 少 任务 和 哪些 任务 等 等 。 窃 取 还 引 和 人 了 重要 的 终止 检测 (termination detec- 
tion) 问题 : 如 果 所 有 任务 都 可 能 产生 能 动态 插入 队列 中 的 其 他 任务 ， 那 么 如 何 确定 何 时 不 
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PATEA 并 假定 所 有 任务 都 做 完了 ? 在 实践 中 ， 简 单 的 启发 式 算法 能 工作 得 很 好 ， 而 

完善 的 方案 是 相当 复杂 的 ， 而 且 会 引起 很 多 通信 (Dijkstra and Sholten 1968; Chandy and 
Miam 1988). 任务 队列 的 方法 所 在 共 训 地址 空间 各 式 滑 息 传递 中 。 在 共享 地 址 空间 中 ， 队 
列 是 共享 的 数据 结构 ， 用 锁 来 管理 ; 在 消息 传递 系统 中 ， 队 列 的 拥有 者 为 队列 请 求 服务 。 

即使 在 不 可 预测 且 环 境 条 件 不 清楚 的 条 件 下 ， 动 态 技术 通常 也 能 给 出 好 的 负载 平衡 ， 但 
它们 所 导致 的 并 行 性 管理 代价 要 高 得 多 。 如 果 我 们 希望 显 式 地 控制 其 个 任务 必须 在 某 个 处 理 
器 上 执行 ， 动 态 任务 技术 也 是 不 适合 的 ? ， 从 而 可 能 增加 通信 ， 也 可 能 会 有 损 于 对 数据 局 部 
性 的 利用 。 因 此 ， 只 要 对 一 个 应 用 和 环境 能 提供 好 的 负载 平衡 ， 静 态 技术 通常 是 更 可 取 的 。 

3, 确定 任务 的 粒度 

如 果 没 有 负载 不 平衡 的 问题 出 现 ( 例 如， 在 一 个 计算 阶段 开始 时 所 有 任务 都 是 可 以 执行 
的 )， 那 么 对 于 任务 队列 策略 来 说 ， 负 载 的 最 大 不 平衡 性 等 于 最 大 任务 的 粒度 。 任 务 粒 度 ， 
我 们 指 和 一 个 任务 相关 的 工作 量 ， 用 所 执行 的 指令 数 ， 或 者 更 确切 些 ， 用 执行 时 间 来 度量 。 
从 实际 开发 并 发 性 的 角度 看 ， 对 选择 粒度 的 一 般 认 识 是 细 粒 度 或 小 任务 有 潜力 得 到 更 好 地 负 
载 平衡 (有 更 多 的 任务 在 进程 间 分 配 ， 因 此 有 更 多 的 并 发 性 )， 但 和 粗 粒度 或 大 任务 相 比 ， 
它们 导致 较 高 的 任务 管理 开销 、 更 多 的 冲突 、 更 多 的 进程 间 通 信 。 下 面 我 们 来 看 看 为 什么 ， 
首先 从 动态 任务 排队 的 角度 开始 ， 因 为 在 这 种 情况 ， 定 义 和 权 衡 比较 清楚 。 

任务 粒度 和 动态 任务 队列 ”这 里 ， 任 务 显 式 地 定义 为 任务 队列 中 的 一 项 ， 因 此 任务 的 粒 
度 就 是 和 这 一 项 相关 的 工作 量 。 很 明显 ， 小 任务 所 带 来 的 管理 开销 较 大 (队列 的 管理 )。 至 
少 对 于 集中 式 队列 来 说 ， 更 频繁 的 队列 访问 通常 还 会 导致 较 大 的 竞争 。 最 后 ,将 一 个 任务 分 
成 两 个 较 小 的 任务 可 能 引起 这 两 个 任务 在 不 同 的 处 理 器 中 执行 ， 如 果 它 们 要 访问 同一 个 在 处 
辑 上 共享 的 数据 ， 则 会 增加 通信 。 

任务 粒度 和 静态 分 配 ” 对 于 静态 的 分 配 ， 任 务 在 程序 中 不 是 显 式 的 ， 因 此 什么 叫 并 行 操 
作 的 一 个 任务 或 者 一 个 计算 单元 并 不 是 那么 清楚 。 例 如 ， 在 方程 求解 器 中 ， 任 务 是 数组 的 若 
王 行 ,还 是 一 行 ， 还 是 一 个 元 素 ? 我 们 可 以 把 任务 定义 为 这 样 一 种 尽 可 能 大 的 工作 单位 : 即 
使 任务 在 进程 的 分 配 改 变 了 ， 实 现 该 任务 的 代码 不 需要 变 S 。 和 动态 任务 队列 相 比 ， 由 于 没 
有 队列 的 访问 ， 静 态 分 配 中 任务 的 大 小 对 于 任务 管理 开销 的 影响 要 小 得 多 。 通 信和 竞争 受 任 
务 在 进程 上 上 分配 的 影响 ， 而 和 它们 的 大 小 关系 不 大 。 任 务 大 小 的 主要 影响 通常 在 于 负载 不 平 
衡 和 在 处 理 器 缓存 中 开发 数据 的 局 部 性 。 

4. 减少 操作 序列 化 的 现象 

最 后 ， 要 减 小 在 同步 点 上 操作 的 串 行 化 。 不 管 它 是 由 于 互 斥 还 是 任务 间 的 依赖 关系 ， 我 
们 必须 仔细 地 考虑 任务 的 分 配 和 协调 任务 的 同步 和 调度 。 对 事件 同步 来 说 ， 过 度 串 行 化 的 一 
个 例子 是 用 比 实际 所 需 的 更 保守 的 同步 方式 ， 例 如 本 来 可 以 用 点 对 点 或 组 同步 ， 但 用 了 栅 障 
同步 。 即 使 是 用 点 对 点 同步 ， 同 步 粒 度 的 粗细 也 可 能 对 串 行 化 有 影响 。 例 如 ， 一 个 进程 和 另 
一 个 进程 的 依赖 关系 本 来 只 在 矩阵 的 个 别 元 素 上 ， 但 却 让 它 等 待 另 一 个 做 完整 个 一 行 怎 阵 元 
素 的 数据 才 可 推进 。 然 而 ， 较 细 粒 度 的 同步 经 常 意味 着 较 复杂 的 程序 ; 它 也 隐 含 着 要 执行 较 
多 的 同步 操作 (比方 说 ,一 个 字 一 次 ,而 不 是 在 更 大 的 数据 结构 上 ) ， 这 种 开销 可 能 要 比 在 
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串 行 化 上 的 开销 节省 得 多 。 于 是 ， 我 们 要 折 中 权衡。 

对 于 互 斥 ， 我 们 可 以 对 不 同 的 数据 项 用 不 同 的 锁 来 减少 串 行 化 ; 如 果 可 能 ， 就 用 较 小 的 
锁 ， 不 要 经 常 来 保护 临界 区 。 考 虑 前 者 ， 在 一 个 数据 库 应 用 中 ， 如 果 多 个 进程 都 能 对 记录 访 
问 ， 当 我 们 更 新 某 个 记录 的 某 个 域 时 ， 我 们 可 能 要 加 锁 。 问 题 是 如 何 组 织 锁 的 方法 。 每 个 进 
程 一 把 锁 ， 每 个 记录 一 把 锁 ， 还 是 每 个 域 一 把 锁 ?粒度 越 细 ， 竞 争 越 低 ， 但 有 更 大 的 空间 开 
销 ， 并 且 锁 的 重用 性 也 不 好 。 一 种 中 间 的 方案 是 用 一 个 固定 数量 的 锁 ， 在 记录 之 间 共 享 ; 而 
在 记录 和 锁 之 间 用 一 个 简单 的 蛤 希 函数 映射 。 减 小 串 行 化 的 另 一 个 方法 是 在 时 间 上 错开 对 临 
界 区 的 访问 ， 即 适当 地 安排 计算 ， 使 得 多 个 进程 不 要 试图 在 同一 时 间 访 问 相同 的 锁 。 

任务 队列 的 实现 提供 了 一 个 有 趣 的 例子 ， 使 临界 区 更 小 并 且 不 那么 经 常 被 访问 。 假 定 每 
个 进程 将 一 个 任务 加 入 一 个 队列 ， 然 后 搜索 这 个 队列 找 一 个 具有 特别 特点 的 任务 ， 然 后 将 它 
从 队列 中 移出 。 任 务 的 插入 和 删除 可 能 需要 是 互 斥 的 (如 果 它 们 发 生 在 队列 的 不 同 端 ， 也 可 [130 
能 不 需要 互 斥 ) ， 但 搜索 不 需要 互 斥 。 这 样 ， 我 们 就 可 以 用 两 个 临界 区 (一 个 插入 ， 一 个 删 
BR), ， 而 不 是 用 单个 临界 区 来 包含 操作 的 整个 序列 ;用 于 搜索 的 代码 不 需要 互 斥 。 

更 一 般 的 情况 ， 检 测 〈 读 ) 一 个 被 保护 数据 结构 的 状态 通常 不 需要 互 斥 ; 只 是 修改 数据 
结构 的 时 候 需 要 互 斥 。 如 果 经 常 发 生 的 情况 是 检测 而 不 是 修改 , 例如 在 任务 队列 中 搜索 任 
务 ， 我 们 就 在 检测 的 时 候 可 以 不 用 锁 ， 只 是 当 检测 返回 适当 的 条 件 时 ， 我 们 就 在 修改 前 上 锁 
并 在 临界 区 中 重新 检测 (以 保证 状态 没有 发 生变 化 )。 除 此 以 外 ， 不 用 一 把 锁 来 管理 整个 队 
列 ， 我 们 可 以 对 每 个 队列 元 素 用 一 把 锁 ， 从 而 队列 中 的 不 同 部 分 的 元 素 可 以 并 行 地 插入 和 删 
除 〈 没 有 串 行 化 )。 如 同事 件 同步 ， 在 性 能 和 程序 设计 的 难 易 之 间 正 确 的 权衡 取决 于 不 同 的 
选择 在 一 个 系统 中 的 代价 和 好 处 。 

我 们 可 以 将 加 速 比 表 达 式 如 下 扩充 ， 反 映 负载 的 不 平衡 性 和 花 在 同步 点 的 等 待 时 间 ， 其 
中 分 母 中 的 max 概括 了 所 有 进程 : 


加 束 比 we (P) < TER HF SEND 

通常 ， 考 虑 平衡 负载 诸 方面 的 因素 是 软件 的 责任 。 如 果 程序 没有 足够 的 并 行 性 或 者 负载 
不 平衡 ， 一 种 体系 结构 所 能 发 挥 的 作用 并 不 多 。 然 而 ， 体 系 结构 在 某 些 方面 能 够 起 作用 。 首 
先 ， 它 可 以 对 那些 广泛 用 于 并 行 软件 (应 用 程序 、 库 、 操 作 系 统 ) 中 的 负载 平衡 技术 (例如 
任务 窃取 ) 提供 高 效 的 支持 。 对 一 个 远程 任务 队列 窃取 的 访问 通常 是 一 个 探测 或 者 查询 ， 涉 
及 少量 的 数据 传送 以 及 可 能 的 互 斥 。 对 细 粒 度 通信 和 低 开销 、 数 据 的 互 斥 访问 的 支持 越 高 效 ， 
就 能 使 我 们 的 任务 变 得 越 小 ， 从 而 改进 负载 平衡 。 第 二 ， 体 系 结构 能 够 使 命名 和 访问 逻辑 上 共 
享 的 数据 〈 被 窃取 任务 所 需 的 ) 变 得 容易 。 第 三 ， 体 系 结构 能 对 点 对 点 同步 提供 高 效 的 支持 ， 
使 得 人 们 更 愿意 使 用 这 种 同步 ， 而 不 是 保守 的 栅 障 同步 ， 从 而 可 以 获得 更 好 的 负载 平衡 。 


3.1.2 减少 固有 的 通信 


只 要 应 用 表现 出 足够 的 并 发 性 ， 在 概念 上 做 到 负载 平衡 是 相当 容易 的 : 我 们 可 以 简单 地 
让 任务 小 一 些 ， 并 利用 动态 任务 分 配 。 但 对 于 负载 平衡 来 说 ， 也 许 它 需 要 考虑 的 最 重要 的 权 
衡 是 减少 进程 间 的 通信 。 将 问题 划分 为 多 个 任务 通常 意味 着 任务 之 间 有 通信 的 要 求 。 如 果 这 
些 任 务 分 配给 不 同 的 进程 ， 我 们 就 在 进程 间 (因此 也 在 处 理 器 间 ) 引入 了 通信 。 本 节 的 要 点 [23 
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是 考虑 在 维持 负载 平衡 的 同时 ,减少 那些 并 行程 序 之 间 固 有 的 通信 《( 即 ， 一 个 进程 产生 田 一 
个 进程 所 需 的 数据 )， 维 持 机 器 是 一 组 合作 进程 的 集合 的 观念 。 然 而 ， 在 真实 系统 中 ， 还 会 
由 其 他 原因 导 臻 通信， 如 3.2 节 所 示 。 

要 估计 通信 对 程序 性 能 的 影响 ， 绝 对 通信 量 往往 不 是 最 好 的 参数 。 人 们 更 愿意 考虑 通信 
对 计 兽 的 比值 。 它 的 定义 是 通信 量 (例如 ， 以 字 节 为 单位 ) 除 以 计算 时 间 (或 者 考虑 到 影响 
时 间 的 因素 太 多 ， 则 可 以 除 以 执行 的 指令 数 )。 例 如 ，1 兆 字 节 的 通信 相对 于 1s 的 执行 时 间 
的 影响 就 要 比 相 对 于 1 小 时 执行 时 间 的 影响 要 大 得 多 。 通 信 计 算 比 可 以 按 每 个 进程 来 算 ， 也 
可 以 累计 在 所 有 进程 上 。 

固有 的 通信 计算 比 基 本 上 是 由 任务 在 进程 上 的 分 配 决定 的 。 为 了 减少 通信 ， 我 们 应 该 尽 
量 安排 那些 访问 相同 数据 或 要 求 频繁 通信 的 任务 分 在 同一 个 进程 中 。 例 如 ， 在 数据 库 应 用 
中 ， 如 果 访 问 同样 数据 库 记 录 的 查询 和 更 新 安排 在 同一 个 进程 中 ， 就 能 降低 通信 。 

一 个 在 实践 中 求 取 负载 平衡 和 固有 通信 折 中 的 划分 的 原则 是 区 域 分 解 (domain decompo- 
sition)。 最 初 它 是 用 在 数据 并 行 的 科学 计算 问题 中 ， 如 Ocean 问题 ， 但 人 们 发 现 它 也 能 用 于 
许多 其 他 领域 。 如 果 将 操作 作用 其 上 的 数据 集合 看 成 是 一 个 物理 区 域 ， 那 么 情形 通常 是 ， 计 
算 区 域 中 的 一 个 点 所 要 求 的 信息 ， 常 常 只 需要 从 这 个 点 的 周围 一 个 小 的 局 部 区 域 上 获得 ; 在 
需要 从 一 个 较 大 的 范围 获得 信息 的 情况 下 ， 该 范围 中 其 他 点 对 所 求 点 的 影响 随 它们 之 间距 离 
的 增加 而 降低 。Bames-Hut 算法 就 是 后 者 的 典型 例子 。 作 为 前 者 的 例子 ， 考 虑 一 种 视频 应 用 ， 
其 中 在 视频 编码 和 解码 中 用 于 运动 估计 的 算法 ， 只 考察 和 当前 像素 接近 的 场景 区 域 ; 类 似 
地 ， 在 方程 求解 器 内 核 中 的 一 个 数据 点 只 需要 直接 访问 它 的 4 个 相 邻 的 点 ;在 这 些 情 况 中 的 
划分 目标 是 要 给 每 个 进程 分 配 数据 域 中 的 一 个 连续 的 区 域 ， 当 然 要 注意 负载 平衡 ， 将 数据 域 
安排 成 适当 的 形状 ， 以 至 于 进程 所 需 的 信息 大 多 数 可 在 它 自己 的 所 分 的 划分 中 得 到 满足 。 如 
图 34 所 示 ， 在 许多 这 样 的 情况 下 ， 一 个 进程 的 通信 需求 和 划分 的 边界 的 大 小 成 正比 ， 而 计 
算 量 和 整个 划分 成 正比 。 于 是 通信 计算 比 为 表面 积 和 体积 之 比 (在 三 维 情况 下 ) ， 或 者 是 周 
长 和 面积 之 比 (二 维 情况 下 )。 通 过 增加 数据 集 的 规模 (图 中 为 a*) 或 者 是 减 小 处 理 器 数 
(p)， 这 个 比 可 以 减 小 。 
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图 3-4 在 二 维 域 分 解 中 , 通信 和 量 相对 于 计算 量 表现 出 的 周 长 对 面积 的 关系 。 所 示 的 例子 针对 局 部 的 算 
法 ， 最 近 相 邻 信息 交换 算法 类 似 于 简单 的 方程 求解 器 内 核 。 网 格 上 的 每 个 点 需要 来 自 它 相 邻 4 
个 最 近 点 的 信息 。 这样 ， 在 处 理 器 Pi。 的 划分 中 的 内 部 点 不 需要 和 划分 外 的 任何 点 通信 。 处 理 器 
Po 的 计算 于 是 就 和 所 有 n/p 个 点 的 计算 之 和 成 比例 ,而 通信 和 边界 点 的 个 数 ( 即 4m/YVp) 成 比例 


当然 ， 在 域 分 解 中 理想 的 划分 形状 是 和 应 用 有 关 的 ， 主 要 取决 于 信息 的 需求 和 域 中 点 的 
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相关 计算 工作 。 对 方程 求解 器 内 核 来 说 ， 在 第 2 章 我 们 选择 把 网 格 划分 为 连续 的 行 形成 的 


Ro A 


3-5 示 出 将 网 格 划分 为 正方 形状 的 子 块 的 情形 ， 这 会 导致 较 低 的 通信 计算 比 。 随 着 处 


理 器 数 相对 于 网 格 大 小 的 增加 ， 这 种 影响 越 来 越 大 。 因 此 我 们 在 继续 讨论 性 能 的 时 候 用 这 种 
划分 方法 〈 称 为 “ 块 状 划分 ”， 前 面 的 称 为 “条 状 划分 ")。 作 为 一 个 简单 的 练习 ， 考 虑 一 下 
如 果 我 们 将 行 以 一 种 交替 或 循环 的 方式 分 给 进程 ( 行 i 分 给 进程 i mod mprocs)， 通 信 计 算 比 


会 是 什 


图 3-5 
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在 一 个 规则 的 二 维 网 格 上 , 针对 一 种 简单 的 近邻 计算 , 可 能 有 不 同 的 域 分 解 方案 的 选择 。 由 于 每 个 


网 格 点 的 工作 量 是 一 样 的 ， 同 样 大 小 的 划分 给 出 好 的 负载 平衡 。 但 我 们 还 可 以 有 不 同 的 选择 。 我 们 
可 以 将 网 格 元 素 划 分 成 连续 的 条 状 的 行 (右边) 或 者 尽量 接近 正方 形 的 块 状 (左边 )。 于 是 在 块 状 
分 解 中 周 长 对 面积 的 比 ( 即 通信 计算 比 ) 为 


4x nM ph4xVp 
2 
n 


n/p 
而 在 条 状 分 解 的 情形 是 "区 2 或 2 2。 随 着 p 的 增加 ,和 条 状 分 解 相 比 , 块 状 分 解 导致 的 固有 通信 较 少 


何 找到 一 个 合适 的 负载 平衡 的 域 分 解 ， 同 时 还 是 低 通信 的 ? 这 取决 于 计算 的 性 质 和 它 
测 性 ， 我 们 可 以 通过 静态 或 半 静 态 技术 来 实现 。 


. HAS, MUM, WA Ocean 例子 中 的 方程 求解 器 内 核 。 这 要 求 计算 的 可 预测 性 ， 


并 且 通 常 导致 规则 形状 的 划分 ， 如 图 3-4 和 图 3-5 所 示 。 

静态 ， 通 过 分 析 。 计 算 和 通信 的 特点 可 能 不 仅 取决 于 输入 的 规模 ， 还 取决 于 在 运行 
时 表现 给 程序 的 输入 的 结构 ， 这 就 要 求 对 输入 进行 分 析 。 然 而 ， 划 分 可 能 只 需要 在 
分 析 输 入 后 在 实际 计算 开始 前 ， 一 次 性 完成 ， 因 此 我 们 仍然 将 这 种 情况 说 成 是 静态 
的 。 在 航空 和 车 辆 模拟 的 应 用 中 , 我 们 常常 在 稀 朴 矩阵 上 进行 计算 ， 其 中 要 做 的 划 
分 就 是 这 样 的 例子 : 矩阵 的 结构 是 固定 的 ， 但 高 度 地 非 规则 ， 因 此 要 求 复杂 的 图 划 
分 。 另 一 个 例子 是 数据 挖掘。 这 里 ， 我 们 可 以 将 交易 的 数据 库 在 进程 之 间 静 态 地 划 
分 。 由 于 和 不 同 的 物品 集合 相关 的 工作 量 是 不 相等 的 ， 数 据 库 中 记录 的 集合 要 在 进 
程 之 间 得 到 一 种 平衡 分 配 就 需要 某 些 分 析 。 一 种 简单 的 、 通 过 观察 将 物品 集合 和 数 
据 库 静 态 分 配 的 结果 能 保持 通信 低 ， 但 不 提供 负载 平衡 。 

半 静 态 ， 周 期 性 的 重 划分 。 这 种 情况 前 面 讨论 过 ， 像 Bames-Hut 那样 的 应 用 ， 其 特征 
是 计算 空间 随时 间 缓 慢 变化 。 域 分 解 对 于 减少 通信 仍然 是 重要 的 ， 我 们 在 3.5.2 节 
中 的 基于 性 态 的 Bames-Hut 案例 分 析 时 将 会 看 到 。 

尊 态 或 半 静 态 ， 动 态 任务 窃取 。 即 使 当 计算 高 度 不 可 预测 ， 必 须 用 动态 任务 窃取 时 ， 
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域 分 解 在 开始 将 任务 分 到 进程 时 可 能 是 有 用 的 。Raytrace 就 是 一 个 例子 。 这 里 有 两 个 
区 域 : 要 被 表现 的 三 维 场景 和 二 维 图 像 平 面 。 由 于 自然 的 任务 是 通过 图 像 平 面 的 光 
线 ， 管 理 平 面 的 区 域 划分 要 比 管理 场景 本 身 容 易 得 多 。 我 们 划分 图 像 平面 ， 很 像 方 
程 求解 器 内 核 中 的 网 格 (如 图 3-4 所 示 )， 图 像 的 像素 对 应 于 网 格 中 的 点 ， 将 那些 光 
线 初 始 分 给 相应 的 进程 。 这 是 有 用 的 ， 因 为 通过 相 邻 像素 上 的 光线 趋 于 达到 大 量 相 
同 的 场景 数据 。 进 程 然后 动态 地 窃取 光线 〈 像 素 ) 或 者 是 光线 组 ， 以 达到 负载 平衡 。 
当然 ， 将 计算 空间 划分 成 连续 的 子 域 给 每 一 个 进程 的 方法 ， 并 不 是 对 所 有 应 用 性 能 都 是 
适合 的 ; 习题 3.9 所 示 的 高 斯 消去 法 就 是 一 个 例子 。 即 便 对 于 Raytrace， 将 图 像 分 成 比 处 理 
器 数 多 的 块 ， 以 一 种 交叉 的 方式 分 给 处 理 器 可 能 更 有 利 ， 这 里 的 权衡 在 于 增加 了 通信 ， 但 动 
态 负载 平衡 可 能 会 更 好 些 。 另 外 ， 同 一 应 用 的 不 同 计算 阶段 也 可 能 希望 不 同 的 划分 。 如 上 所 
述 ， 尽 管 可 用 的 技术 是 方方面面 的 ， 但 还 是 存在 像 域 分 解 这 样 的 公共 原理 。 例 如 ， 即 使 是 在 
动态 性 很 强 的 应 用 中 为 了 负载 平衡 做 任务 窃取 ， 我 们 可 以 通过 每 次 以 同样 的 次 序 来 搜索 其 他 
队列 来 减少 通信 ， 或 者 一 次 窃取 较 大 的 任务 或 者 多 个 任务 来 减少 访问 非 本 地 队列 的 次 数 。 
除了 减少 并 行程 序 中 的 通信 量 ， 在 处 理 器 之 间 保 持 通信 的 平衡 (不 仅 是 计算 平衡 ) 也 是 
重要 的 。 由 于 通信 是 高 代价 的 ， 通 信 的 不 平衡 可 能 直接 转换 为 处 理 器 之 间 执 行 时 间 的 不 平 
衡 。 总 之 ， 在 划分 中 的 权衡 到 底 倾向 于 负载 平衡 还 是 通信 量 ， 取 决 于 在 给 定 系统 上 的 通信 代 
价 。 如 果 将 通信 作为 一 个 显 式 的 性 能 代价 参数 ， 我 们 可 进一步 细 化 加 速 比 上 界 为 ; 





Mikitan (P) Sas CARES He FEE ERT 

比较 先前 的 表达 式 ， 这 个 式 子 将 通信 从 工作 量 中 分 离开 来 。 工 作 量 现在 只 包括 执行 的 指 
令 数 加 上 本 地 数据 访问 的 代价 。 

并 行程 序 中 的 通信 显然 对 体系 结构 有 重要 的 影响 。 事 实 上 ， 系 统 结构 师 考察 应 用 的 需 
要 ， 来 确定 什么 样 的 通信 延迟 和 带宽 值得 花 钱 来 解决 〔 见 习题 3.14)。 例 如 ， 由 一 个 机 器 所 
提供 的 带宽 通常 能 够 通过 增加 硬件 意味 着 增加 钱 ) 得 到 增加 ， 但 是 否 值得 取决 于 应 用 是 否 
经 常会 用 到 这 些 带宽 。 作 为 系统 设计 师 ， 我 们 假设 提交 给 我 们 的 程序 在 负载 平衡 和 通信 要 求 
方面 是 合理 的 ， 于 是 我 们 努力 通过 提供 必要 的 支持 来 使 它们 的 性 能 更 好 。 让 我 们 现在 分 析 最 
后 一 个 能 够 在 划分 阶段 解决 的 ， 而 不 需要 涉及 底层 体系 结构 的 算法 层次 的 问题 。 


3.1.3 减少 额外 的 工作 


前 面 关于 域 分 解 的 讨论 告诉 我 们 ， 当 一 个 计算 是 非 规 则 时 ， 计 算 一 个 好 的 分 配 ， 既 提供 
负载 平衡 又 减少 通信 的 代价 是 相当 高 的 。 这 种 额外 的 工作 在 串 行 执行 时 并 不 需要 ， 它 是 并 行 
性 的 一 种 开销 。 考 虑 兢 朴 矩阵 例子 ， 前 面 在 解释 通过 分 析 方法 进行 静态 划分 时 讨论 过 。 稀 朴 
惩 阵 能 够 表示 为 一 个 图 ， 每 个 节点 代表 矩阵 的 一 行 或 者 一 列 ， 如 果 和 矩阵 的 (i, j) 元 素 非 
零 ， 则 在 节点 i 和 节点 j 之 间 存 在 一 条 边 。 划 分 的 目标 是 分 给 每 个 进程 一 个 节点 集合 使 得 计 
算是 负载 平衡 的 ， 同 时 跨 划 分 边界 的 边 数 尽量 少 。 人 们 已 经 研究 出 了 许多 聪明 的 划分 技术 ， 
力求 在 负载 平衡 和 降低 通信 需求 方面 取得 较 好 的 折 中 。 通 常 ， 效 果 较 好 的 划分 算法 本 身 的 执 
行 时 间 则 会 较 多 。 在 本 章 的 后 面 ， 我 们 会 看 到 这 一 点 在 Bames-Hut 中 得 到 进一步 体现 。 

除了 划分 ， 额 外 工作 的 另 一 个 常见 的 来 源 是 完 余 计算 : 多 个 进程 元 余地 计算 数值 ， 而 不 
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是 由 一 个 进程 计算 然后 传 给 其 他 进程 ; 在 通信 代价 高 时 ， 这 种 情况 也 许 是 较 好 的 折 中 。 这 样 
的 例子 包括 ， 在 计算 机 图 形 学 应 用 中 所 有 进程 计算 相同 的 投影 表 为 自己 所 用 ， 在 科学 计算 中 
计算 三 角 函 数 表 也 是 这 种 情形 。 如 果 宛 余 计 算 的 完成 是 在 处 理 器 否则 就 会 空闲 〈 由 于 负载 不 
平衡 ) 的 时 间 内 ， 其 代价 就 可 隐藏 起 来 。 

最 后 ， 协 调 并 行程 序 的 许多 方面 也 涉及 到 额外 的 工作 ， 诸 如 创建 进程 、 管 理 动态 任务 、 
在 机 器 上 分 配 代码 和 数据 、 执 行 同步 操作 和 并 行 控制 指令 、 针 对 一 个 机 器 将 通信 适当 地 结构 
化 、 将 通信 的 数据 打包 并 从 通信 的 消息 中 解 包 数据 等 等 。 例 如 ， 创 建 进程 的 高 代价 使 得 我 们 
在 程序 的 最 开始 创建 一 次 ， 然 后 让 它们 执行 任务 直到 结束 ， 而 不 是 由 一 个 主 进程 随 着 代码 的 
并 行 段落 的 进入 和 退出 ， 随 时 创建 和 撤销 进程 (创建 和 归并 fork-join 方式 ， 有 时 在 轻 量 级 线 
程 情况 下 用 到 )。 例 如 ， 在 数据 挖掘 案例 分 析 中 (3.5.4 节 )， 有 大 量 的 额外 工作 来 做 数据 库 
的 变换 ， 以 减 小 通信 、 同 步 和 昂贵 的 输入 /输出 活动 。 

当 作出 划分 决定 时 ， 我 们 必须 仔细 考虑 在 额外 工作 、 负 载 平衡 和 通信 之 间 的 折 中 。 通 过 
使 通信 和 任务 管理 更 高 效 ， 系 统 结构 能 够 帮助 减少 对 额外 工作 的 需要 。 基 于 这 些 算法 层次 的 
划分 要 素 ， 加 速 比 上 界 现 在 能 表达 为 : 





、 串 行 工作 量 
Mikaa P) < mix CORR MPS + aC BRI) OD 
3.1.4 小 结 


要 分 析 并 行 算法 的 性 能 ， 需 要 考虑 多 处 理 器 系统 特征 和 并 行 算法 的 特征 两 个 方面 。 在 过 
去 ， 并 行 算法 的 分 析 集中 在 算法 方面 ， 例 如 划分 和 对 拓扑 结构 的 映射 ， 没 有 考虑 其 他 体系 结 
构 的 相互 作用 。 事 实 上 ， 人 们 常用 所 谓 并 行 随机 存 取 存储 机 器 (PRAM) (Fortuen, Wyllie 
1978) 模型 来 表示 多 处 理 器 系统 ， 并 基于 它 来 做 算法 分 析 。 在 PRAM 最 基本 的 形式 中 ， 假 设 
数据 的 访问 是 没有 代价 的 ， 不 管 它 是 对 本 地 数据 还 是 涉及 到 通信 。 也 就 是 说 ， 在 加 速 比 表达 
式 中 ， 通 信 代 价 为 0， 工作 量 就 是 所 执行 的 指令 数 ; 





Az dBA 

加 率 比 -PRAMaw (P) <TR HS SERNER OD 

这 样 的 PRAM 模型 可 以 自然 地 对 应 共享 地 址 空间 的 机 器 ， 其 中 所 有 的 数据 访问 是 没 代价 

的 。 此 时 ， 在 算法 分 析 中 有 意义 的 性 能 要 素 是 负载 平衡 (包括 串 行 化 ) 和 额外 工作 。PRAM 

算法 设计 的 目标 是 揭示 足够 的 并 发 性 ， 从 而 使 工作 负载 能 很 好 地 平衡 而 不 引起 太 多 的 额外 工作 。 

PRAM 模型 对 于 发 现 一 个 算法 中 的 并 发 性 是 有 用 的 ， 这 是 在 并 行 化 中 的 第 一 步 ， 但 它 不 

是 在 真实 的 并 行 系统 上 性 能 的 一 个 实际 的 模型 。 这 是 由 于 PRAM 模型 忽略 了 通信 ， 而 通信 很 

容易 在 并 行 执行 代价 中 起 支配 作用 ， 在 通信 上 的 不 平衡 能 够 导致 指令 执行 的 不 平衡 。 事 实 

上 上， 在 分 析 算 法 的 时 候 不 考虑 通信 会 很 容易 导致 不 良 的 分 解 和 分 配 选 择 ， 对 协调 效果 的 影响 

更 大 。 最 近 人 们 开发 的 一 些 模型 将 通信 代价 作为 一 个 显 式 的 参数 ， 算 法 设计 人 员 能 用 它 对 算 

法 的 性 能 有 更 实际 的 评价 (Valiant 1990; Culler et al，1993) 。 在 对 通信 代价 有 了 更 好 的 理解 
后 ， 我 们 将 回 到 这 个 话题 上 来 。 

本 节 对 通信 代价 的 处 理 方式 ， 相 对 于 真实 系统 来 说 从 两 个 方面 做 了 简化 。 首 先 ， 并 行程 

序 中 国有 的 通信 和 它 的 划分 不 是 仅 有 的 重要 通信 形式 : 由 于 程序 和 它 赖 以 运行 的 系统 结构 的 
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相互 作用 ,大量 非 固有 的 或 人 工 的 通信 可 能 发 生 。 这 样 ， 我 们 到 现在 为 止 还 没有 对 并 行程 序 
产生 的 通信 重建 立 起 一 个 满意 的 模型 。 再 者 ， 在 公式 (3-1) 中 的 通信 代价 不 仅 是 由 所 引起 
的 通信 量 (不 管 是 固有 还 是 附加 ) 所 决定 的 ， 还 和 程序 中 通信 的 结构 和 它 与 机 器 中 基本 通信 
操作 的 代价 的 相互 作用 有 关 。 附 加 通信 和 和 通信 的 结构 是 重要 的 性 能 要 素 ， 由 于 它们 是 和 体系 
结构 有 关 的 ， 通 常 在 协调 步骤 中 讨论 。 为 了 理解 它们 ， 我 们 需要 对 并 行 系统 结构 和 并 行 软件 
的 某 些 关 键 的 相互 作用 有 更 深 的 理解 。 


3.2 在 多 存储 器 系统 中 的 数据 访问 和 通信 


在 关于 划分 的 讨论 中 ， 我 们 将 多 处 理 器 系统 看 成 一 个 相互 协作 进程 的 集合 。 然 而 ， 多 处 
理 器 系统 也 是 多 存储 器 系统 、 多 高 速 缓存 系统 。 系 统 这 些 组 成 部 分 的 作用 对 程序 执行 性 能 是 
十 分 重要 的 ， 并 日 其 重要 性 与 程序 设计 模型 无 关 (尽管 程序 设计 模型 可 能 影响 某 些 性 能 折 中 
考虑 的 特性 )。 下 面 的 讨论 将 主要 集中 在 与 这 种 多 存储 系统 中 的 数据 访问 有 关 的 问题 上 ， 看 
它们 是 如 何 影响 性 能 的 。 在 这 里 ， 我 们 从 一 种 不 同 的 角度 来 看 多 处 理 器 系统 。 


3.2.1 看 作 扩展 的 存储 层次 结构 的 多 处 理 器 系统 


从 单个 处 理 器 的 角度 ， 可 以 将 机 器 中 所 有 的 存储 器 (包括 其 他 处 理 器 中 的 高 速 缓存 ) 看 
作 一 种 扩充 的 存储 层次 结构 。 通 信 体 系 结构 将 这 个 层次 在 不 同 节点 上 的 部 分 连 到 一 起 。 在 一 
个 单 处 理 器 系统 上 ， 不 同 层次 的 存储 设施 的 相互 作用 (例如 ， 高 速 缓存 大 小 、 关 联 度 、 存 储 
块 大 小 ) 能 引起 对 某 些 数据 的 访问 比 另外 一 些 要 快 得 多 ， 还 可 能 引起 数据 在 不 同 层次 之 间 的 
传送 ， 其 规模 比 程序 本 身 要 求 的 要 多 。 类 似 地 ， 在 多 处 理 器 系统 ， 这 种 扩展 存储 层次 结构 中 
的 相互 作用 能 引起 较 多 通信 (数据 跨 网 络 传送 ) ， 也 比 并 行程 序 本 身 所 要 求 的 多 。 由 于 通信 
是 有 代价 的 ， 在 这 种 扩展 存储 层次 开发 数据 的 局 部 性 就 显得 特别 重要 ， 既 改善 节点 性 能 又 减 
少 节 点 间 额 外 通信 。 

即使 是 在 单 处 理 器 系统 ， 处 理 器 的 性 能 很 大 程度 上 也 是 依赖 于 存储 层次 的 性 能 。 高 速 组 
存 的 作用 是 极端 重要 的 ， 不 考虑 它 的 影响 ， 讨 论 性 能 就 没有 什么 意义 。 我 们 可 以 通过 完成 一 
个 程序 的 时 间 来 看 一 个 系统 的 性 能 ， 它 包含 两 个 成 分 ， 处 理 器 忙于 执行 指令 的 时 间 和 它 等 竺 
来 自 存储 系统 的 数据 的 时 间 。( 输 入 /输出 活动 可 以 和 数据 访问 一 起 考虑 或 者 单独 处 理 ) 


程序 执行 时 间 (1) = CPU 繁忙 时 间 (1) + CPU 等 待 数据 访问 时 间 (1) (3-3) 


作为 系统 结构 设计 师 ， 我 们 经 常 将 这 个 公式 规格 化 ， 其 方法 是 用 热 行 的 指令 数 除 以 各 
项 ， 用 时 钟 周 期 数 来 度量 时 间 。 于 是 我 们 就 有 了 一 个 方便 的 、 面 向 机 器 的 性 能 度量 指标 ， 即 
每 条 指令 所 需 的 周期 数 〈CPI) ， 它 由 理想 CPL 加 上 每 条 指令 数据 访问 停滞 周期 的 平均 数 构 
成 。 在 现代 微 处 理 器 中 ， 每 周期 发 送 4 条 指令 ， 程 序 中 的 依赖 关系 可 能 将 平均 发 送 率 限制 到 
每 周期 2.5 条 指令 或 者 说 理想 CPI 为 0.4。 如 果 这 些 指令 的 19% 引 起 缓存 扑 空 ， 一 个 扑 空 平均 
引起 80 个 周期 的 停滞 ， 那 么 这 些 停滞 将 导致 每 个 指令 增加 额外 的 0.8 个 周期 。 这 样 ， 处 理 
am AE TE 1/3 的 时 间 里 忙于 做 有 用 的 工作 ! 当然 ,另外 的 2/3 时 间 事 实 上 是 “有 用 ”的 : 它 
是 花 在 和 存储 系统 通信 访问 数据 的 时 间 。 认 识 到 这 种 数据 访问 的 代价 ， 我 们 就 要 优化 程序 或 
机 器 更 高 效 地 完成 数据 访问 。 例 如 ， 我 们 可 以 改变 程序 的 数据 布局 以 增加 时 间或 空间 局 部 
性 ， 或 者 我 们 提供 更 大 的 高 速 缓存 或 某 种 包容 延迟 的 机 制 。 
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在 多 处 理 器 中 ， 一 种 理想 的 看 待 这 种 扩展 存储 层次 的 观点 是 ， 局 部 高 速 缓存 层次 连接 到 
下 一 层次 的 一 个 中 央 存 储 嚣 上。 实际 七 ， 情 况 要 复杂 些 。 即 使 是 有 集中 共 训 存储 器 的 机 器 ， 
在 本 地 高 速 缓存 外 是 多 模块 的 存储 和 其 他 处 理 器 的 高 速 缓存 。 如 果 是 物理 上 分 布 的 存储 器 ， 主 
存 的 一 部 分 也 是 局 部 的 ， 大 部 分 是 远程 的 并 且 对 一 个 处 理 器 是 远程 的 ， 对 另 一 个 则 是 局 部 的 。 

程序 设计 模型 的 不 同 反映 出 层次 结构 管理 的 不 同 。 我 们 总 是 假设 处 理 器 中 的 寄存 器 由 编 
译 器 来 管理 。 我 们 也 总 是 假设 前 几 级 高 速 缓存 总 是 由 硬件 透明 地 管理 。 在 共享 地 址 空间 模型 
F, 数据 在 远程 节点 和 本 地 节点 之 间 的 移动 对 用 户 程序 来 说 也 是 透明 的 。 无 论 管理 情况 如 
何 ， 接 近 于 处 理 器 的 存储 级 别提 供 较 高 的 带宽 和 较 低 的 数据 访问 延迟 。 同 样 ， 在 这 里 我 们 可 
以 通过 改进 扩展 的 存储 结构 或 者 程序 的 局 部 性 来 改善 数据 访问 的 性 能 。 

开发 局 部 性 暴露 出 一 种 并 行 性 的 折 中 ， 类 似 于 减少 通信 。 并 行 性 可 能 引起 更 多 的 处 理 器 
访问 相同 的 数据 ， 将 数据 移 到 每 个 处 理 器 中 ， 而 每 个 处 理 器 期 望 它 自己 的 数据 放 在 靠近 它 的 
地 方 。 高 性 能 并 行程 序 除 了 很 好 的 并 行 化 外 ， 需 要 从 每 个 处 理 器 获得 高 性 能 (通过 在 扩展 存 
储 层次 中 开发 局 部 性 )。 


3.2.2 在 扩展 的 存储 层次 结构 中 的 附加 通信 


在 这 种 扩展 存储 结构 中 ， 不 能 被 本 地 〈 本 节点 ) 满足 的 数据 访问 产生 通信 。 固 有 通信 是 
其 一 部 分 : 通过 显 式 消息 或 者 是 读 写 操作 ， 数 据 通 过 这 个 存储 结构 从 一 个 处 理 器 移动 到 另 一 
个 处 理 器 。 然 而 ， 在 程序 实际 执行 中 所 发 生 的 通信 量 通常 大 于 并 行 算 法 中 的 固有 进程 间 通 信 
量 。 额 外 的 通信 是 人 为 的 ， 来 源 于 程序 实现 的 具体 情况 和 它 和 机 器 的 扩展 存储 层次 的 相互 作 
用 。 这 种 人 为 的 通信 有 许多 来 源 ; 

”数据 存储 分 配 得 不 好 。 一 个 节点 要 访问 的 数据 可 能 分 配 在 另 一 个 节点 的 局 部 存储 器 中 。 
无 论 数 据 是 否 被 其 他 节点 修改 ， 对 远程 数据 的 访问 引起 通信 。 消 除 这 样 的 数据 传送 
可 能 有 不 同 的 方法 ， 例 如 更 好 的 任务 分 配 或 更 好 的 数据 分 布 或 将 数据 复制 在 本 地 。 
传送 中 的 非 必 要 数据 。 在 一 次 传送 中 ， 可 能 实际 通信 的 数据 多 于 所 需 的 。 例 如 ， 由 
于 发 送 方 不 能 精确 确定 要 送 什么 数据 ， 可 能 会 保守 地 多 送 些 数据 ， 于 是 接收 方 可 能 
用 不 了 一 条 消息 中 的 所 有 数据 。 类 似 地 ， 如 果 数 据 以 大 于 一 个 字 的 单位 〈 例 如 ， 高 
速 缓存 数据 块 ) 隐 式 传送 ， 块 的 一 部 分 可 能 对 请 求 者 没 用 。 这 种 附加 通信 可 以 通过 
较 小 的 传送 来 消除 。 
由 于 其 他 系统 粒度 带 来 的 不 必要 的 传送 。 在 缓存 一 致 性 机 器 中 ,数据 保持 一 致 性 的 
典型 粒度 大 于 一 个 字 ， 为 了 保持 数据 的 一 致 性 可 能 会 导致 附加 通信 ， 在 后 面 的 章节 
我 们 将 要 讨论 这 个 问题 。 
” 宛 余 数据 通信 。 数 据 可 能 多 次 通信 〈 例 如， 每 当 数据 值 变化 时 )， 但 只 是 最 后 的 值 被 实 
际 用 到 。 在 另 一 方面 ， 由 于 难以 确定 ， 数 据 可 能 通信 到 已 经 有 了 最 新 值 的 一 个 进程 。 
有 限 的 复制 能 力 。 当 数据 要 被 进程 多 次 访问 时 ， 通 信 的 数据 通常 在 本 地 复制 以 避免 
重复 的 通信 。 然 而 ， 在 一 个 节点 上 复制 的 容量 是 有 限 的 一 一 不 管 是 在 高 速 缓存 还 是 
在 主 存 一 一 因此 已 经 从 进程 A 到 进程 B 通信 的 数据 可 能 在 B 的 局 部 存储 系统 被 替换 
掉 ， 因 此 需要 再 次 传送 ， 即 使 A 并 没有 修改 也 是 如 此 。 

相 比 之 下 ， 固 有 通信 指 的 仅 是 程序 本 身 所 要 求 的 数据 传送 ， 就 好 像 是 本 地 复制 容量 是 无 
限 的 并 且 对 于 共享 的 数据 已 被 更 新 或 已 被 传送 具有 完整 的 知识 。 当 我 们 深入 讨论 体系 结构 
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时 ， 将 会 对 附加 通信 的 来 产 有 更 好 的 理解 。 最 后 让 我 们 再 看 看 最 后 一 种 附加 通信 的 来 源 (有 
限 复制 能 力 ) 它 有 特别 深刻 的 影响 。 


3.2.3 用 工作 集 的 观点 看 附加 的 通信 和 和 数据 的 复制 


在 并 行 系统 中 ， 有 限 复制 容量 和 附加 通信 的 关系 是 相当 基本 的 ， 就 好 像 是 单 处 理 器 系统 
中 高 速 缓存 大 小 和 存储 访问 量 的 关系 ; 只 讲 通 信 重 而 不 提 到 数据 复制 的 容量 几乎 是 没有 意义 
的 。 扩 展 存储 层次 的 观点 可 用 于 分 析 这 种 关系 。 我 们 可 以 将 多 处 理 器 看 成 是 一 个 三 层 存 储 结 
CIR E e ne Ee RATT 
层 都 是 高 速 缓存 ， 不 管 它 是 实际 由 硬件 管理 的 ， 还 是 由 系统 或 应 用 软件 管理 的 。 然 后 我 们 就 
能 谈论 任何 一 级 的 -要 ”， 从 而 产生 对 下 一 级 的 流量 ， 就 像 我 们 对 单 处 理 器 那样 。 在 任何 
一 级 ,这 流量 的 一 部 分 源 于 冷 启 动 失效 ， 源 于 处 理 器 对 数据 的 首次 访问 。 这 一 部 分 ， 在 单 处 
理 器 中 也 称 为 又 起 流量 ， 是 独立 于 高 速 组 存 大 小 的 。 这 样 的 冷 启动 扑 空 随 着 程序 的 执行 逐渐 
减 小 。 然 后 是 由 于 容量 扑 空 的 流量 ， 它 显然 随 高 速 缓存 增 大 而 减 小 。 流 量 的 第 三 部 分 可 能 是 
冲突 扑 空 ， 它 的 减 小 要 靠 更 大 的 关联 度 、 更 多 的 高 速 缓存 块 或 者 改变 数据 访问 的 模式 。 这 三 
种 扑 空 :或 流量 在 单 处 理 器 体系 结构 中 称 为 30 YO 容量 和 冲突 。 在 多 处 理 器 系统 中 ， 
有 第 4 个 C， 即 通信 扑 空 ， 由 处 理 器 之 间 的 固有 通信 或 者 某 种 前 面 所 讨论 的 附加 通信 引起。 
如 同 冷 启动 扑 空 ， 通 信 扑 空 不 随 高 速 绥 存 大 小 的 改变 而 减 小 。 取决 于 空间 局 部 性 的 情况 ， 数 
据 传送 的 粒度 可 能 从 正 反 两 方面 影响 流量 的 每 一 个 部 分 。 

如 果 我 们 要 确定 当 复制 能 力 〈 即 高 速 缓存 大 小 ) 在 相应 层次 增加 ， 因 为 各 种 扑 空 并 行程 
序 执行 产生 的 流量 ， 我 们 可 以 得 到 如 图 3-6 所 示 的 曲线 。 该 曲线 有 几 个 拐点 。 这 些 拐 点 对 应 
于 算法 的 工作 全 ， 它 们 和 存储 层次 结构 的 对 应 级 别 相关 .9 对 于 第 一 级 高 速 缓存 ， 它 们 是 算 
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B36 随 高 速 缓存 规模 变化 ， 在 它 和 系统 其 他 部 分 之 间 的 数据 流量 ， 以 及 数 
据 流量 的 不 同 成 分 。 在 总 体 流量 曲线 上 的 拐点 指出 了 程序 的 工作 集 





O 程序 行为 的 工作 集 模型 《Denning 1968) 是 基于 程序 数据 引用 的 模式 所 表现 出 来 的 时 间 局 部 性 。 在 这 种 模型 下 ， 

一 个 程序 〈 或 者 说 是 并 行程 序 的 一 个 进程 ) 有 一 个 数据 集 ， 它 会 在 一 段 时 间 内 重复 使 用 后 ， 才 移动 到 其 他 的 数 

ee 在 数据 集 之 间 的 迁移 可 能 是 突然 的 ， 也 可 能 是 逐渐 的 。 不 管 是 哪 种 情况 ， 在 大 多 数 时 间 下 都 有 一 个 数 
“工作 集 "， 处 理 器 应 该 能 够 将 其 维持 在 存储 层次 体系 的 快速 层 上 ， 来 有 效 地 利用 它 的 速度 。 
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法 本 身 的 工作 集 ; 对 于 其 他 层次 ， 取 决 于 其 他 层次 是 如 何 将 数据 引用 过 滤 下 来 的 ， 还 取决 于 
该 层次 是 如 何 管理 的 。 第 一 级 缓存 的 曲线 (假定 全 关联 ，1 个 存储 字 的 块 大 小 ) 是 算法 的 工 
作 集 曲线 。 

从 任何 这 些 扑 空中 产生 的 流量 可 能 引起 跨越 机 器 互连网 络 的 通信 ， 例 如 ， 如 果 下 一 级 存 
储 恰好 在 远程 节点 上 。 类 似 地 ， 如 果 这 下 级 存储 在 本 地 的 话 ， 任 何 类 型 的 扑 空 对 本 地 流量 也 
有 影响 ， 引 起 本 地 数据 访问 的 开销 。 这 样 ， 可 以 期 望 许多 用 于 减少 附加 通信 的 技术 和 单 处 理 
器 上 那些 用 于 开发 局 部 性 的 技术 类 似 。 进 程 运行 在 不 同 的 处 理 器 上 ， 固 有 通信 几乎 总 要 在 机 
器 上 产生 实际 的 通信 〈 除 了 所 需 的 数据 已 在 本 地 外 ， 后 面 会 见 到 这 种 情况 )。 这 些 扑 空 只 能 
由 算法 中 的 逻辑 共享 模式 来 减少 。 除 此 以 外 ,我 们 还 要 减少 那些 源 于 传送 大 小 和 有 限 的 复制 
能 力 的 附加 通信 ， 我 们 可 以 通过 开发 进程 在 扩展 存储 结构 中 的 数据 访问 的 空间 和 时 间 局 部 性 
来 达到 。 改 变 分 配 和 协调 能 够 明显 改变 局 部 性 特征 ， 包 括 工作 集 曲 线 的 形状 。 

最 后 ， 给 定 通信 量 ， 从 处 理 器 看 它 受 通信 结构 的 影响 的 代价 。“ 结 构 ” 在 此 意味 着 消息 
的 大 小 、 通 信 突 发 的 程度 、 通 信 代 价 是 否 能 和 其 他 的 计算 或 通信 重 僵 (这 个 问题 在 协调 部 分 
讨论 )、 还 有 通信 模式 和 互连网 络 拓 扑 结 构 的 匹配 程度 (这 将 在 映射 阶段 讨论 )。 无 论 是 固有 
的 或 者 附加 的 ， 减 少 通信 和 量 都 很 重要 ， 因 为 它 减少 了 对 系统 和 程序 员 降 低 通 信 代 价 的 要 求 。 
前 面 我 们 从 扩展 的 层次 存储 结构 的 观念 了 解 了 机 器 ， 以 及 它 所 引起 的 主要 问题 。 下 面 我 们 来 
看 如 何 从 软件 的 角度 考虑 这 些 和 体系 结构 有 关 的 问题 一 一 即 一 旦 划分 完成 ， 如 何 写 出 高 效率 
的 程序 。 


3.3 性 能 的 协调 


我 们 从 讨论 开发 时 间 和 空间 局 部 性 以 降低 附加 的 通信 量 开始 ， 然 后 是 通信 的 结构 化 ， 包 
括 固 有 的 和 附加 的 ， 以 减少 通信 开销 。 


3.3.1 减少 附加 通信 


在 消息 传递 模型 中 ， 通 信和 复制 都 是 显 式 的 ， 即 使 是 附加 通信 ， 也 是 显 式 地 编码 在 程序 
中 。 在 共享 存储 地 址 空间 中 ， 由 于 附加 通信 隐 含 地 发 生 在 程序 和 机 器 组 织 之 间 ， 从 体系 结构 
的 角度 来 看 它们 更 令 人 感 兴趣 。 特 别 值得 关注 的 是 有 限 的 高 速 缓存 大 小 和 数据 存储 分 配 ， 通 
信和 保持 高 速 缓存 一 致 性 的 粒度 。 我 们 因此 用 一 个 共享 地 址 空间 来 解释 开发 局 部 性 中 的 问 
题 ， 其 目的 既 在 于 改进 节点 性 能 又 在 于 减少 附加 通信 。 

1. 开发 时 间 局 部 性 

称 一 个 程序 具有 时 间 局 部 性 ， 如 果 它 在 一 段 短 时 间 里 倾向 于 重复 访问 相同 的 存储 单元 。 
给 定 一 个 存储 层次 结构 ， 开 发 时 间 局 部 性 的 目标 是 要 构造 算法 使 它 的 工作 集 和 该 层次 结构 的 
不 同 层次 有 很 好 的 映射 。 对 程序 员 来 说 ， 这 通常 意味 着 追求 小 的 工作 集 ， 同 时 也 不 能 小 到 因 
其 他 原因 损失 性 能 。 有 多 种 用 于 减 小 工作 集 的 技术 ， 其 中 之 一 是 和 减 小 固有 通信 相同 的 〈 将 
那些 倾向 于 访问 相同 数据 的 任务 分 配 到 相同 的 处 理 器 ) 这 进一步 说 明了 通信 和 局 部 性 的 关 
系 。 一 旦 分 配 完成 ， 分 给 一 个 进程 的 计算 任务 就 可 能 组 织 成 使 访问 相同 数据 的 任务 在 时 间 上 
调度 得 近 一 些 ， 从 而 尽 可 能 地 重用 数据 ， 然 后 再 移 到 其 他 数据 ， 而 不 是 在 不 同 的 数据 块 之 间 
来 回 改 变 。 

在 同一 个 计算 阶段 中 ， 当 多 种 数据 结构 被 访问 时 ， 我 们 必须 决定 哪 一 个 是 最 重要 的 时 间 
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局 部 性 开发 的 对 象 。 由 于 通信 比 局 部 访问 代价 要 大 ， 我 们 可 能 更 应 该 开发 非 本 地 数据 的 时 间 
局 部 性 。 考 虑 一 种 数据 库 应 用 ， 其 中 一 个 进程 要 将 它 的 某 种 类 型 的 记录 和 其 他 进程 的 所 有 记 
录 相 比较 。 这 里 有 两 种 选择 : 1) 对 每 一 个 它 自己 的 记录 ， 该 进程 遍历 所 有 其 他 ( 非 本 地 ) 
记录 ， 进 行 比较 ; 2) 对 每 一 个 非 本 地 记录 ， 进 程 遍历 它 自己 的 记录 ， 进 行 比较 。 后 者 开发 
了 非 本 地 数据 的 时 间 局 部 性 ， 因 此 可 能 得 到 较 好 的 总 体 性 能 。 例 3.1 针对 我 们 方程 求解 器 的 
内 核 讨论 了 时 间 局 部 性 。 

例 3.1 在 方程 求解 器 的 内 核 中 ， 时 间 局 部 性 开发 到 什么 程度 ?如何 可 能 增加 时 间 局 部 性 ? 

解答 : ”方程 求解 器 内 核 只 是 遍历 单个 数据 结构 。 在 一 个 进程 划分 内 部 的 一 个 典型 网 格 
元 素 至 少 要 被 该 进程 在 每 次 遍历 时 访问 5 次 : 计算 它 自己 的 新 值 至 少 要 访问 一 次 ; 计算 它 4 
个 近邻 的 新 值 时 每 个 至 少 访问 一 次 。 如 果 一 个 进程 以 行 优先 的 方式 遍历 它 的 网 格 划分 〈 即 一 
行 一 行 地 从 左 到 右 进 行 遍历 ， 如 图 3-7a MAN), 那么 4 Ci, j) 可 在 更 新 同一 行 和 它 相关 的 
3 个 元 素 时 保证 得 到 重用 : A [i, j-1], A [i, jl, A Ci, j+1]。 然 而 , 在 算 4 li, i] 
和 4 [i+1, j] 的 新 值 之 间 ， 该 进程 要 访问 它 的 划分 中 的 3 个 整 行 元 素 。 如 果 这 3 行 不 能 
一 次 都 装 在 高 速 缓 在 中， 那么 当 需 要 它 来 计算 4 [i+1， 门 的 时 候 ，4 [i， 门 就 不 会 在 高 
速 缓存 中 。 

如 果 数 据 的 后 援 存储 是 非 本 地 的 ， 就 要 导致 附加 通信 。 这 个 问题 可 通过 改变 元 素 计算 的 
次 序 来 改善 ， 如 图 3-7b 所 示 。 从 根本 上 讲 ， 一 个 进程 从 左 至 右 推进 ， 不 是 遍历 进程 所 得 划 
分 的 整 行 的 长 度 ， 而 是 只 到 某 个 长 度 8， 然 后 就 移 到 下 一 行 对 应 的 部 分 。 它 遍历 的 方式 通过 
每 次 遍历 它 的 Bx B 子 块 来 完成 。 块 的 大 小 B 的 选择 在 于 划分 中 至 少 3 个 B 长 度 的 行 能 放 
到 高 速 缓存 中 。 当 然 ， 这 改变 了 元 素 更 新 的 顺序 ， 从 而 也 就 可 能 改变 收敛 的 性 质 〈 如 果 用 红 
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图 3-7 在 方程 求解 内 核 中 为 开发 时 间 局 部 性 的 数据 成 组 方式 。 图 中 反映 了 一 个 进程 在 一 次 迁 代 中 遍历 
其 划分 的 数据 访问 模式 , 箭头 指向 的 线段 表示 网 格 点 被 访问 的 次 序 。 更 新 颜色 加 深 元 素 的 子 行 
要 求 对 该 行 的 访问 , 还 要 求 对 阴影 部 分 子 行 的 访问 。 更 新 下 一 子 行 ( 阴 影 部 分 的 ) 第 一 个 元 素 ， 
要 求 再 次 访问 颜色 加 深 行 的 第 一 个 元 素 , 但 这 3 个 子 行 ( 加 深 的 和 阴影 的 ) 自从 上 一 次 加 深 元 
素 访问 时 已 经 被 访问 过 了 。 通 过 改变 更 新 次 序 ， 成 组 的 访问 模式 以 一 定 比例 改善 了 数据 的 重用 性 


这 种 技术 称 为 成 组 技术 ， 它 将 计算 结构 化 使 得 它 所 访问 数据 的 子 集 能 够 适应 存储 层次 某 
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一 级 别 ， 尽 可 能 地 使 用 那些 数据 ， 然 后 移 到 数据 的 下 一 个 这 样 的 子 集 。 在 方程 求解 器 内 核 
中 ， 采 用 成 组 技术 后 扑 空 率 的 降低 只 是 一 个 小 的 常数 因子 (大约 是 2)。 这 个 降低 只 是 当 网 
格 在 进程 划分 的 3 个 子 行 在 高 速 缓存 中 容纳 不 下 时 才能 发 生 ， 因 此 成 组 技术 不 总 是 有 用 的 。 
然而 ， 在 诸如 和 矩阵 相 乘 或 矩阵 因子 分 解 等 线性 代数 计算 中 ， 使 用 成 组 技术 非常 成 功 。 这 样 的 
计算 通常 有 复杂 性 0(n**!')， 对 应 的 数据 规模 为 0(n" )， 因 此 每 个 数据 项 要 被 访问 O(m ) 次 。 
在 这 些 情 形 下 有 效 地 用 这 种 成 组 技术 ， 如 果 组 的 大 小 是 Bx B， 则 扑 空 率 降低 因子 为 B。 这 
是 很 有 意义 的 ， 因 为 多 数 数 据 访问 都 是 非 本 地 的 。 不 足 为 奇 ， 许 多 这 种 类 型 的 重 构 技 术 也 用 
来 改善 顺序 程序 中 的 时 间 局 部 性 : 例如 ， 在 顺序 矩阵 计算 中 ， 成 组 对 于 获得 高 性 能 也 很 关 
键 ， 如 习题 3.10 所 示 。 用 于 时 间 局 部 性 的 技术 可 以 用 在 有 数据 复制 层次 结构 的 任何 一 级 
(包括 主 存 ) 无 论 是 显 式 复制 还 是 隐 式 复制 。 

时 间 局 部 性 和 程序 中 的 数据 访问 模式 对 于 并 行 体系 结构 有 重要 的 影响 。 例 如 ， 它 们 帮助 
决定 系统 应 该 支持 哪 一 个 程序 设计 模型 和 通信 抽象 ， 这 是 我 们 在 3.6 节 要 考虑 的 问题 。 工 作 
集 的 大 小 和 变化 规模 ， 对 于 在 存储 层次 的 不 同 级 别 所 需 的 复制 容量 有 明显 的 影响 ， 对 于 该 层 
次 中 有 意义 的 级 别 数 也 有 影响 。 在 缓存 一 致 性 共享 存储 空间 中 ， 工 作 集 的 大 小 和 编 配 ( 即 它 
们 只 包括 本 地 数据 ， 还 是 远程 数据 ， 还 是 两 者 都 有 ) 有 助 于 确定 在 本 地 主 存 复 制 通信 的 数据 
是 否 有 用 ,或 是 简单 地 依赖 高 速 缓存 的 有 用 性 ; 如 果 有 用 的 话 ， 该 如 何 实现 。 在 消息 传递 系 
统 中 ， 它 们 帮助 我 们 确定 什么 数据 该 复制 ， 如 何 管理 复制 。 当 然 ， 确 定 存 储 层次 的 大 小 ， 不 
仅 是 个 别 应 用 的 工作 集 ， 而 是 运行 在 机 器 上 的 整个 工作 负载 和 操作 系统 。 对 于 硬件 高 速 缓存 
来 说 ， 需 要 存放 工作 集 的 高 速 缓存 的 大 小 还 取决 于 它 的 组 织 (关联 度 和 块 的 大 小 )。 

2. 开发 空间 局 部 性 

在 我 们 的 扩充 存 鱼 层次 结构 中 ， 一 个 级 别 和 下 一 个 级 别 以 某 种 数据 传送 粒度 交换 数据 。 
这 个 粒度 可 能 是 固定 的 (例如 ， 一 个 高 速 缓存 块 或 者 主 存 的 一 页 ) 也 可 能 是 灵活 的 (例如 ， 
显 式 的 、 用 户 控制 的 消息 或 者 用 户 定义 的 对 象 ) 。 它 通常 随 着 我 们 离 处 理 器 越 远 ， 变 得 越 大 ， 
由 于 每 次 传送 的 延迟 和 固定 的 启动 代价 变 得 越 来 越 大 ， 因 此 应 该 在 较 大 数据 量 中 分 扒 。 为 了 
开发 较 大 的 通信 和 数据 传输 粒度 ， 我 们 应 该 按照 开发 空间 局 部 性 的 原则 组 织 我 们 的 代码 和 数 
据 结构 ?如 果 不 这 样 做 ， 就 可 能 导致 附加 通信 ， 例 如 传送 是 在 远程 节点 之 间 发 生 并 且 是 降 
式 的 〈 以 某 种 固定 的 粒度 ) ， 如 同 共享 存储 系统 那样 。 即 便 传送 是 显 式 的 并 且 大 小 由 用 户 来 
确定 ， 不 好 的 空间 局 部 性 可 能 导致 代价 更 高 的 通信 ， 因 为 较 小 的 消息 可 能 要 被 发 送 或 者 数据 
在 被 发 送 之 前 要 被 打包 成 连续 的 。 如 同 在 单 处 理 器 一 样 ， 差 的 空间 局 部 性 也 可 能 导致 高 的 
TLB 扑 空 频率 。 

在 共享 地 址 空间 中 ， 附 加 通信 也 可 能 源 于 空间 局 部 性 和 另外 两 种 重要 的 粒度 的 不 匹配 。 
一 个 是 存储 分 配 粒度 ， 它 是 数据 在 本 地 存储 器 或 者 复制 空间 中 分 配 的 粒度 (例如 ， 主 存 中 的 
一 页 )。 这 确定 了 数据 能 在 物理 的 主 存 中 分 布 的 粒度 ; 即 ， 当 数据 通过 操作 系统 以 页 为 粒度 
分 配 时 ， 我 们 不 应 该 将 一 页 的 一 部 分 分 配 到 一 个 节点 的 存储 器 中 ， 而 另 一 部 分 分 配 到 另 一 节 
点 的 存储 器 中 。 假 如 有 两 个 经 常 被 两 个 处 理 器 访问 的 存储 字 落 到 了 同一 页 上 ， 这 一 页 只 能 在 
一 个 处 理 器 的 局 部 存储 器 中 ; 在 这 种 情况 下 ， 容 量 或 者 冲突 造成 的 缓存 扑 空 对 于 男 一 个 处 理 





O ”空间 局 部 性 原理 讲 的 是 : 如 果 一 个 存储 单元 现在 被 访问 ， 那 么 和 它 在 地 址 空间 上 接近 的 存储 单元 很 可 能 在 最 近 
要 被 访问 。 很 清楚 ， 在 存储 字 的 粒度 上 表现 出 来 的 空间 局 部 性 也 可 以 看 成 是 在 高 速 缓存 块 或 更 大 粒度 上 的 时 间 
局 部 性 ; 即 如 果 现 在 访问 一 个 缓存 块 ， 那 么 在 最 近 很 可 能 还 要 访问 它 。 
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器 要 访问 的 字 将 产生 通信 。 另 一 个 重要 的 粒度 是 一 致 性 粒度 ， 其 中 在 一 致 性 共享 地 址 空间 中 
不 相关 ， 但 碰巧 都 位 于 相同 的 一 致 性 单元 的 字 也 可 能 引起 附加 通信 。 这 个 问题 称 为 伪 共 享 ， 
将 在 第 5 章 进 一 步 讨论 。 

在 共享 地 址 空间 中 ， 类 似 于 那些 用 在 单 处理 器 中 的 技术 ， 开 发 空间 局 部 性 的 所 有 这 些 方 
面 所 用 的 技术 都 可 用 ， 但 有 一 个 新 的 方面 : 我 们 应 该 力图 保持 一 个 处 理 器 访问 的 数据 在 地 址 
空间 上 靠近 (连续 )， 而 不 同 处 理 器 的 数据 分 开 。 讨 论 共 享 地 址 空间 中 的 空间 局 部 性 问题 最 
好 的 方式 是 和 某 个 特定 的 体系 结构 结合 起 来 ， 我 们 将 在 第 5、8 章 有 这 样 的 讨论 。 这 里 ， 作 
为 说 明 的 例子 ， 我 们 看 在 方程 求解 器 内 核 中 ， 数 据 可 以 怎样 重 构 ， 以 便 和 存储 分 配 的 粒度 相 
互 作 用 得 更 好 。 

例 3.2 考虑 一 个 共享 地 址 空间 的 系统 ， 其 中 主 存 物理 上 分 布 在 节点 上 ， 主 存 分 配 的 粒 
度 是 页 《比如 4 KB)。 假 设 一 个 给 定 的 页 只 是 在 一 个 节点 的 存储 器 中 分 配 。 现 在 考虑 用 于 方 
程 求解 器 内 核 中 的 网 格 。 这 个 存储 分 配 的 粒度 引起 了 什么 问题 ， 它 如 何 解决 ? 

解答 : 在 共享 地 址 空间 中 ， 如 同 在 串 行程 序 ， 表 示 一 个 二 维 网 格 的 自然 数据 结构 是 一 个 
二 维 数组 。 在 一 个 上 典型 的 程序 设计 语言 中 ， 一 个 二 维 数 组 数据 结构 以 行 优先 或 者 列 优先 分 配 
存储 器 。 在 图 3-8a 中 从 左 至 右 的 箭头 表示 以 行 优先 方式 分 配 时 虚拟 地 址 的 连续 性 ， 我 们 下 
面 也 假设 这 种 情况 。 由 于 和 串 行 程序 中 使 用 的 数据 结构 相同 ， 一 个 二 维 共享 数组 在 编程 中 有 

[146 | 优势 ,但 它 在 物理 的 分 布 存储 器 的 机 器 上 和 存储 器 分 配 粒度 相互 作用 很 差 。 
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图 3-8 在 共享 地 址 空间 中 ， 二 维和 四 维 数组 表示 一 个 二 维 网 格 的 情况 





Ə 考虑 对 应 一 个 二 维 矩 阵 的 数组 ， 第 一 维 是 行 编号 ， 第 二 维 是 列 编号。 行 优先 分 配 意味 着 第 一 行 的 所 有 元 素 在 虚 
各 入 二 完 间 上 是 连续 的 ， 跟 着 是 第 二 行 的 所 有 元 素 等 。 我 们 这 里 假定 的 C 语言 是 行 优先 语言 。 列 优先 语言 的 一 
i Fortran. 
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考虑 图 3-8a 中 处 理 器 P; 的 划分 。 处 理 器 的 一 个 重要 的 工作 集 是 它 的 整个 划分 ， 在 每 次 
遍历 中 扫 过 并 且 在 不 同 的 遍历 中 重用 。 如 果 它 的 划分 不 能 装 和 人 处理 器 的 高 速 缓存 层次 ， 我 们 
希望 它 能 放 在 本 地 存储 器 中 ， 从 而 失效 可 以 在 本 地 得 到 满足 。 这 里 的 问题 是 ， 划 分 中 相继 的 
子 行 在 地 址 空间 中 不 连续 ， 由 网 格 的 整 行 长 度 分 开 (包含 其 他 划分 的 子 行 )。 如 果 一 个 划分 
的 子 行 或 者 小 于 一 页 ， 或 者 不 是 页 大 小 的 倍数 ， 或 者 和 页 的 边界 没有 很 好 地 对 齐 ， 就 不 可 能 
在 节点 的 存储 器 之 间 适 当地 分 布 数据 。 从 两 个 (或 多 个 ) 相 邻 划分 来 的 子 行将 在 同一 页 中 ， 
最 好 的 情况 不 过 是 分 配 到 有 关 处 理 器 的 某 个 本 地 存储 器 中 。 如 果 一 个 处 理 器 的 划分 没 法 装 入 
它 的 高 速 缓存 中 或 者 引起 冲突 扑 空 ， 每 当 访 问 在 它 自己 划分 中 的 网 格 元 素 时 ， 就 可 能 要 通 
信 ， 因 为 划分 被 分 到 别 的 处 理 器 内 存 中 了 。 

在 这 个 例子 中 的 解决 方案 中 ， 用 了 一 个 高 维 数组 来 表示 二 维 的 网 格 。 最 常用 的 例子 是 用 
一 个 四 维 数组 。 在 这 种 情况 下 ， 进 程 在 概念 上 被 安排 成 二 维 划分 网 格 ， 如 图 3-8b 所 示 。 头 
两 个 下 标 指定 划分 或 者 说 相关 的 进程 ， 后 两 个 下 标 表 示 在 该 划分 中 的 子 行 和 子 列 。 例 如 ， 如 
果 整 个 网 格 的 大 小 为 1 024 x 1 024 NICH, A 16 个 进程 ， 那 么 每 个 划分 将 是 大 小 为 1 024/ 
V16 x 1 024/V16 的 子 网 格 ， 或 者 说 有 256x256 个 元 素 。 在 网 格 的 四 维 数组 表示 中 ， 数 组 有 
4x 4x 256 x 256 个 元 素 。 这 种 高 维 表示 的 关键 性 质 是 每 个 进程 所 得 的 256 x 256 个 元 素 的 划 
分 现在 在 地 址 空间 中 是 连续 的 〈 见 图 3-8b 中 碟 拟 存储 空间 的 布局 )。 数 据 分 布 问题 现在 只 能 
发 生 在 整个 划分 的 尾 端 ， 而 不 是 每 一 子 行 ， 而 且 如 果 数 据 结构 和 页 的 边界 对 齐 的 话 ， 根 本 不 
会 有 问题 。 不 过 ， 用 高 维 数组 写 程序 要 复杂 得 多 ， 特 别 是 在 邻近 计算 的 情形 ， 确 定 相 邻 进程 
划分 中 数组 的 下 标 〈 见 习题 3.16)。 国 

在 针对 空间 局 部 性 的 数据 结构 设计 上 ， 更 复杂 的 应 用 和 数据 结构 可 能 显示 出 更 重要 的 折 
中 ， 这 将 在 后 面 的 章节 中 讨论 。 

进程 访问 模式 中 的 空间 局 部 性 以 及 它们 如 何 随 问题 规模 和 处 理 器 数 变化 ， 在 共享 地 址 空 
间 体 系 结构 中 ， 影 响 着 所 期 望 的 各 种 粒度 的 大 小 -一 特别 是 存储 分 配 的 粒度 、 数 据 传送 的 粒 
度 和 一 致 性 粒度 。 在 消息 传递 系统 中 ， 它 也 影响 是 对 小 消息 还 是 大 消息 提供 支持 的 相对 重要 
性 。 出 于 分 摊 硬 件 和 传送 代价 的 考虑 ， 使 我 们 倾向 于 用 大 的 粒度 ， 但 太 大 的 粒度 也 会 引起 性 
能 问题 ， 其 中 许多 是 与 多 处 理 器 有 关 的 。 最 后 ， 访 问 的 空间 局 部 性 影响 高 速 缓存 中 冲突 失效 
的 出 现 。 由 于 当下 级 存储 器 是 非 本 地 时 ， 冲 突 扑 空 能 产生 附加 通信 ， 多 处 理 器 也 使 我 们 倾向 
于 用 更 大 的 缓存 关联 度 。 对 于 多 处 理 器 的 数据 局 部 性 支持 来 说 ， 有 许多 代价 、 人 性 能 和 可 编程 
性 之 间 的 权衡 ， 我 们 的 选择 最 好 是 由 应 用 的 行为 来 引导 。 

最 后 ， 有 趣 的 权衡 经 常 出 现在 算法 划分 目标 、 实 现 因素 和 系统 结构 的 相互 作用 之 间 ; 是 
那些 相互 作用 产生 了 附加 通信 。 这 说 明 我 们 需要 仔细 考察 权衡 来 获得 在 一 个 体系 结构 上 最 好 
的 性 能 。 让 我 们 在 例 3.3 中 ， 用 方程 求解 器 内 核 来 解释 这 种 情况 。 

例 3.3 基于 到 自前 为 止 我 们 讨论 的 性 能 要 素 ， 对 方程 求解 器 内 核 来 说 ， 我 们 应 该 选择 
什么 样 的 划分 方式 : 块 状 划分 还 是 条 状 划分 ? 

解答 : 如果 我 们 只 是 考虑 固有 通信 ， 我 们 已 经 知道 块 划 分 要 优 于 条 划分 ( 见 图 3-5). 
然而 ， 即 便 只 是 简单 的 、 二 维 的 数组 表示 ， 条 划分 也 有 优点 ， 它 保持 划分 在 地 址 空间 上 的 连 
续 。 因 此 ， 它 没有 和 空间 局 部 性 和 机 器 粒度 的 相互 作用 有 关 的 问题 ， 例 如 前 面谈 到 的 存储 分 
配 粒度 。 当 然 ， 在 块 分 配 时 遇 到 的 这 种 特别 的 相互 作用 可 以 通过 用 高 维 数组 的 方式 来 解决 。 
然而 ， 一 种 更 难 解决 的 相互 作用 和 通信 的 粒度 有 关 。 在 子 块 分 配 中 ,考虑 一 个 来 自 另 一 划分 
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的 相 邻 元 素 ， 处 于 面向 列 的 划分 边界 ( 见 图 3-9)。 如 果 通 信 的 粒度 大 ， 那 么 当 一 个 进程 引用 
这 个 来 自 相 邻 划 分 的 元 素 时 ， 它 将 不 仅 取得 那个 元 素 ， 还 将 取得 和 它 在 同一 通信 单元 的 若干 
元 素 。 不 管 是 用 二 维 还 是 四 维 表示 ， 那 些 元 素 都 不 是 本 进程 的 相 邻 元 素 ， 因 此 是 无 用 的 而 且 
浪费 通信 带宽 。 对 于 条 状 划分 ， 没 有 面向 列 划分 的 边界 ; 所 引用 的 非 本 地 元 素 仍然 会 引起 它 
所 在 的 行 的 其 他 元 素 被 取 过 来 ， 但 现在 这 些 元 素 的 确 是 本 进程 划分 的 相 邻 元 素 。 因 此 它们 是 
有 用 的 ， 并 且 事 实 上 这 种 大 的 通信 粒度 导致 了 有 价值 的 预 取 效果 。 总 的 来 看 ， 有 许多 应 用 和 
机 器 参数 的 组 合 ， 块 划分 所 带 来 的 性 能 损失 (由 于 附加 通信 〉 要 大 于 减少 固有 通信 所 带 来 的 
利益 。 我 们 可 以 想像 条 状 划分 在 大 多 数 情况 下 比 二 维 数组 的 块 划分 性 能 会 好 一 些 ， 但 它 在 有 
些 情 况 下 也 比 四 维 数组 要 好 《在 条 状 划分 时 ， 没 有 用 四 维 数组 的 道理 )。 这 样 ， 附 加 通信 可 
能 使 我 们 转 同 去 修改 划分 方法 一 一 从 块 到 条 。 图 3-10a 示 出 Ocean 应 用 在 Origin2000 上 的 这 种 
效果 。 通 信 的 粒度 越 大 、 代 价 越 大 ， 则 效果 越 明显 。 用 软件 支持 共享 地 址 空间 模型 的 系统 就 
是 这 种 情形 。 图 3-10b 用 方程 求解 器 内 核 和 更 大 的 网 格 ， 表 现 了 数据 摆 放 的 影响 。 注 意 ， 如 
有 果 是 按 列 做 条 状 划分 《数据 保持 行 优先 存放 ) 而 不 是 行 ， 则 所 得 到 的 是 最 差 的 情形 。 转 
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图 3-9 在 方程 求解 器 内 核 中 访问 非 本 地 数据 的 空间 局 部 性 。 图 中 只 表示 了 一 个 处 理 器 的 划 
分 和 它 周 围 的 区 域 。 阴 影 点 是 拥有 该 划分 的 处 理 器 要 访问 的 非 局 部 点 。 抽 取出 来 的 
甜 形 是 高 速 缓存 块 , 表示 沿 着 行 边界 有 很 好 的 空间 局 部 性 , 而 列 边界 的 局 部 性 不 好 


3.3.2 将 通信 结构 化 以 降低 代价 


不 管 通信 是 固有 的 还 是 附加 的 ， 它 对 执行 时 间 的 影响 取决 于 其 形成 消息 的 组 织 和 结构 
化 。 一 个 小 的 通信 计算 比 和 一 个 大 的 通信 计算 比 相 比 ， 可 能 对 执行 时 间 有 更 大 的 影响 ， 如 果 
后 者 的 结构 和 系统 交互 要 比 前 者 好 得 多 的 话 。 为 在 真实 机 器 上 得 到 好 的 性 能 ， 这 是 一 个 重要 的 问 
题 ， 也 是 我 们 要 讨论 的 最 后 一 个 主要 的 性 能 要 素 。 首 先 让 我 们 看 看 通信 的 结构 化 是 什么 意思 。 

在 第 1 章 ， 给 定 程序 发 起 通信 或 者 消息 操作 的 频率 ( 显 式 消息 或 者 由 读 和 写 操作 隐 含 的 
消息 )， 我 们 介绍 了 处 理 器 看 到 的 通信 代价 的 一 个 模型 。 结 合式 (1-5) 和 式 (1-6), 代价 C 的 
模型 是 


C = 频率 x (开销 + 延迟 + HARE ,竞争 ga 
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或 者 是 
C = fx (o+ 1+ "+t — Overlap) (3-4) 
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图 3-10 数据 的 结构 化 和 空间 局 部 性 对 性 能 的 影响 。 所 有 的 测试 都 是 基于 SGI Origin 2000 的 。*2D” 和 
“4D” 分 别 表示 二 维和 四 维 的 数据 结构 ， 块 状 分 配方 式 。“Rows” 对 应 在 二 维 数组 上 的 条 状 分 
配方 案 。 在 b) 中 ， 后 级 “rm” 表 示 数 据 页 以 轮 循 方式 在 物理 存储 器 之 间 分 配 。 没 有 r, Bk 
着 数据 尽量 放 在 分 配 的 处 理 器 的 局 部 存储 器 中 。 从 a) ROEA, ARARE 2D 块 状 分 配 
性 能 要 好 ， 这 是 因为 空间 局 部 性 和 长 缓存 块 (在 Origin 2000 上 是 128 个 字 节 ) 的 相互 作用 所 
引起 的 ， 条 状 分 配 甚 至 比 4D 块 状 分 配 还 稍 好 一 些 ， 这 是 由 于 后 者 在 访问 列 边界 元 素 时 的 空 
间 局 部 性 不 好 。 在 b) 中 ,虽然 用 了 很 大 胆 的 通信 结构 ， 在 主 存 中 合适 的 数据 分 布 对 性 能 都 是 
重要 的 ， 尽 管 对 2D 数组 的 块 状 分 配 效 果 不 明 显 。 在 最 好 的 情形 ， 我 们 会 看 到 超 线 性 加 速 比 现 
象 ， 发 生 在 处 理 器 的 数量 足够 并 且 处 理 器 所 得 到 的 划分 的 规模 〈 其 重要 的 工作 集 ) 和 它 的 高 速 
缓存 相 适 应 的 场合 。 这 种 差别 在 较 保守 的 通信 体系 结构 和 较 小 的 复制 存储 的 机 器 上 要 大 得 多 

其 中 三 是 程序 中 通信 消息 的 频率 ; o 是 在 发 送 和 接收 处 理 初始 化 和 消息 接收 的 综合 
销 ， 假 定 没有 和 其 他 活动 的 冲突 ; ! 是 消息 中 第 一 位 到 达 目 的 处 理 器 或 存储 器 的 没有 开销 的 
延迟 (假设 没有 冲突 )， 它 包含 通过 网 络 接口 和 辅助 电路 的 延迟 ， 以 及 网 络 线路 上 的 延迟 ，; 
n 是 程序 中 数据 的 总 通信 和 量 ; m 是 消息 数 (因此 n/m 是 消息 的 平均 长 度 ); B 是 通路 上 的 
点 到 点 通信 带宽 ， 不 算 处 理 器 开销 〈 即 在 第 一 位 之 后 消息 的 其 余部 分 到 达 目 的 地 的 速率 ， 假 
定 从 源 到 目的 的 整个 通路 看 起 来 是 一 条 没有 冲突 的 流水 线 ); n 是 由 资源 冲突 引起 的 时 间 ; 
Overlap 是 能 够 被 其 他 计算 或 其 他 通信 重 释 的 通信 和 量 〈 即 不 在 处 理 器 执行 的 关键 路 径 上 的 活 
动 )。 带 宽 B 是 第 1 章 讨 论 过 的 总 体 容量 的 倒数 。 它 可 能 受 网 络 链 路 、 网 络 接口 或 者 通信 辅 
助 电路 的 限制 。 

关于 通信 代价 的 这 个 表达 式 可 以 代 换 到 式 (3-1) 中 ， 从 而 得 到 加 速 比 的 最 终 表达 式 。 
括号 内 的 部 分 是 我 们 的 单 向 、 单 个 消息 的 模型 。 如 果 消 息 是 双向 的 ， 我 们 必须 做 适当 调整 。 
消息 的 代价 (不 算 重合 部 分 )， 也 称 为 时 延 。 除 了 减少 通信 和 量 n.， 我 们 在 结构 化 通信 的 目标 
可 能 包括 D 降低 通信 开销 (mxo); 2) 降低 延迟 (m x 1); 3) 降低 冲突 (m x1); 4) 让 
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1. 降低 开销 
由 于 和 初始 化 或 处 理 一 件 消息 的 开销 o 通常 是 由 硬件 或 系统 软件 固定 的 ， 减 少 由 于 通 
信 开 销 所 带 来 代价 的 方式 就 是 将 苦于 小 消息 组 成 一 个 大 的 消息 一 一 即 减少 消息 频率 ,通过 
指定 消息 的 大 小 ， 显 式 初 始 化 的 通信 给 程序 员 带 来 较 大 的 灵活 性 (回顾 2.3.6 节 描 述 的 发 送 
源 语 )。 另 一 方面 ， 通 过 读 和 写 操作 的 隐 式 通信 是 程序 没 法 直接 控制 的 ， 如 果 有 必要 的 话 ， 
系统 必须 负责 将 读 和 写 整 合成 大 消息 。 

在 规则 数据 访问 和 通信 模式 的 应 用 中 ， 把 消息 做 大 是 容易 的 。 例 如 ， 在 消息 传递 系统 
中 ， 方 程 求解 器 划分 成 行 ， 用 一 个 消息 发 送 一 整 行 数据 。 但 在 那些 非 规则 和 不 可 预测 通信 模 
式 的 应 用 中 ， 它 可 能 是 困难 的 ， 例 如 Bames-Hut 或 Raytrace。 如 我 们 在 3.6 节 所 见 ， 它 可 能 要 
求 对 并 行 算法 有 所 改变 或 者 额外 的 工作 来 确定 哪些 数据 该 合并 ， 这 就 又 要 求 在 这 种 计算 的 代 
价 和 在 开销 方面 的 节省 之 间 做 权衡 。 可 能 需要 用 些 计算 来 确定 哪些 数据 该 送 到 哪些 进程 ， 数 
据 可 能 要 收集 起 来 ， 在 发 送 方 打 包 成 消息 ， 在 接收 方 解 包 ， 散 发 到 存储 器 的 相关 位 置 。 

2. 降低 延迟 

通过 辅助 硬件 和 网 络 接口 的 延迟 可 以 通过 优化 这 些 硬件 部 件 来 降低 。 对 此 ， 程 序 员 没有 
什么 可 做 的 。 考 虑 网 络 传播 延迟 一 -- 即 通过 网 络 线路 本 身 的 延迟 。 在 没有 冲 罕 ， 且 假设 消息 
流水 通过 网 络 的 情况 下 ， 一 位 通过 网 络 的 传播 延迟 | 本 身 能 被 表达 为 h x t;， 其 中 h 是 相 邻 
网 络 节 点 的 跳 步 数 或 者 是 消息 通过 的 交换 机 数 ，4 是 通过 一 个 网 络 跳 步 的 延迟 或 者 时 延 ， 
包括 链 路 和 路 由 器 或 者 交换 机 。 和 消息 开销 类 似 ， 也 是 由 系统 确定 的 ， 程序 只 能 在 减 小 
fxhxt, 中 的 f 和 h 上 做 文章 。( 在 存储 -转发 网 络 (相对 于 流水 ) P, n 则 是 整个 消息 经 过 
一 段 跳 步 的 时 间 ， 不 只 是 一 个 数据 位 ) 

跳 步 数 h 可 以 通过 把 进程 映射 到 处 理 器 来 减少 ， 使 得 应 用 的 进程 间 通 信 的 拓扑 和 网 络 
的 物理 拓扑 对 应 。 如 何 做 到 这 一 点 取决 于 应 用 程序 和 网 络 的 结构 及 其 丰富 程度 ， 例 如 ， 近 邻 
方程 求解 器 内 核 〈 以 及 Ocean 应 用 ) 会 和 网 格 互 连 的 多 处 理 器 映射 得 相当 好 ， 但 和 单 向 环 映 
射 的 不 好 。 其 他 几 个 案例 分 析 在 通信 模式 上 表现 为 非 规则 的 。( 我 们 在 第 10 章 考 察 在 真实 机 
器 中 使 用 的 不 同 的 拓扑 ， 讨 论 它 们 的 权衡 。) 

并 行 算法 映射 到 网 络 拓扑 的 研究 有 很 长 时 间 了 ， 由 于 人 们 曾 想 处 理 器 数 p 会 变 得 很 大 ， 
差 的 映射 会 引起 由 于 h x 4 的 延迟 在 消息 代价 中 起 支配 作用 。 拓 扑 的 重要 性 在 实践 中 取决 于 
ETAR: n 项 相对 于 消息 出 人 网 络 开销 。 的 大 小 ; 机 器 的 处 理 节 点 数 ， 它 确定 一 个 给 定 拓 
扑 的 最 大 跳 步 数 h; 是 否 这 台 机 器 一 次 只 用 来 运行 一 个 应 用 ， 是 以 批 处 理 方式 还 是 在 多 个 应 
用 中 间 以 多 道 程序 运行 。 现 在 ， 网 络 拓扑 在 现代 机 器 中 ， 已 不 像 原来 看 得 那么 重 了 ， 这 是 因 
为 现代 机 器 在 3 个 方面 的 特点 所 导致 的 : 开销 的 影响 大 大 超过 跳 步 时 延 (特别 是 在 那些 没有 
硬件 支持 共享 地 址 空间 的 系统 中 ) ， 节 点 数 通常 并 不 是 很 大 ， 机 器 常用 作 通 用 的 、 多 道 程序 
服务 器 。 由 于 操作 系统 动态 分 配 资源 并 且 在 运行 时 可 能 透明 地 改变 进程 向 处 理 器 的 映射 ， 




















O 一 些 显 式 消息 传递 系统 提供 代价 不 同 的 消息 类 型 并 且 为 程序 提供 不 同 的 处 理 功能 。 


BRIX 面向 性 能 的 程序 说 矿 111 





面向 拓扑 的 程序 设计 在 多 道 程序 系统 中 可 能 没什么 用 。 由 于 这 些 原因 ， 同 分 解 、 分 配 和 协调 
相 比 ， 人 们 现在 对 并 行 化 的 映射 步骤 关注 不 多 。 不 过 ， 随 着 技术 和 体系 结构 的 演变 ， 这 种 情 
况 也 可 能 改变 。 

3. 减少 冲突 

多 处 理 器 系统 的 通信 机 构 由 许多 资源 构成 ， 包 括 网 络 连接 和 交换 机 、 通 信 辅 助 电 路 、 存 
储 系统 和 网 络 接口 。 所 有 这 些 资源 都 有 一 种 非 零 的 占有 度 ， 即 它们 对 任何 请 求 的 服务 时 间 
( 即 一 个 请 求 占有 它 的 时 间 ) 都 不 是 零 。 换 名 话说， 它们 对 各 种 请 求 服务 的 带宽 (占有 度 的 
倒数 ) 是 有 限 的 。 于 是 ， 如 果 若 干 消息 争 用 一 个 资源 ， 某 些 消息 在 得 到 服务 的 时 候 ， 另 外 一 
些 消息 必须 等 待 ， 这 样 就 增加 了 消息 的 时 延 减少 了 可 用 于 单个 消息 的 带宽 。 资 源 的 占有 度 对 
消息 代价 的 影响 在 没有 冲突 时 也 是 有 的 ; 这 是 因为 ， 消 息 通 过 一 个 资源 的 时 间 也 是 其 延迟 
(或 开销 ) 的 一 部 分 ， 而 它 也 可 以 引起 冲突 。 资 源 的 占有 度 甚 至 可 能 大 于 通过 它 的 延迟 。 

冲突 是 一 种 特别 难以 把 握 的 性 能 问题 ， 这 有 几 个 原因 。 首 先 ， 在 写 并 行程 序 的 时 候 容易 
将 它 忽略 ;特别 是 如 果 它 是 由 附加 通信 引起 的 ， 人 们 更 不 容易 在 写 程序 时 考虑 其 影响 。 其 
次 ， 它 对 性 能 的 影响 效果 可 能 是 难以 提 措 的。 如果 p 个 处 理 器 同时 竞争 占有 度 为 x 的 资源 ， 
第 一 个 获得 该 资源 的 引起 x 时 延 ， 最 后 一 个 的 时 延 是 p x x。 除 了 会 导致 处 理 器 有 很 大 的 停 
济 时 间 外 ， 不 同 的 处 理 器 在 停 沾 时 间 上 的 差别 也 可 能 导致 较 大 的 负载 不 平衡 和 同步 等 待 时 
间 。 这 样 ， 由 资源 的 占有 度 引起 的 冲突 要 比 它 所 表现 的 非 竞争 时 延 危险 得 多 。 第 三 ， 在 一 种 
资源 的 冲突 能 影响 其 他 资源 ， 从 而 阻 滞 某 些 请 求 的 处 理 ， 尽 管 那些 请 求 可 能 并 不 需要 那些 被 
竞争 的 资源 。 这 类 似 于 多 道 高 速 公路 上 的 单 道 出 口 冲 突 的 情形 ， 所 引起 的 阻塞 是 整个 高 速 公 
路 。 这 种 阻塞 也 影响 那些 并 不 需要 该 出 口 ， 只 是 要 继续 在 高 速 路 上 行进 的 车 辆 ， 这 是 因为 它 
们 可 能 被 堵 在 那些 需要 通过 该 出 口 的 车 的 后 面 。 这 些 车 辆 的 聚集 也 占 住 了 其 他 无 关 的 资源 
(早先 的 出 口 )， 使 它们 也 没 法 进入 ， 从 而 最 终 堵塞 高 速 公路 。 严 重 争 用 的 情况 能 迅速 使 整个 
通信 系统 结构 饱和 。 争 用 如 此 麻烦 的 最 后 一 个 原因 是 和 第 三 个 原因 相关 的 :由 于 其 效果 可 能 
表现 在 程序 中 和 原始 原因 的 不 同 点 ， 冲 突 的 根源 可 能 特别 难以 识别 (如果 通信 是 隐 式 的 情况 
更 是 如 此 )。 

网 络 中 的 争 用 可 以 看 成 有 两 类 : 在 网 络 的 链 路 和 交换 机 称 为 网 络 争 用 ; 在 端点 或 进程 节 
点 称 为 端点 争 用 。 网 络 争 用 ， 如 同 网 络 延迟 能 通过 进程 映射 以 及 在 网 络 拓扑 上 适当 地 调度 通 
信 来 减少 。 端 点 竞争 在 许多 处 理 器 要 间 时 访问 同一 个 处 理 器 时 发 生 (或 者 当 通信 事务 和 本 地 
内 存 引用 相干 时 发 生 )。 当 这 种 争 用 严重 时 ， 我 们 称 那个 处 理 节点 或 者 资源 为 热点 。 让 我 们 
考察 一 个 例子 ， 看 热点 是 怎么 形成 的 以 及 如 何 通过 软件 来 回避 它 。 

前 面 讲 过 ， 在 方程 求解 器 内 核 中 ， 有 进程 累计 它们 的 部 分 和 形成 一 个 全 局 和 的 情况 。 形 
成 全 局 和 所 导致 的 冲突 可 通过 树 形 结构 的 通信 来 减少 ， 而 不 是 让 所 有 进程 将 它们 的 结果 直接 
送 到 最 后 拥有 全 局 和 的 节点 。 图 3-11 示 出 这 样 一 种 用 二 叉 树 实现 的 多 到 一 的 通信 结构 。 这 
个 树 (通常 称 为 软件 合并 树 ) 的 节点 是 参与 的 进程 。 一 个 叶 进 程 将 它 的 更 新 结果 送 给 其 父 节 
点 ， 父 节点 将 其 子 节点 和 自己 的 更 新 结果 合并 ， 再 送 给 自己 的 父 节 点 ， 如 此 进行 直到 更 新 结 
果 达 到 根 节 点 〈 拥 有 全 局 和 的 进程 ) ， 所 需 步 数 为 log, p 步 。 一 个 类 似 的 扇 出 二 又 树 能 用 来 
将 数据 从 一 个 进程 送 给 多 个 进程 。 由 于 其 扩 放 性 较 好 ， 基 于 树 的 方法 用 途 很 广 ， 特 别 是 在 那 
些 经 常 经 历 许多 争 用 的 同步 源 语 中 ， 例 如 栅 障 和 一 些 其 他 通信 模式 的 库 例 程 。 
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图 3-11 构成 多 对 一 通信 的 两 种 方式 ， 扁 平方 式 和 二 又 树 方 式 。 注 意 ， 在 遍 平 方式 目的 处 理 
器 可 能 一 次 要 接收 p -1 个 消息 ; 而 在 二 叉 树 方式 没有 处 理 器 会 收 到 多 于 两 个 的 消息 

通常 ， 从 程序 设计 的 角度 有 两 种 思路 来 回避 争 用 ， 一 是 避免 太 多 进程 和 同一 个 进程 通 
信 ; 二 是 错开 消息 到 达 同 一 目的 的 时 间 ， 从 而 不 对 目的 或 资源 形成 太 集中 的 冲击 。 当 通信 突 
发 时 〈 即 程序 在 一 段 时 间 不 通信 ， 然 后 突然 产生 较 大 量 的 通信 )， 常 等 广 生 争 用 ， 于 是 可 以 
安排 错开 时 间 来 降低 突 发 性 。 然 而 ， 这 要 和 将 小 消息 合并 成 大 消息 的 优点 折 中 考虑 。 不 幸 的 
是 ， 大 消息 有 增加 突 发 性 的 趋势 。 

4, 通信 和 计算 的 重合 以 及 其 他 通信 的 重 又 

尽管 我 们 做 了 种 种 降低 开销 和 延迟 的 努力 ， 第 1 章 讨论 的 技术 趋势 指出 端 到 端 通信 延迟 
相对 于 处 理 器 周期 来 说 可 能 依然 是 很 大 的 。 现 在 的 情况 已 经 是 ， 即 使 在 全 硬件 支持 的 共享 数 
据 空间 中 用 高 性 能 网 络 ， 通 信 延 迟 也 是 几 百 个 处 理 器 周期 ， 而 在 消息 传递 机 器 上 ， 这 至 少 要 
高 一 个 数量 级 ， 这 是 由 于 软件 管理 的 开销 。 要 更 大 。 如 果 当 通信 发 生 时 处 理 器 维持 一 种 空 
W (停滞 ) 状态 ， 只 是 那些 具有 极 低 的 通信 计算 比 的 程序 才 可 能 有 好 的 并 行 性 能 。 因 此 ， 大 
量 通信 的 程序 必须 找 册 一 种 方式 来 隐藏 进程 关键 路 径 上 的 通信 延迟 ， 方 法 是 让 通信 和 计算 或 
者 其 他 通信 尽 可 能 重合 ， 这 样 ， 系 统 必须 提供 必要 的 支持 。 

隐藏 通信 延迟 的 技术 有 着 不 同 的 、 经 常 是 互补 的 风格 ， 我 们 将 在 第 11 章 讨论 。 一 种 简 
单方 法 是 尽量 用 较 大 的 消息 ， 通 过 大 消息 的 流水 传送 ， 于 是 对 第 一 个 字 有 延迟 ， 但 隐藏 了 其 
余 的 后 续 字 。 另 一 种 方法 ， 我 们 可 以 称 为 预 通信 ， 即 在 需要 数据 之 前 就 启动 通信 过 程 ， 从 而 
当 需 要 数据 时 ， 它 可 能 已 经 到 达 了 。 第 三 种 技术 是 在 程序 自然 需要 时 启动 通信 ， 但 在 通信 进 
行 时 ， 给 处 理 器 找 些 其 他 的 事情 做 来 隐藏 通信 代价 ， 这 些 事情 包括 进程 后 面 要 做 的 某 些 计 算 
或 者 通信 。 第 四 种 称 为 多 线程 ， 是 当 通信 事件 发 生 时 切换 到 不 同 的 线程 或 进程 。 特 定 的 技术 
和 机 制 取 决 于 通信 抽象 和 所 采取 的 方法 ， 它 们 都 要 求 程序 本 质 上 有 比 处 理 器 数 更 高 的 并 发 性 
(也 称 为 松弛 度 (slackness))， 这 样 才能 找到 独立 的 工作 来 重 全 通信 延迟 。 

事实 上 并 行 体系 一 直 集 中 在 减少 处 理 器 看 得 见 的 通信 代价 : 通过 减少 通信 开销 和 延迟 、 
增加 带宽 、 减 少 占有 度 、 提 供 机 制 来 分 散 争 用 ， 用 计算 和 通信 来 重要 通信 等 。 后 面 的 一 些 章 
节 里 用 大 量 的 篇 幅 来 讨论 这 些 问 题 一 一 包括 节点 到 网 络 接口 的 设计 、 通 信和 辅助 电路 以 及 减 小 
软件 和 硬件 开销 的 协议 〈 第 5~ 9 HE); 网 络 拓扑 的 设计 、 原 语 操作 和 路 由 策略 (和 应 用 的 通 
信 模 式 很 好 地 匹配 ) (第 10 BE); 设计 机 制 ， 隐 藏 处 理 器 看 到 的 通信 开销 (第 11 章 )。 激 进 
的 体系 结构 方法 通常 是 昂贵 的 ， 因 此 ， 要 使 所 带 来 的 性 能 好 处 超过 其 代价 ， 真 实 的 程序 能 有 
效 地 利用 它们 至 关 重 要 。 


154 


155 





P3F 面向 性 能 的 程序 谈 计 113 





3.4 从 处 理 器 角度 看 到 的 性 能 因素 


为 理解 并 行程 序 中 不 同 的 性 能 因素 对 体系 结构 的 影响 ， 从 单个 处 理 器 的 角度 来 看 程序 执 
行 时 间 的 不 司 成 分 是 有 用 的 一 一 即 有 多 少时 间 花 在 执行 指令 上 ;， 多 少时 间 花 在 扩展 的 存储 层 
次 中 访问 数据 ;多 少时 间 花 在 协调 它 和 其 他 处 理 器 的 活动 。 时 间 的 这 些 不 同 的 部 分 能 够 相当 
直接 地 和 本 章 所 讨论 的 软件 性 能 问题 有 关 ， 它 帮助 我 们 将 软件 技术 和 硬件 性 能 联系 起 来 。 这 
种 观点 也 帮助 我 们 理解 并 行程 序 作为 表现 给 体系 结构 的 工作 负载 的 执行 过 程 ， 这 种 观念 对 我 
们 在 下 一 章 讨论 负载 驱动 的 体系 结构 的 评估 是 很 有 用 的 。 

在 式 (3-3) 中 ,我 们 描述 了 花 在 单 处 理 器 上 执行 一 个 串 行 程序 中 的 时 间 ， 包 括 实际 执 
ATES (CIC) 的 时 间 ， 停 灌 等 待 存储 系统 的 时 间 (数据 访问 ); 后 者 是 一 种 “ 非 理想 ”的 因 
素 ， 降 低 性 能 。 图 3-12a 示 出 一 个 假想 顺序 程序 的 性 态 。 在 这 种 情况 下 ， 大 约 80% 的 执行 时 
间 花 在 执行 指令 上 ， 只 能 通过 改进 算法 或 者 处 理 器 来 减少 。 另 外 20% 的 时 间 花 在 存储 系统 
上 ， 可 以 通过 改进 局 部 性 或 存储 系统 来 改善 。 
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a) 顺序 程序 b) 有 4 个 处 理 器 的 并 行 机 


图 3-12 ”从 单个 处 理 器 看 到 的 执行 时 间 的 各 个 成 分 


在 多 处 理 器 系统 中 ， 我 们 可 取 一 种 类 似 的 观点 ， 尽 管 这 种 非 理想 的 因素 要 更 多 一 些 。 这 
种 观点 涉及 几 种 不 同 的 程序 设计 模型 : 例如 ， 停 滞 等 待 一 个 接收 操作 的 完成 很 像 停 汪 等待 一 
个 远程 读 操作 的 完成 或 者 一 个 同步 事件 的 发 生 。 如 果 相 同 的 程序 并 行 化 ， 在 一 个 四 处 理 器 机 
器 上 运行 ， 这 时 的 执行 时 间 形 态 看 起 来 可 能 像 图 3-12b 所 示 的 一 样 。 这 个 图 假设 在 程序 结束 
时 有 一 个 全 局 同步 点 ， 这 样 每 一 个 进程 在 同一 个 时 间 终 止 。 注 意 并 行 执行 时 间 (55 s) ER 
行 执行 时 间 (100 s) 的 四 分 之 一 要 大 ; 即 ， 我 们 只 获得 了 100/55 = 1.8 的 加 速 比 ， 而 不 是 我 
们 曾 希 望 的 4 倍加 速 比 。 为 什么 会 出 现 这 种 情况 ? 有 什么 特别 的 软件 或 程序 设计 因素 在 其 中 
起 作用 ? 这 些 可 以 通过 从 单个 处 理 器 的 角度 ， 考 察 并 行 执行 时 间 的 成 分 来 确定 。 在 我 们 通常 
的 分 布 存 储 并 行 系统 结构 上 ， 并 行 执行 时 间 有 5 个 分 量 : 
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性 有 用 。 处 理 融 花 在 执行 指令 上 的 时 间 ， 那 些 指 令 本 来 在 串 行程 序 中 也 是 要 执行 的 。 
假设 一 个 直接 从 串 行 算法 中 导出 的 确定 性 的 并 行程 序 ” ， 所 有 处 理 器 的 有 用 从 时 间 之 
和 等 于 串 行 执行 的 有 用 忙 时 间 。 
忙 开销 。 处 理 器 花 在 执行 那些 在 串 行 程序 中 不 需要 而 只 是 在 并 行程 序 中 需要 的 指令 
上 的 时 间 。 这 直接 对 应 于 并 行程 序 中 的 额外 工作 部 分 。 
数据 局 部 。 处 理 器 等 待 数据 引用 在 它 自己 的 存储 系统 完成 的 时 间 ; 即 ， 等 待 的 引用 
不 会 产生 和 其 他 节点 的 通信 。 
数据 远程 。 处 理 器 等 符 数 据 通信 的 时 间或 来 自 其 他 (远程) 处 理 节 点 , 包括 固有 通 
信和 附加 通信 。 这 代表 处 理 器 看 到 的 通信 代价 。 
同步 。 等 待 其 他 进程 给 出 某 个 事件 发 生 的 信号 ， 有 了 该 信号 ， 才 能 推进 进程 。 这 包 
括 负载 不 平衡 和 程序 中 的 串 行 化 现象 ， 还 有 实际 花 在 执行 同步 操作 和 访问 同步 变量 
上 的 时 间 。 当 它 等 待 的 时 候 , 一 个 处 理 器 可 能 重复 检测 某 个 变量 的 值 ， 直 到 改变 
(这 就 要 执行 指令 ) 或 者 它 停滞 等 待 ， 这 取决 于 同步 的 实现 方式 。 

同步 、 恰 开销 、 远 程 数 据 访问 分 量 是 由 于 并 行 性 所 引入 的 开销 ， 而 且 是 在 单 处 理 器 上 运 
行 的 串 行程 序 中 所 没有 的 。 因 有 通信 大 多 数 包 含 在 远程 数据 分 量 中 ， 它 的 某 些 〈 通 常 很 小 ) 
部 分 可 能 也 在 数据 局 部 分 量 中 体现 出 来 。 例 如 ， 分 给 处 理 器 P 的 局 部 存储 的 数据 可 能 要 被 另 
一 个 处 理 器 Q 更 新 , 但 在 P 引用 它 之 前 ， 异 步 地 返回 到 P 的 存储 器 中 《比如 由 于 从 Q 中 的 
替换 )。 在 这 种 情况 下 , P 可 能 看 不 到 这 个 通信 开销 。 最 后 ， 数 据 局 部 分 量 令 人 感 兴趣 ， 因 
为 它 是 在 串 行程 序 和 并 行程 序 中 都 有 的 性 能 开销 。 对 一 个 固定 的 问题 或 者 输入 数据 集 来 说 ， 
开销 分 量 趋向 于 随处 理 器 数 增加 ， 这 个 分 量 可 能 减少 : 一 个 给 定 的 处 理 器 只 负责 整个 计算 的 
一 部 分 ， 于 是 它 可 能 只 访问 一 部 分 数据 ， 从 而 获得 较 好 的 高 速 缓存 和 存储 性 能 。 事 实 上 ， 如 
果 数 据 局 部 分 量 降 低 得 足够 多 ， 它 可 能 产生 超 线性 的 加 速 比 ， 即 使 是 对 于 确定 性 的 并 行程 序 
〈 超 线性 加 速 比 意味 着 比 处 理 器 数 还 要 大 的 加 速 比 )。 图 3-13 概括 了 并 行 性 因素 之 间 的 对 应 
关系 ， 它 们 被 考虑 的 步骤 以 及 处 理 器 为 中 心 的 执行 时 间 的 分 量 。 

用 这 些 分 量 ， 我 们 可 以 进一步 细 化 一 个 有 固定 问题 的 加 速 比 模型 ， 如 式 (3-5) 所 示 ， 
同样 我 们 假设 在 程序 结束 时 有 一 个 全 局 同步 。 (和 否则， 我 们 在 分 母 中 就 要 取 进 程 的 最 大 值 ， 
而 不 是 任何 一 个 进程 的 时 间 性 态 ) 


Speedup protien ( P ) = 


Busy(1) + Data (1) 
Busy jit (pP) + Dataa (p) + Synch p) + Data,moe (p) + Busy oened (p) 





(3-5) 





O ”如 果 一 个 并 行 算法 对 给 定 输入 数据 集 的 计算 结果 总 是 相同 的 、 独 立 于 所 用 进程 的 个 数 或 者 事件 的 相对 时 序 ， 那 
么 并 行 算法 是 确定 性 的 。 更 一 般 地 ， 我 们 可 以 考虑 算法 中 所 有 中 间 结 果 的 计算 是 否 是 确定 性 的 。 一 个 非 确定 性 
的 算法 ， 其 结果 和 参与 计算 的 进程 数 以 及 相对 事件 的 时 序 有 关 。 一 个 例子 是 在 图 上 的 并 行 搜索 ， 只 要 在 某 一 条 
路 线 上 找到 了 结果 ， 算 法 就 停止 。 非 确定 性 算法 会 使 得 我 们 关于 时 间 消 耗 的 简单 模型 复杂 起 来 ， 因 为 和 串 行 程 
序 相 比 ， 为 达到 结果 并 行程 序 可 能 做 的 有 用 功 少 一 些 。 这 种 情形 可 能 导致 起 线性 加 速 比 一 一 即 加 速 比 大 于 处 理 
器 增加 的 个 数 。 然 而 ， 并 不 是 所 有 非 确 定性 形式 有 这 种 好 的 结果 。 第 2 章 介绍 的 红 - 黑 方程 求解 法 是 确定 性 的 算 
法 ， 异 步 法 不 是 。 

O ” 风 步 引 人 的 时 间 成 分 和 其 他 类 别 重 毒 。 例 如 ， 处 理 器 首次 访问 同步 变量 的 时 间 ， 或 者 说 是 消耗 在 通报 同步 事件 
上 所 花 的 时 间 ， 可 能 包含 在 同步 时 间 中 ， 或 者 在 相关 的 数据 访问 时 间 中 。 这 里 ， 我 们 考虑 的 是 后 者 。 除 此 以 外 ， 
如 果 一 个 处 理 器 在 等 待 一 个 事件 发 生 时 执行 访问 同步 变量 的 指令 ， 其 消耗 的 时 间 可 以 定义 为 “ 忙 开销 ”或 者 同 
步 时 间 。 鉴 于 其 在 本 质 上 是 负载 不 平衡 的 问题 ， 在 本 书 中 将 它 归 为 同步 时 间 。 
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在 考虑 这 些 性 能 问题 时 我 们 的 目标 是 要 使 分 母 中 的 项 尽量 小 ， 从 而 极 小 化 并 行 执行 时 间 
( 见 图 3-13)。 如 同 我 们 所 见 到 的 那样 ， 程 序 员 和 体系 结构 师 都 有 他 们 能 发 挥 的 作用 。 如 果 
程序 的 负载 平衡 很 不 好 ， 或 者 存在 过 分 的 额外 工作 ， 体 系 结构 是 无 能 为 力 的 。 然 而 ， 可 以 通 
过 体系 结构 方法 使 得 通信 和 同步 更 高 效 ， 来 减少 创建 这 种 病态 并 行程 序 的 可 能 性 。 体 系 结构 
还 可 能 减少 所 发 生 的 附加 通信 ， 提 供 方便 的 命名 ， 从 而 灵活 方便 地 安排 分 配 机 制 ， 并 且 通 过 
重 和 通信 和 其 他 有 用 的 工作 使 得 隐藏 通 信 代 价 成 为 可 能 。 


并 行 化 步骤 性 能 要 素 处 理 串 时 间 成 分 
分 解 /分 本 /协调 。 负载 平衡 和 同步 ee 


分 解 /分 配 额外 工作 





忙 开销 
分 解 /分 写 固有 通信 入 远程 数据 
ths 附加 通信 和 数据 
协调 局 部 性 局 部 数据 
协调 /映射 通信 结构 


图 3-13 在 并 行 化 的 若干 要 素 和 处 理 器 所 看 到 的 执行 时 间 成 分 之 间 的 对 应 。 粗 体 线 表 示 直 接 的 关 
系 ， 虚 线 表示 重要 的 副作用 贡献 。 左 边 是 并 行 化 步骤 和 所 涉及 的 最 相关 的 并 行 化 要 素 


3.5 并 行 应 用 程序 案例 的 深入 分 析 


前 面 我 们 在 一 般 的 意义 下 讨论 了 并 行程 序 的 主要 性 能 要 素 ， 并 将 它们 应 用 到 了 简单 的 方 
程 求解 器 内 核 。 我 们 现在 可 以 考虑 对 于 比较 真实 的 应 用 程序 ， 在 真实 的 并 行 计 算 机 系统 上 如 
何 获得 好 的 并 行 性 能 。 特 别 地 ， 我 们 现在 回 到 第 2 章 介绍 的 引起 我 们 研究 并 行 软 件 的 4 种 应 
用 案例 ， 对 每 一 个 案例 应 用 并 行 化 过 程 的 4 个 步骤 并 在 每 一 步 讨论 所 引起 的 主要 性 能 问题 。 
在 这 个 过 程 中 ， 我 们 可 以 理解 不 同 的 性 能 要 素 之 间 以 及 性 能 和 程序 设计 便利 之 间 的 折 中 。 在 
真实 的 机 器 上 考察 不 同 的 应 用 呈现 给 一 个 并 行 体系 结构 的 执行 时 间 的 不 同 成 分 ， 也 能 帮助 我 
们 看 到 工作 负载 特点 的 类 型 。 当 我 们 的 讨论 向 本 书 的 其 他 部 分 展开 时 ， 理 解 并 行 应 用 、 软 件 
技术 和 工作 负载 特点 之 间 的 关系 将 是 非常 重要 的 。 

并 行 应 用 有 各 种 类 型 和 规模 ， 它 们 具有 非常 不 同 的 特点 ， 要 求 在 性 能 要 素 之 间 有 不 同 的 
折 中 。 我 们 所 选 的 4 个 案例 横 跨 计算 机 高 性 能 应 用 的 空间 ， 尽 管 不 可 能 覆盖 整个 范围 ， 但 为 
我 们 提供 了 一 组 相当 好 的 代表 。 考 察 它们 的 并 行 化 问题 ， 特 别 是 如 何在 协调 步骤 追求 好 的 性 
能 ， 我 们 将 针对 这 样 一 种 特定 的 体系 结构 : 一 种 具有 高 速 缓存 一 致 性 的 共享 地 址 空间 多 处 理 
器 ， 主 存 物理 上 分 布 在 处 理 节点 上 。 

对 每 个 应 用 的 讨论 分 为 4 个 部 分 。 第 一 部 分 给 出 串 行 算法 和 所 使 用 的 主要 数据 结构 的 详 
细 描 述 。 第 二 部 分 描述 应 用 的 划分 〈 即 计算 的 分 解 和 它 在 进程 上 的 分 配 ) ， 研 究 负载 平衡 、 
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通信 规模 和 计算 分 配 所 用 的 开销 等 算法 层次 的 性 能 问题 。 第 三 部 分 用 于 协调 ， 它 描述 程序 中 
空间 和 时 间 的 局 部 性 以 及 所 用 的 同步 和 在 同步 点 之 间 所 完成 的 工作 量 。 第 四 部 分 讨论 对 网 络 
拓扑 结构 的 映射 。 最 后 ， 作 为 具体 解释 ， 我 们 给 出 在 一 种 符合 所 选 风格 的 特定 机 器 上 ， 以 -- 
定 的 问题 规模 执行 时 间 的 各 个 组 成 部 分 。 这 种 机 器 就 是 32 节点 的 SCI Origin2000。 有 用 忙 和 
开销 忙 成 分 在 这 个 机 器 上 的 测量 没 法 分 开 ， 局 部 数据 和 远程 数据 成 分 也 没 法 分 开 ， 因 此 执行 
时 间 分 成 三 个 成 分 : 忙 、 等 待 数据 和 同步 。 我 们 处 理 这 些 例子 时 ， 某 些 方面 考虑 了 相当 多 的 
细节 ， 这 些 细节 在 后 面 的 章节 中 解释 实验 结果 的 时 候 是 很 重要 的 。 


3.5.1 Ocean 


Ocean 应 用 针对 海盆 洋流 的 模拟 ， 在 计算 流体 力学 中 有 许多 重要 的 应 用 和 它 相似 。 它 的 
一 些 性 质 也 代表 了 许多 其 他 科学 和 商业 上 应 用 的 情况 ， 例 如 要 遍历 大 的 数据 结构 ， 在 每 一 个 
数据 点 上 做 少量 的 计算 等 。 在 每 一 个 通过 海盆 的 水 平 截面 ， 若 干 不 同 的 变量 被 模拟 ， 包 括 流 
量 、 温 度 、 压 力 和 磨擦 力 。 每 个 变量 的 离散 化 ， 用 一 -个 规则 的 、 统 一 的 二 维 网 格 来 表示 ， 含 
有 (n+2) x (n+2) 个 点 。( 这 里 用 n +2 而 不 用 n 的 道理 在 于 需要 考虑 更 新 的 内 部 格 点 
数 为 n x n)。 总 的 说 来 ， 这 个 应 用 要 用 到 大 约 25 个 不 同 的 网 格 数据 结构 。 

1. 串 行 算法 

在 每 一 个 断面 的 洋流 被 初始 化 后 ， 应 用 的 最 外 层 循 环 在 用 户 定义 的 时 间 步 上 推进 。 在 每 
一 时 间 步 ， 首 先是 在 网 格 上 建立 一 定数 据 的 值 ， 然 后 是 求解 微分 方程 。 一 个 时 间 步 要 完成 
33 种 不 同 的 网 格 计算 ， 每 一 个 涉及 一 个 或 者 少量 的 网 格 (变量 )。 典 型 网 格 计算 包括 对 几 个 
网 格 进行 标量 乘 ， 然 后 将 它们 加 到 一 起 并 将 结果 存 到 另 一 个 网 格 中 (例如 ，4 =wB+wcC- 
o 刀 )， 遍 历 整个 网 格 ， 求 每 个 点 的 近邻 平均 值 并 将 结果 存 到 另 一 网 格 ， 而 且 在 一 个 网 格 上 
用 和 迭代 法 求解 偏 微分 方程 组 等 。 

选 代 的 方程 求解 器 用 的 是 多 重 网 格 法 。 和 我 们 讨论 至 今 的 简单 方程 求解 器 内 核 相 比 ， 这 
是 一 种 复杂 的 但 高 效 的 变形 。 在 简单 的 求解 器 中 ， 每 次 遍历 通过 整个 nx n 网 格 (忽略 边界 
的 列 和 行 )。 另 一 方面 ， 一 个 多 重 网 格 求解 器 在 网 格 的 一 种 层次 结构 上 进行 遍历 。 最 初 的 
nx n 网 格 反 映 这 个 层次 结构 最 精细 的 情况 ; 在 下 一 个 较 粗 的 层次 中 ， 从 每 个 维 删 去 间隔 的 
网 格 点 ， 从 而 得 到 n/2 x n/2，n/4 x n/4 大 小 的 网 格 等 等 。 求 解 器 首先 遍历 最 细 的 网 格 ， 相 
继 的 遍历 是 在 粗 的 网 格 还 是 在 细 的 网 格 ， 取 决 于 上 一 次 遍历 的 误差 ， 当 系统 在 最 细 的 网 格 上 
满足 某 个 收敛 误差 后 ， 算 法 就 终止 。 为 了 保持 计算 是 确定 性 的 并 使 它 更 高 效 ， 我 们 用 红 - 黑 
序 ( 见 2.3.2 节 )。 

2. 分 解 和 分 配 

在 同一 个 时 间 步 里 ，Ocean 在 两 个 层次 表现 出 并 发 性 : 跨 网 格 的 计算 (功能 并 行 ) 和 在 
一 个 网 格 内 的 计算 〈 数 据 并 行 )。 在 相继 的 时 间 步 之 间 几 乎 没有 什么 并 行 性 。 跨 网 格 计算 的 
并 发 性 可 以 通过 写 下 各 种 计算 对 网 格 的 读 写 关系 和 分 析 它 们 之 间 在 这 一 层次 数据 的 相关 性 来 
发 现 。 结 果 依赖 关系 结构 和 并 发 性 如 图 3-14 所 示 。 很 清楚 ， 在 网 格 之 间 的 并 发 性 不 高 〈 即 
没有 足够 的 垂直 段 ) ， 用 不 了 几 个 处 理 器 。 我 们 因此 必须 开发 在 网 格 内 的 数据 并 行 性 ， 需 要 
决定 什么 样 的 功能 和 数据 并 行 的 组 合 是 最 好 的 。 

在 这 个 案例 分 析 中 ， 我 们 选择 让 所 有 进程 在 每 个 网 格 计算 上 进行 合作 ， 而 不 是 将 进程 分 
给 不 同 的 网 格 来 开发 两 种 并 行 性 。 将 功能 并 行 和 数据 并 行 结合 起 来 可 以 增加 每 个 进程 网 格 划 
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分 的 大 小 ， 从 而 降低 通信 计算 比 。 然 而 ， 和 不 同 的 网 格 计算 相 联 的 工作 是 相当 不 同 的 并 以 不 
同 的 方式 和 问题 规模 相关 ， 这 就 使 负载 平衡 变 得 复杂 。 其 次 ， 在 同一 时 间 步 由 于 不 同 的 计算 
访问 相同 的 网 格 ， 鉴 于 通信 和 数据 局 部 性 的 原因 ， 我 们 不 想 将 同一 个 网 格 在 进程 之 间 划 分 成 
不 同 的 样子 以 适应 不 同 的 计算 。 第 三 ， 所 有 的 网 格 计算 都 是 全 数据 并 行 的 ， 在 一 个 计算 中 所 
有 的 网 格 点 几乎 做 同样 的 事情 ， 因 此 我 们 能 静态 地 将 网 格 点 分 配 到 进程 。 尽 管 如 此 ， 知 道 哪 
些 网 格 计算 是 独立 的 是 有 用 的 ， 因 为 它 允 许 进 程 避 免 在 它们 之 间 做 同步 〈 见 图 3-14), 


REV 1 的 拉 普 拉 斯 | | 将 Ya 的 匀 普 拉 斯 | 把 Yi Y3 复制 到 || 把 Yi- ws 放 入 ][ 把 计算 过 的 vil ”初始 化 
算 符 放 入 W11 || 算 符 放 入 w1, Ti T3 w2 放 入 W3 加 和 
把 Yiw, Yau 将 Wi Yam 

把 f 值 加 入 wi, 和 W13 列 入 


将 (Wy, Ty), (W113, Ta) ÆT, 73 复制 到 Ew, RER 
的 雅 可 比 放 入 W5, W53 Yim Yam 斯 算 符 放 入 W41 3 


将 (W2,W3) 的 雅 可 比 放 入 W6 [Wh 的 拉 普 拉 
斯 算 符 放 入 W71 3 
| | 
更 新 7 表达 式 
OE EE 


计算 Ws 的 积分 
SS Se S E 
计算 Y=Ya+CUO Wp (注意 ,WY3 并 且 现在 站 保存 在 Ya 短 阵 )|| ， 为 四 求解 方 程 并 将 结果 放 进 Yp 


OE | TT 
使 用 WW 各 来 更 新 WW| 和 W; 
SS TI rr Tv | 
更 新 流 函 数 运行 和 , 以 及 确定 是 否 终止 程序 


图 3-14 Ocean: 在 一 个 时 间 步 中 的 不 同 阶段 和 网 格 计算 之 间 的 依赖 关系 。 每 个 框 是 一 个 网 格 
计算 (或 者 是 一 对 相似 的 计算 )。 通 过 竖 线 相连 的 计算 相关 ， 其 他 的 (例如 在 同一 
行 的 ) 计算 相互 独立 。 并 行程 序 将 每 一 行 看 作 是 一 个 阶段 ， 在 阶段 之 间 进行 同步 
涉及 到 的 固有 通信 的 问题 和 简单 方程 求解 器 的 问题 非常 类 似 ， 因 此 我 们 对 每 个 网 格 用 一 
种 块 结构 的 区 域 划分 。 有 一 种 麻烦 的 情况 一 一 在 数据 局 部 性 和 负载 平衡 方面 的 权衡 ， 关 系 到 
有 些 计 算 中 网 格 边界 的 那些 点 。 内 部 的 nx n 个 点 做 类 似 的 事情 ， 等 量 地 分 到 所 有 进程 中 。 
完美 的 负载 平衡 也 要 求 考虑 边界 点 并 在 进程 之 间 做 等 量 分 配 ， 但 通常 它们 做 的 事情 较 少 。 然 
而 ， 通 信和 数据 局 部 性 要 求 边界 点 应 该 分 给 拥有 邻近 内 部 点 的 那些 进程 中 ， 于 是 有 -_- 些 进程 
就 分 不 到 边界 点 。 我 们 就 按照 后 面 这 种 思路 ， 人 允许 稍微 有 点 负载 不 平衡 。 
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最 后 ， 让 我 们 考察 多 重 网 格 方程 求解 器 。 所 有 层次 的 网 格 按照 相同 的 块 状 区 域 划分 。 然 
而 ， 随 着 我 们 在 这 个 层次 结构 上 变 粗 粒度 ， 每 个 进程 的 网 格 点 数 减 少 ， 于 是 在 最 高 的 层次 上 
有 些 进程 可 能 变 得 朵 置 起 来 。 幸 运 的 是 ， 用 在 这 些 负载 不 平衡 层次 上 的 时 间 相 对 较 小 。 由 于 
每 个 进程 要 处 理 的 点 较 少 ， 通 信 计 算 比 在 较 高 的 层次 上 也 减少 。 这 也 说 明了 相对 于 最 好 的 串 
行 算法 (这 里 是 多 重 网 格 ) 测量 加 速 比 的 重要 性 : 和 并 行 多 重 网 格 求解 器 相 比 ， 一 种 经 典 
的 ， 非 层次 式 的 并 行 迭 代 求解 器 在 最 初 的 (最 细 的 ) 网 格 上 可 能 给 出 较 好 的 相对 于 自己 的 加 
速 比 (相对 于 单 处 理 器 完成 相同 的 计算 )。 一 般 来 说 ， 低 效 的 串 行 算法 通常 产生 较 好 的 自 相 
对 加 速 比 ， 但 这 对 最 终 用 户 来 说 不 是 有 用 的 度量 。 

3. 协调 

这 里 我 们 主要 关心 附加 通信 、 数 据 的 局 部 性 和 同步 。 首 先 让 我 们 考虑 和 空间 局 部 性 有 关 
的 问题 ， 然 后 是 时 间 局 部 性 ， 最 后 是 同步 。 

空间 局 部 性 ”在 网 格 计算 内 部 ， 和 空间 局 部 性 相关 的 问题 类 似 于 3.3.1 节 的 简单 方程 求 
解 器 内 核 中 的 问题 。 用 一 个 四 维 数组 来 表示 每 一 个 网 格 。 这 样 就 有 很 好 的 空间 局 部 性 ， 特 别 
是 局 部 数据 。 对 非 本 地 数据 的 访问 〈 那 些 邻居 边界 元 素 ) 沿 行 划分 方向 产生 好 的 空间 局 部 
性 ， 而 列 方向 较 差 。 简 单 求解 器 和 完整 的 Ocean 应 用 的 一 个 主要 差别 是 Ocean 在 每 一 时 间 步 
涉及 33 个 不 同 的 网 格 计 算 ， 每 一 个 计算 涉及 25 个 网 格 中 的 一 个 或 多 个 ， 因 此 我 们 会 在 网 格 
之 间 碰 到 许多 缓存 冲突 扑 空 。 这 些 冲 突 扑 空 的 减少 可 以 通过 让 所 分 配 的 数组 维 数 不 是 2 的 者 
次 (尽管 程序 用 2 的 寡 次 网 格 ) ， 但 是 ， 将 不 同 的 网 格 安放 得 相对 合适 ， 来 最 小 化 冲突 扑 空 
不 是 一 件 容 易 的 事情 。 第 二 个 不 同 在 于 用 了 多 重 网 格 求解 器 。 由 于 进程 的 划分 在 网 格 的 层次 
结构 的 高 层 上 有 和 较 少 的 网 格 点 ， 空 间 局 部 性 减 小 ， 因 此 在 存储 器 之 间 以 页 面 的 粒度 来 适当 地 
分 布 数据 就 变 得 更 困难 ， 尽 管用 了 四 维 数组 也 帮助 不 大 。 

工作 集 和 时 间 局 部 性 ”0cean 有 一 个 复杂 的 工作 集 层次 结构 ， 它 有 6 个 工作 集 。 前 两 个 
是 由 于 在 一 个 网 格 内 用 了 近邻 计算 ， 因 此 和 简单 方程 求解 器 内 核 的 情况 类 似 。 如 果 高 速 缓存 
足够 大 ， 能 够 装 下 几 个 网 格 点 使 得 某 一 个 点 一 旦 装 进 高 速 缓 存 ， 先 是 作为 计算 另 一 个 点 的 右 
邻 点 ， 然 后 是 计算 它 自己 ， 最 后 是 作为 计算 另 一 个 点 的 左 邻 点 ， 那 么 第 一 个 工作 集 就 被 捕获 
了 。 第 二 个 工作 集 包含 进程 划分 的 三 个 子 行 。 当 进程 从 一 个 子 行 回 到 下 一 子 行 的 开始 时 ， 它 
可 以 重用 上 一 子 行 的 元 素 。 

其 余 的 工作 集 难 以 作为 一 个 个 工作 集 定义 清楚 ， 因 此 在 工作 集 曲 线 中 也 不 产生 明显 的 损 
点 。 第 三 个 工作 集 是 进程 在 多 重 求解 器 中 一 个 网 格 的 完整 划分 。 这 可 以 是 在 多 重 网 格 层次 结 
构 中 的 任何 一 层 的 划分 ， 因 此 它 不 是 一 个 真实 意义 上 的 工作 集 。 第 四 个 工作 集 是 进程 在 网 格 
层次 中 的 车 于 层 子 网 格 的 和 (在 极端 情况 下 ， 就 是 所 有 层次 )。 第 五 个 工作 集 使 我 们 能 在 不 
同 的 网 格 计 算 ， 甚 至 计算 阶段 之 间 重 用 网 格 ; 这样 它 就 要 大 到 能 够 装 得 下 儿 个 网 格 在 进程 上 
的 划分 。 最 后 一 个 工作 和 集 是 进程 在 每 个 网 格 中 所 分 得 的 所 有 数据 ， 从 而 所 有 数据 在 不 同 的 时 
间 步 之 间 能 够 重用 。 

对 性 能 最 重要 的 工作 集 是 前 三 、 四 个 ， 取 决 于 多 重 网 格 求解 器 的 情况 。 这 些 工 作 集中 最 
大 的 一 个 随 每 个 进程 的 数据 集 的 变 大 而 线性 变 大 。 这 个 变化 率 在 有 些 应 用 中 是 常见 的 ， 重 复 
通过 它们 的 数据 集 ， 因 此 对 于 大 的 数据 集合 某 些 重要 的 工作 集 在 本 地 缓存 中 放 不 下 。 幸 运 的 
是 ， 在 这 些 流 场 应 用 中 大 数据 集 使 得 在 内 存 中 以 页 面 粒度 分 布 数据 变 得 容易 ， 于 是 一 个 进程 
的 工作 集 主 要 由 本 地 数据 构成 ， 不 需要 通信 。 非 局 部 数据 引起 的 少量 重用 被 捕获 在 前 两 个 工 
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作 集中 。 

同步 ”Ocean 用 两 种 类 型 的 同步 。 首 先 ， 全 局 栅 障 用 来 在 计算 阶段 之 间 以 及 多 重 网 格 方 
程 求解 器 的 遍历 之 间 ， 同 步 所 有 的 进程 (LE 3-14)。 在 几 个 阶段 之 间 ， 我 们 可 能 用 较 细 粒 
度 〈 网 格 点 的 层次 ) 的 点 对 点 同步 ， 来 获得 某 些 阶段 之 间 的 重 便 。 然 而 ， 在 这 种 情形 下 ， 重 
到 很 可 能 太 小 ， 不 足以 平衡 程序 设计 的 复杂 性 和 较 多 同步 操作 所 带 来 的 开销 。 第 二 种 形式 的 
同步 是 用 锁 来 提供 全 局 规约 的 互 斥 ， 例 如 ， 确 定 求解 的 收敛 。 同 步 点 之 间 的 工作 量 是 比较 大 
的 ， 它 和 网 格 的 进程 划分 的 大 小 成 比例 。 

4, 映射 

给 定 邻 近 通 信 的 模式 ， 将 进程 映射 到 处 理 器 的 思路 是 : 在 网 格 上 划分 相 邻 的 进程 在 网 络 
拓扑 上 接近 的 处 理 器 上 运行 。 容 易 看 到 ， 我 们 的 二 维 网 格 的 子 网 格 划分 能 够 很 好 地 映射 到 一 
个 二 维 网 格 网 络 。 然 而 ， 如 同 所 有 程序 ， 进 程 到 处 理 器 的 映射 不 是 由 程序 来 确定 的 ， 而 是 留 
给 系统 。 

5. 小 结 

对 于 许多 要 遍历 规则 数组 的 应 用 ，0Ocean 是 一 个 很 好 的 代表 。 对 于 问题 规模 是 n x n 个 
网 格 和 p 个 处 理 器 ， 计 算 通信 比 和 nA p 成 比例 ; WR n 相对 于 p 并 不 是 很 大 ， 负 载 平衡 是 
好 的 ; 对 给 定 的 处 理 器 数 ， 并 行 效率 随 网 格 大 小 变化 。 由 于 在 每 个 网 格 计算 中 ， 处 理 器 通过 
网 格 中 的 那 一 部 分 ， 并且 由 于 每 次 遍历 对 数据 的 操作 不 多 ， 还 由 于 跨 网 格 的 冲突 扑 空 有 很 大 
的 潜力 ， 数 据 在 存储 器 中 的 分 布 对 于 物理 分 布 存储 系统 是 非常 重要 的 。 

图 3-15 表示 执行 时 间 被 分 解 为 已、 等 待 同 步 点 和 等 待 数据 访问 的 完成 ; 具体 问题 是 
1030 x 1030 网 格 的 Ocean， 用 2D 和 4D 数组 ， 执 行 在 SGI Origin2000 机 器 上 。 这 个 机 器 有 很 大 
的 二 级 快 存 (4 MB) ， 于 是 对 于 四 维 数组 表示 ， 每 个 处 理 器 的 划分 能 够 较 容易 地 放 到 其 高 速 
缓存 中 。 和 处 理 器 数 相 比 问题 规模 足够 大 ， 则 固有 通信 计算 比 就 相当 低 。 主 要 的 瓶颈 在 于 等 
待 栅 障 同步 。 问 题 规模 小 就 会 有 较 多 通信 ， 而 大 问题 和 适当 的 数据 分 布 对 局 部 存储 系统 要 求 
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图 3-15 在 Ongin2000 上 Ocean 问题 的 执行 时 间 分 解 。 每 个 网 格 的 规模 是 1026 x 1026， 收 敛 误差 是 
10…。 在 (b) 中 用 四 维 数 组 表示 二 维 网 格 清楚 地 降低 了 停滞 在 存储 系统 上 的 时 间 (包括 通 
信 )。 这 里 的 等 待 时 间 很 小 ， 因 为 处 理 器 的 网 格 划分 很 好 地 适应 了 这 个 机 器 的 4 MB 二 级 高 速 
缓存 。 如 果 高 速 缓存 小 一 些 或 者 网 格 大 一 些 ， 消 耗 在 〈 局 部 ) 数据 等 待 上 的 时 间 就 会 大 很 多 9 





O ”在 这 里 以 及 后 面 的 执行 时 间 分 解 中 ， 没 有 和 图 3-12 中 那样 附加 的 终止 栅 障 ， 使 所 有 进程 等 待 直到 最 后 一 个 进程 
被 完成 才能 结束 。 
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高 。 对 于 二 维 数组 ， 情 况 显 然 不 同 。 由 于 数据 在 主 存 的 分 布 困难 ， 会 经 常 发 生 冲 突 扑 空 ， 而 
许多 这 样 的 扑 空 不 能 在 本 地 满足 ， 导 致 较 大 的 时 延 、 竞 争 和 较 大 的 数据 等 待 时 间 。 


3.5.2 Bames-Hut 


[F] Ocean 模拟 应 用 相 比 ， 星 系 演化 的 模拟 表现 出 非 规则 和 动态 变化 的 行为 特征 。 前 面 介 
绍 过 它 解决 的 是 nw 体 问 题 ， 其 中 主要 的 计算 内 容 是 计算 系统 中 n 个 对 象 相互 的 影响 。 用 来 
计算 星体 所 受 引 力 的 算法 (Bames-Hut) 是 一 种 高 效 的 层次 式 方法 。 对 于 n 体 来 说 ， 时 间 复 
AREA O(n log n)a 

1. 串 行 算法 

星系 的 模拟 要 经 历 许多 时 间 步 ， 每 一 步 计 算 作用 在 每 个 星体 上 的 合力 ， 然 后 更 新 该 星体 
的 位 置 和 其 他 属性 。 在 Bames-Hut 方法 中 计算 作用 力 的 思想 是 基于 : 如 果 旺 体 间 相 互 作 用 力 
的 大 小 随 距 离 迅 速 减 小 (如 同 引 力 )， 一群 星体 的 效果 可 以 由 一 个 等 价 的 星体 来 近似 ， 如 果 
那 一 组 星体 距离 作用 点 足够 远 的 话 。 这 个 思想 的 层次 式 应 用 隐 含 着 距离 越 远 ， 能 用 一 个 星体 
来 近似 的 群体 就 越 大 。 

为 了 便利 层次 式 的 做 法 ，Bames-Hut 算法 将 包含 有 星系 的 三 维 空间 表示 为 一 棵 树 。 树 根 
表示 包含 所 有 星体 的 空间 。 这 个 树 的 建立 是 将 星体 加 到 最 初 为 空 的 根 节点 上 ， 然 后 一 旦 它 含 
有 了 一 定数 量 的 星体 (这 里 为 10) ， 就 将 一 个 节点 分 为 它 的 8 个 相同 大 小 的 子 空间 。 这 个 结 
果 是 一 个 八 叉 树 ， 它 的 内 节点 是 表示 空间 的 单元 ， 叶 节点 包含 一 个 个 的 星体 .3 源 于 单元 分 
割 的 空 单元 被 忽略 。 这 个 树 (也 就 是 Bames-Hut 算法 ) 因此 具有 适应 性 ， 它 在 星体 密集 的 区 
域 扩展 有 较 多 的 层次 。n- 体 问题 一 般 是 一 个 三 维 空间 的 问题 ,但 为 了 解释 方便 起 见 ， 图 3-16 
给 出 了 一 个 小 的 二 维 例子 ， 对 应 的 树 为 四 叉 树 。 星 体 的 位 置 随 时 间 改 变 ， 因 此 这 个 树 要 在 每 
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图 3-16 Bames-Hut: 二 维 粒子 的 分 布 和 相应 的 四 叉 树 





O 八 又 树 是 这 样 的 一 种 数据 结构 ， 其 中 每 个 节点 最 多 有 8 个 子 节点 。 在 二 维 的 情形 ， 可 以 用 四 又 树 ， 
子 节点 数 不 超 过 4。 i 树 ， 其 中 最 大 的 
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我 们 知道 ， 用 并 行 处 理 系统 的 目的 是 为 了 获得 高 性 能 。 有 具体 地 理解 了 分 解 、 分 配 和 协 
调 等 步骤 是 怎么 体现 在 实际 运行 在 机 器 上 的 并 行程 序 代 码 中 的 ， 我 们 就 可 以 来 考察 那些 限 
制 并 行程 序 性 能 的 关键 因素 以 及 在 许多 问题 中 它们 是 如 何 表现 出 来 的 。 我们 将 看 到 在 程序 
设计 过 程 中 所 做 的 决定 是 如 何 影 响 给 体系 结构 的 运行 时 特征 以 及 体系 结构 的 特征 是 如 何 影 
响 程 序 设计 决定 的 。 理 解 程序 设计 技术 和 这 些 相互 制约 的 关系 ， 不 但 对 并 行 软件 设计 人 员 ， 
而 且 对 系统 结构 人 员 都 是 重要 的 。 除 了 将 并 行程 序 看 成 我 们 所 设计 系统 的 工作 负载 外 ， 我 
们 从 中 学 会 做 硬件 /软件 之 冶 的 权衡 。 特 别 是 ， 我 们 可 以 认识 到 系统 结构 能 够 有 效 地 影响 可 
编程 性 和 性 能 的 哪些 方面 ， 而 其 他 方面 最 好 留 给 软件 。 对 于 多 处 理 器 系统 的 性 能 来 说 ， 程 
序 和 系统 的 相互 依赖 关系 要 比 单 处理 器 情形 所 涉及 的 面 更 宽 、 更 加 复杂 也 更 加 重要 ; 因此 ， 
对 于 我 们 设计 高 性 能 系统 ， 要 降低 代价 和 程序 设计 劳作 的 目标 来 说 ， 理 解 这 种 相互 作用 是 
很 关键 的 。 从 第 4 章 讨论 工作 负载 驱动 的 系统 结构 评估 的 方法 开始 ， 这 种 理解 将 是 我 们 贯 
穿 全 书 的 一 种 基本 精神 。 

有 关 性 能 问题 和 并 行 软 件 技术 的 内 涵 是 丰富 的 : 不 同 的 目标 相互 制约 ， 更 好 地 实现 某 
个 目标 的 技术 可 能 使 我 们 重新 考虑 用 于 解决 另外 目标 的 技术 。 这 就 是 并 行 软件 创建 的 引 人 
人 胜 之 处 和 挑战 所 在 。 如 同 在 单 处 理 器 的 情形 一 样 ， 多 数 性 能 问题 能 够 通过 软件 算法 和 程 
序 设 计 技 术 ， 或 者 由 体系 结构 技术 来 解决 或 者 两 者 兼用 。 本 章 着 重 于 性 能 问题 和 软件 技术 。 
至 于 体系 结构 方面 的 技术 ， 将 在 本 书 的 其 余部 分 讨论 ， 本 章 只 是 隐 念 地 涉及 一 些 要 点 。 

尽管 我 们 必须 要 考虑 若干 具有 相互 作用 的 性 能 问题 ， 但 它们 不 是 同时 来 处 理 的 。 创 建 
一 个 高 性 能 程序 的 过 程 是 逐步 求 精 的 过 程 。 如 第 2 章 所 讨论 的 ， 划 分 的 步 又 (分 解 和 分 配 ) 
常常 是 和 底层 系统 结构 或 程序 设计 模型 相 独立 ， 它 们 主要 关心 算法 方面 的 问题 ， 只 依赖 于 
问题 图 有 的 特性 。 特 别 地 ， 这 些 步 驱 只 是 将 多 处 理 器 简单 地 看 成 是 一 组 相互 通信 的 处 理 贺 。 
它们 的 目标 是 要 解决 进程 各 的 工作 负载 平衡 ;减少 程序 中 固有 的 进程 间 通 信 ; 减少 为 了 计 
算 和 管理 划分 所 带 来 的 额外 的 工作 。 我 们 首先 将 注意 力 集 中 在 这 些 和 划分 有 关 的 问题 上 。 

然后 ， 我 们 看 体系 结构 ， 考 察 它 在 协调 和 映射 步骤 中 所 涉及 的 新 的 性 能 问题 。 这 意味 
着 我 们 要 认识 到 两 种 事实 。 第 一 ， 多 处 理 器 不 仅 是 一 组 处 理 器 ， 而 且 还 是 一 组 存储 器 ， 每 
个 处 理 器 可 以 将 这 存储 器 看 成 是 一 种 扩充 的 存储 器 层次 结构 。 在 这 些 存储 层次 中 数据 的 管 
理 可 能 引起 更 多 的 数据 在 网 络 上 传送 ， 使 得 实际 发 生 的 通信 要 比 并 行程 序 划 分 所 导致 的 固 
有 通信 要 多 。 因 此 ， 实 际 发 生 的 通信 既 依赖 于 划分 ， 也 依赖 于 程序 访问 的 模式 ， 数 据 引 用 
的 局 部 人 性 和 这 种 扩充 的 存储 器 层次 结构 的 组 织 与 管理 相互 作用 。 第 二 ， 由 处 理 器 所 看 到 的 
通信 代价 〈 也 就 是 通信 在 程序 执行 时 间 中 的 份额 ) 不 仅 取决 于 通信 量 ， 还 取决 于 它 的 结构 
以 及 和 体系 结构 的 相互 作用 。3.2 节 讨 论 通信 、 数 据 的 局 部 性 及 其 和 扩充 的 存储 结构 之 间 的 
关系 。 然 后 在 3.3 节 针 对 这 些 在 协调 和 映射 方面 的 主要 性 能 问题 ， 考 察 有 关 的 软件 技术 : 
通过 在 扩充 的 存储 器 层次 结构 上 开发 数据 的 局 部 性 ; 减少 额外 的 通信 ; 将 通信 结构 化 以 减 
少 其 开销 。 








169 








122 Hit AMRAAH 





是 不 统一 的 ， 因 此 一 个 好 的 分 配 难以 通过 观察 来 发 现 。 甚 次， 星体 的 分 配 随 时 间 步 变化 ， 意 
味 着 静态 分 配 不 大 可 能 奏效 。 再 者 ， 由 于 在 作用 力 的 计算 中 信息 的 需要 随 距 离 递减 ， 所 有 方 
问 相 同 ， 减 少 进程 间 的 通信 和 要求 划分 在 空间 中 连续 并 且 在 任何 方向 上 不 能 有 大 小 的 倾向 性 。 
第 四 ， 在 一 个 时 间 步 里 的 不 同 阶段 在 体 / 单 元 之 间 有 不 同 的 负载 分 布 要 求 ， 因 此 有 不 同 的 划 
分 偏好 。 例 如 ， 在 更 新 阶段 的 工作 对 于 所 有 体 都 是 统一 的 ， 而 力 的 计算 阶段 显然 不 是 。 另 一 
个 要 得 到 好 性 能 的 挑战 是 进程 间 所 需 的 通信 自然 是 细 粒 度 和 非 规则 的 。 

由 于 作用 力 的 计算 是 最 耗 时 的 ， 我们 重点 讨论 该 阶段 的 划分 。 对 于 其 他 阶段 ， 这 个 划分 
不 随 特 殊 需 要 改变 ， 否 则 的 话 ， 重 新 划分 和 局 部 性 的 损失 要 比 可 能 获得 的 好 处 要 大 ; 还 由 于 
类 似 的 划分 可 能 在 其 他 阶段 也 工作 得 很 好 ， 例 如 对 于 树 的 构造 和 动量 的 计算 阶段 (尽管 对 于 
更 新 阶段 不 怎么 好 )。 

在 这 个 应 用 中 ， 我 们 能 够 用 基于 性 态 的 半 静 态 划 分 ， 考 虑 下 面 这 个 事实 : 尽管 星体 的 空 
间 分 布 在 模拟 结束 时 可 能 与 开始 时 有 很 大 的 不 同 ， 但 它 随 时 间 的 变化 是 缓慢 的 ， 在 两 个 相继 
的 时 间 步 之 间 变 化 很 小 。 在 一 个 时 间 步 里 计算 作用 力 的 时 候 ， 我 们 记录 下 在 该 时 间 步 中 每 个 
粒子 所 做 的 工作 〈 即 我 们 记 下 它 和 其 他 体 或 单元 相互 作用 的 次 数 )。 然 后 我 们 把 这 个 数 作为 
下 一 时 间 步 里 和 该 粒子 相关 工作 的 一 种 度量 。 和 代价 高 的 相互 作用 计算 相 比 ， 工 作 计 数 的 开 
销 是 小 的 ， 它 只 涉及 增加 一 个 本 地 计数 器 。 现 在 我 们 需要 将 这 种 负载 平衡 方法 和 分 配 技巧 结 
合 起 来 ， 那 些 技巧 也 达到 通信 的 目标 ， 保持 划分 在 空间 中 的 连续 ， 不 在 任何 方向 上 、 大 小 上 
有 偏向 。 我 们 简单 地 讨论 两 种 技巧 ; 第 一 种 适合 于 许多 非 规则 问题 ， 第 二 种 对 我 们 这 个 应 用 
有 特别 的 针对 性 ， 也 是 我 们 程序 所 用 的 。 

第 一 个 技术 ， 称 为 正 交 递归 二 分 法 (ORB)， 通 过 直接 划分 数据 空间 保持 空间 物理 上 的 
局 部 性 。 用 前 面 提 到 的 负载 平衡 度量 ， 该 空间 被 递归 地 分 为 两 个 带 有 相等 工作 量 的 矩形 子 空 
间 ， 直 到 每 个 进程 留 有 一 个 子 空间 ( 见 图 3-18a) 。 开 始 ， 所 有 进程 都 和 整个 空间 相关 。 每 次 
分 割 一 个 空间 的 时 候 ， 和 它 相关 的 一 半 进 程 分 给 所 得 到 的 子 空 间 。 划 分 所 取 的 笛 卡 尔 方向 通 
常 随 相 继 的 分 割 交 蔡 改 变 ， 一 个 并 行 的 中 值 计 算 方法 用 来 确定 在 哪儿 分 割 当 前 的 子 空 间 。 一 
个 单独 的 深度 为 log p 的 二 叉 树 用 来 跟踪 这 些 分 割 ， 实 现 ORB。 (这 个 应 用 中 使 用 ORB 的 细 
节 见 [Salmon 1990]) 

第 二 个 技术 ， 称 为 代价 区 〈eostzones) ， 甚 基础 是 认识 到 在 Barnes-Hut 算法 的 树 数据 结构 
里 已 经 有 了 一 个 空间 分 布 星体 的 表示 。 这 样 ， 我 们 可 以 对 这 个 数据 结构 本 身 做 划分 ， 从 而 达 
到 划分 空间 的 目的 〔 见 图 3-18b)。 每 个 内 部 单元 所 存放 的 是 和 它 所 包含 的 所 有 星体 相关 的 总 
代价 。 系 统 中 总 的 工作 量 或 者 代价 在 进程 之 间 分 担 ， 每 个 进程 有 一 个 连续 的 、 相 等 区 域 的 工 
YE (例如 ，1000 个 单位 的 总 工作 量 在 10 个 进程 之 间 分 配 ，!1 ~ 100 单位 区 分 给 第 一 个 进程 ， 
101 ~ 200 单位 区 分 给 第 二 个 进程 ， 等 等 )。 树 中 的 一 个 星体 属于 哪个 代价 区 ， 可 通过 按 先 根 
序 的 遍历 到 该 体 的 总 代价 确定 。 进 程 并 行 地 遍历 这 个 树 ， 搞 取 属 于 它们 代价 区 的 星体 。( 细 
PR. [Singh et al.1995]) 代价 区 方法 要 比 ORB 容易 实现 得 多 。 两 种 方法 都 导致 类 似 的 负载 平 
衡 和 固有 通信 的 性 质 ， 但 代价 区 方法 在 共享 存储 空间 中 有 较 好 的 总 体 性 能 。 这 主要 是 由 于 花 在 
划分 阶段 的 时 间 本 身 〈 即 计算 这 个 划分 ) 要 小 得 多 ， 这 是 额外 工作 对 性 能 影响 的 一 个 例证 。 

3. 协调 

Barnes-Hut 的 协调 问题 揭示 了 许多 和 Ocean 的 不 同 点 ,说 明 即 使 同 是 科学 计算 应 用 ， 也 
可 能 有 相当 不 同 的 行为 特征 ,这些 差 别 对 系统 结构 的 研究 是 有 用 的 。 
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a) ORB b) 代价 区 


图 3-18 ”Bames-Hut 的 划分 方案 : ORB 和 代价 区 法 。ORB 直接 将 空间 递归 用 二 分 法 划分 ， 代 价 区 法 
的 划分 作用 在 树 上 。b) 表示 代价 区 法 在 树 上 的 划分 及 其 所 导致 的 空间 划分 结果 。 和 代价 
区 法 相 比 ，ORB 得 到 的 划分 要 规则 些 〈 和 矩形 )， 但 它们 的 通信 和 负载 平衡 性 质 相 当 类 似 
空间 局 部 性 ”在 共享 地 址 空间 ， 进 程 访 问 它 在 各 个 计算 阶段 所 需 的 共享 树 的 有 关 部 分 比 
较 容易 ; 但 分 布 数据 用 来 保持 进程 分 配 的 星体 和 单元 在 它 自己 的 主 存 就 不 如 Ocean 容易 了 。 
首先 ， 数 据 得 随 不 同时 间 步 动态 重新 分 布 ， 这 个 代价 很 高 。 其 次 ， 逻 辑 的 数据 粒度 (一 个 粒 
子 / 单 元 ) 要 比 物理 存储 分 配 的 粒度 (一 个 页 面 ) 小 得 多 ， 分 给 相同 进程 的 星体 /单元 在 物理 
空间 中 是 连续 的 ， 并 不 意味 着 它们 在 星体 /单元 数组 的 空间 上 连续 。 解 决 这 些 问题 要 求 彻 底 
规整 存放 星体 和 单元 的 数据 结构 : 每 个 进程 用 单独 的 数组 或 表 ， 在 跨 时 间 步 当 分 配 改变 时 进 
行 修改 ， 因 此 是 和 串 行程 序 不 同 的 数据 结构 。 幸 运 的 是 ， 在 这 个 应 用 中 有 足够 的 时 间 局 部 
性 ， 数 据 分 布 在 共享 数据 空间 不 是 那么 重要 (这 也 是 不 同 于 Ocean 的 )。 除 此 以 外 ， 大 多 数 
高 速 缓存 扑 空 是 对 于 那些 分 给 其 他 处 理 器 的 体 和 单元 ， 因 此 数据 分 布 本 身 不 能 使 这 些 扑 空 局 
部 化 。 我 们 因此 简单 地 以 一 种 轮 循 交替 的 方式 将 共享 数据 的 页 面 分 布 在 节点 之 间 ， 不 具体 去 
管 哪个 节点 得 到 哪个 页 面 。 
Ocean 中 ， 大 的 高 速 缓存 块 能 改善 局 部 访问 性 能 ， 只 是 受 划 分 尺寸 的 限制 ; 而 这 里 多 字 
的 高 速 缓存 块 对 开发 空间 局 部 性 的 帮助 仅 在 于 读 一 个 粒子 的 偏 移 或 动量 数据 涉及 读 多 个 双 精 
度 的 数据 。 很 大 的 传送 粒度 可 能 引起 较 多 的 碎片 ， 因 此 预 取 的 用 处 不 大 ， 原 因 和 数据 以 页 面 
分 布 的 困难 是 相同 的 : 不 同 于 Ocean， 星 体 / 单 元 在 数组 中 的 局 部 性 和 物理 空间 的 局 部 性 不 匹 
配 〈 分 配 是 基于 物理 空间 的 ) ， 因 此 针对 扑 空 从 数组 中 取得 多 于 一 个 星体 /单元 的 数据 可 能 是 
有 害 ， 而 不 是 有 益 的。 空间 局 部 性 取决 于 星体 或 单元 结构 的 大 小 ， 不 随 星体 数 改进 多 少 。 
工作 集 和 时 间 局 部 性 ”这 个 程序 中 的 第 一 个 工作 集 包 含 用 于 计算 星体 - 星体 或 星体 - 单 
元 之 间 力 的 数据 。 在 遍历 中 ， 和 下 一 个 星体 或 单元 的 相互 作用 将 重用 这 个 数据 。 第 二 个 工作 集 
对 性 能 来 说 是 最 重要 的 。 它 的 构成 包含 所 有 与 计算 作用 在 单个 星体 上 的 作用 力 有 关 的 数据 ， 这 
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些 数据 在 遍历 树 的 时 候 碰 到 。 由 于 划分 的 方式 ， 下 一 个 要 计算 受 力 的 星体 将 在 空间 上 和 当前 的 

星体 靠近 ， 因 此 通过 树 的 遍历 来 计算 作用 在 星体 上 的 作用 力 将 重用 大 部 分 数据 。 当 我 们 从 一 个 

星体 到 另 一 个 星体 的 时 候 ， 这 个 工作 集 的 构成 缓慢 变化 ， 但 重用 的 量 是 很 大 的 ， 于 是 结果 工作 

集 很 小 ， 尽 管 宏观 上 一 个 进程 以 非 规则 的 方式 访问 了 一 个 数量 非常 大 的 数据 。 在 这 个 工作 集中 

的 许多 数据 源 于 其 他 进程 的 划分 ， 大 多 数 数据 是 非 局 部 分 配 的 。 这 样 ， 对 这 个 应 用 性 能 的 关键 

是 在 共享 数据 (包括 局 部 和 非 局 部 ) 上 开发 的 时 间 局 部 性 ， 而 不 像 Ocean 中 是 数据 分 布 的 。 
算法 的 复杂 性 为 


0 G x nlogn) 
从 而 这 个 工作 集 的 期 望 大 小 和 
O G x logn ) 


成 比例 ， 尽 管 本 应 用 的 整个 存储 要 求 和 n 几乎 呈 线 性 关系 : 每 个 粒子 访问 树 中 大 约 这 么 多 
数据 来 计算 作用 于 它 的 力 。 这 里 的 比例 系数 不 大 ， 是 从 每 个 星体 或 单元 在 计算 力 的 期 间 访问 
的 数据 量 。 由 于 这 个 工作 集 缓慢 增长 ， 很 容易 装 到 现代 二 级 高 速 缓存 中 ， 我 们 不 需要 在 主 存 
中 复制 数据 。 在 Ocean 中 ， 某 些 重要 的 工作 集 随 数据 集 大 小 线性 增长 ， 我 们 不 总 是 期 望 它们 
能 放 在 高 速 缓存 中 ; 然而， 适当 的 数据 分 配 是 容易 的 并 能 够 保持 多 数 高 速 缓存 扑 空 在 局 部 ， 
因此 即使 在 Ocean 上 我 们 也 不 需要 在 主 存 复制 数据 。 

同步 ”在 计算 的 一 些 阶 段 之 间 ， 例 如 树 的 建立 和 用 树 来 计算 受 力 为 两 个 不 同 的 阶段 ， 栅 
障 用 来 维护 体 和 单元 之 间 的 相关 性 要 求 。 至 少 对 于 我 们 假设 的 程序 设计 原 语 来 说 ， 相 关 性 不 
可 预测 的 特点 使 得 在 星体 或 单元 粒度 上 用 点 到 点 同步 蔡 代 栅 障 比较 困难 。 用 在 一 个 时 间 步 中 
的 少量 的 顶 障 独立 于 问题 大 小 或 处 理 器 数 ， 只 取决 于 阶段 数 。 

在 作用 力 的 计算 阶段 本 身 ， 是 不 需要 同步 的 。 当 应 用 中 通信 和 共享 模式 为 非 规则 时 ， 它 
们 是 阶段 结构 化 的 。 邑 尽管 一 个 进程 在 作用 力 计算 阶段 要 从 许多 其 他 进程 读 星体 和 单元 数 
E, 在 本 阶段 写 的 一 个 星体 结构 的 域 (加 速度 和 速度 ) 不 同 于 它 所 读 出 的 (位 移 和 质量 )。 
位 移 只 是 在 更 新 阶段 的 结束 时 才 写 和 人， 质量 在 初始 化 后 就 不 再 改变 。 然 而 ， 在 其 他 阶段 程序 
可 以 用 锁 来 互 斥 和 用 标记 做 点 到 点 事件 同步 ， 其 方式 和 Ocean 相 比 要 有 意思 得 多 。 在 树 的 构 
造 阶段 ， 当 一 个 进程 准备 要 增加 一 个 星体 或 单元 时 ， 它 必须 首先 得 到 对 单元 的 互 斥 访问 权 ， 
这 是 由 于 其 他 进程 可 能 要 在 同一 时 间 访 问 同 一 单元 。 这 可 以 通过 给 每 单元 一 加 把 锁 来 实现 。 
计算 一 个 单元 质心 的 阶段 本 质 上 是 一 次 从 叶 到 根 的 上 朔 过 程 ， 每 个 单元 动量 的 计算 要 从 它 的 
子 单元 的 动量 开始 。 点 到 点 事件 同步 用 标记 实现 ， 以 保证 父 节 点 在 子 节点 本 身 没 被 更 新 之 
前 ， 不 读 取 它 的 子 节点 的 动量 。 这 是 一 个 多 生产 者 、 单 消费 者 组 同步 的 例子 。 在 更 新 阶段 内 
部 没有 同步 。 

在 同步 点 之 间 的 工作 量 是 大 的 ,特别 是 在 力 计算 和 更 新 阶段 ， 分 别 为 0( es) 和 
0(n/p )。 在 树 的 构造 和 质心 计算 阶段 ， 锁 住 单元 的 需要 使 得 这 些 阶 段 中 同步 点 之 间 的 工作 
量 要 小 得 多 。 

4. 映射 

非 规则 特性 使 这 个 应 用 较 难 在 像 网 格 那样 的 常见 网 络 上 映射 得 好 ， 从 而 在 网 络 节点 的 意 
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义 上 开发 局 部 性 较 难 。ORB 划分 方案 能 够 很 自然 地 映射 到 一 个 超 立 方 体 拓扑 结构 上 (将 在 
第 10 章 讨论 ) ， 但 这 对 网 格 或 连通 性 差 一 些 的 网 络 并 不 怎么 好 。 对 于 代价 区 划分 来 说 ， 它 能 
自然 地 映射 到 一 个 一 维 处 理 器 结构 上 ， 但 在 许多 其 他 网 络 拓扑 上 不 容易 保证 通信 的 局 部 性 。 

5. 小 结 

Bames-Hut 应 用 展示 了 非 规 则 、 细 粒度 、 随 时 间 变 化 的 通信 和 数据 访问 模式 。 在 科学 计 
算 中 ， 随 着 我 们 试图 模拟 更 加 复杂 的 自然 现象 ， 类 似 的 情况 日 益 普遍 。 仅 仅 从 程序 设计 的 角 
度 ， 难 以 感受 到 对 这 个 应 用 有 效 划分 的 方案 ， 需 要 有 来 自 应 用 领域 的 洞察 力 。 这 种 洞察 力 能 
够 使 我 们 摆脱 用 完全 动态 的 分 配方 法 ， 例 如 任务 队列 和 窃取 。 

图 3-19 示 出 这 个 应 用 在 32 处 理 器 的 SGI Origin2000 上 执行 时 间 的 分 解 。 即 使 是 静态 的 将 
星体 指针 数组 划分 到 处 理 器 ， 负 和 载 平 衡 也 相当 好 ， 这 恰 俗 是 由 于 星体 在 数组 中 的 位 置 和 在 物 
理 空间 中 的 位 置 没 有 什么 关系 。 然 而 ， 由 于 大 量 的 通信 (固有 和 附加 ) 产生 于 缺乏 连续 性 的 
物理 空间 中 ， 静 态 划分 的 数据 访问 代价 是 高 的 。 半 静态 代价 区 划分 大 大 减少 了 这 种 数据 访问 
的 代价 ， 同 时 不 损害 负载 平衡 。 


时 间 (s) 





进程 进程 
a) 星体 的 静态 分 配 b) 六 静态 代价 区 分 配 


图 3-19 在 Origin2000 上 Bames-Hut 对 512 K 个 星体 的 执行 时 间 分 解 。 所 用 的 静态 分 配 是 相当 随机 的 ， 这 
样 ， 在 星体 数 相对 于 处 理 器 数 要 大 得 多 的 情况 下 ， 负 载 就 自然 比较 平衡 了 (由 于 大 数 定律 )。 这 
里 静态 分 配 较 大 的 问题 是 ， 由 于 是 随机 的 ， 分 给 处 理 器 的 粒子 在 空间 中 不 聚 在 一 起 ,因此 通信 对 
计算 的 比 要 比 半 静 态 方案 大 得 多 。 这 就 是 半 静 态 方案 的 数据 等 待 时 间 要 小 得 多 的 原因 。 如 果 我 们 
静态 地 将 空间 中 连续 的 区 域 分 配给 进程 ， 数 据 等 待 时 间 会 小 一 些 ， 但 负载 会 不 平衡 ， 因 此 同步 等 
待 时 间 就 会 大 了 。 即 便 是 现在 这 种 静态 分 配 ， 随 着 星系 的 演化 也 不 能 保证 分 配 会 保持 负载 的 平衡 


3.5.3 光线 跟踪 


前 面 介绍 过 ， 在 光线 跟踪 问题 中 ， 光 线 通 过 一 个 图 像 平面 的 像素 射 到 一 个 三 维 场景 ， 光 
线 在 不 断 反 射 和 折射 时 的 路 径 被 跟踪 ， 以 计算 对 应 像素 的 颜色 和 透明 度 。 算 法 用 了 一 种 空间 
的 层次 表示 法 ， 称 为 层次 化 一 致 网 格 (HUG) ， 在 结构 上 类 似 于 Bames-Hut 应 用 中 的 八 又 树 。 
树 的 根 表示 包含 场景 的 整个 空间 ， 每 个 叶 维 持 一 个 落 到 该 叶 范 围 内 的 对 象 基 元 的 链表 (每 个 
时 的 基 元 最 大 值 和 该 树 结构 的 其 他 一 些 方面 由 用 户 定义 )。 当 跟踪 一 束 光线 时 ， 层 次 网 格 或 
树 使 我 们 能 够 高 效 地 掠 过 空间 中 的 空 区域 ， 迅 速 找到 下 一 个 有 意义 的 单元 。 

1， 串 行 算法 

给 定 一 个 视点 ， 串 行 算法 对 图 像 平 面 的 每 一 个 像素 点 发 出 一 个 到 达 场 景 的 射线 。 这 些 初 
始 的 射线 称 为 原始 射线 。 当 该 射线 碰 到 第 一 个 物体 时 (通过 遍历 层次 统一 网 格 找到 )， 它 首 
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先 朝 每 一 个 光源 反射 ， 以 决定 它 是 否 在 该 光源 的 阴影 中 。 如 果 不 是 ， 该 光源 对 它 的 颜色 和 亮 
度 的 贡献 就 可 计算 出 来 。 这 条 光线 还 在 场景 中 的 物体 上 根据 情况 作 反 射 和 折射 。 每 次 反射 和 
折射 生成 一 条 新 的 光线 ， 然 后 递归 地 重复 上 述 过 程 。 这 样 ， 每 个 原始 射线 产生 一 个 射线 树 。 
这 个 过 程 的 终止 条 件 是 它们 离开 包含 场景 的 空间 或 者 遵照 某 种 用 户 定义 的 标准 〈 例 如 光线 树 
中 的 最 大 层次 数 )。 光 线 跟 踪 问 题 或 者 更 一 般 地 讲 计算 机 图 形 学 中 的 许多 问题 ， 表 现 出 在 执 
行 时 间 和 图 像 质量 之 间 的 几 种 权衡 ， 人 们 研究 了 许多 改善 性 能 但 不 是 十 分 影响 图 像 质量 的 优 
化 算法 。 

2. 分 解 和 分 配 

有 两 种 自然 的 做 法 在 光线 跟踪 中 开发 并 行 性 。 一 种 是 划分 空间 ， 从 而 也 就 是 将 场景 中 的 
物体 分 给 进程 ， 让 一 个 进程 计算 光线 在 它 自 己 的 空间 中 的 相互 作用 。 这 里 分 解 的 单位 是 一 个 
子 空间 。 当 一 条 光线 离开 一 个 进程 的 子 空间 时 ， 它 将 进入 另 一 个 子 空 间 ， 并 由 负责 该 空间 的 
进程 来 处 理 它 。 这 称 为 是 面向 场景 的 做 法 。 另 一 种 面向 光线 的 做 法 是 在 进程 之 间 划 分 图 像 平 
面 中 的 像素 。 一 个 进程 对 分 给 它 的 像素 的 光线 负责 ， 在 它 通过 场景 的 整个 路 径 中 始终 跟着 一 
条 光线 ， 计 算 此 条 光线 所 产生 的 整个 光线 树 的 相互 作用 。 这 时 ， 分 解 的 单位 是 一 条 原始 光 
线 。 如 果 有 必要 的 话 ， 分 解 还 可 能 进行 细 化 ， 可 允许 不 同 的 进程 处 理由 同一 根 原 始 光 线 产生 
的 光线 〈 即 同一 个 光线 树 上 的 光线 )。 在 面向 场景 的 方法 中 ， 由 于 一 个 进程 只 接触 它 的 子 空 
间 的 场景 数据 和 进入 该 子 空间 的 光线 ， 该 方法 保持 更 多 的 场景 数据 局 部 性 。 不 过 ， 面 向 光线 
的 方法 编 起 程序 来 要 容易 得 多 (特别 是 从 一 个 循环 在 光线 上 的 串 行 程序 开始 并 行 化 )， 由 于 
光线 能 独立 处 理 不 需要 同步 ， 而 场景 数据 是 只 读 的 ， 因 此 在 共享 地 址 空间 上 低 开 销 实现 起 来 
也 是 容易 的 。 在 消息 传递 模型 ， 显 式 非 局 部 场景 数据 的 复制 ， 做 起 来 也 很 容易 。 这 个 程序 因 
此 用 了 面向 光线 的 方法 。 对 于 n x n 像素 平面 来 说 的 并 发 性 是 0 (n?)， 通 常 来 说 是 足够 多 的 。 

不 幸 的 是 ， 图 像 平 面 的 静态 块 状 划分 将 不 是 负载 平衡 的 。 从 图 像 平 面 不 同 部 分 的 光线 可 
能 遇 到 非常 不 同 数量 的 反射 ， 这 意味 着 不 同 的 光线 可 能 对 应 有 非常 不 同 的 工作 量 。 鉴 于 工作 
量 的 分 配 高 度 不 可 预测 ， 我 们 这 里 用 一 个 分 布 式 任务 队列 系统 〈 每 个 进程 一 个 队列 )， 带 有 
支持 动态 平衡 负载 的 任务 窃取 功能 。 

为 了 确定 如 何 开始 将 光线 或 者 像素 分 给 进程 ， 让 我 们 考虑 通信 的 情况 。 由 于 场景 数据 是 
只 读 的 ， 它 不 引起 固有 通信 。 如 果 我 们 在 每 个 节点 上 复制 整个 场景 数据 ， 那 么 除 任务 窃取 外 
就 完全 没有 通信 。 然 而 ， 这 种 做 法 使 我 们 不 能 显现 比 放 在 一 个 节点 存储 器 大 的 场景 ， 因 此 数 
据 集 的 大 小 不 能 随处 理 器 的 增多 而 扩大 。 这 里 采用 将 场景 数据 分 放 在 p 个 处 理 器 上 的 做 法 。 
因为 只 有 Lp 的 场景 放 在 一 个 节点 ， 于 是 除了 任务 窃取 外 还 要 产生 其 他 通信 ， 而 进程 访问 场 
景 是 广泛 的 、 不 可 预测 的 。 为 了 减少 这 种 附加 通信 ， 我 们 希望 进程 尽 可 能 重用 场景 数据 ， 而 
不 是 随机 地 访问 整个 场景 。 为 此 ， 我 们 可 以 开发 光线 跟踪 中 的 空间 相关 性 ， 鉴 于 光线 反射 和 
折射 的 方式 ， 从 同一 个 视点 通过 相 邻 像素 点 的 光线 很 可 能 经 过 场景 中 相似 的 部 分 ， 以 相似 的 
方式 反射 。 这 就 提示 我 们 应 该 在 像素 平面 上 用 域 分 解法 ， 将 像素 初始 分 配 到 任务 队列 中 。 由 
于 相 邻 性 或 者 光线 的 空间 相关 性 在 图 像 平面 的 所 有 方向 起 作用 ， 面 向 块 状 的 域 分 解 效果 会 很 
好 。 这 也 减少 图 像 、 像 素 它们 自己 的 通信 。 

AE p 个 进程 ， 图 像 平 面 划 分 成 p 个 矩形 块 ， 大 小 尽量 接近 。 每 个 图 像 块 或 者 划分 进 
一 步 分 为 大 小 辕 定 的 正方 形 图 像 拼 块 ， 它 是 任务 粒度 和 窃取 的 单位 ( 见 图 3-20 四 进程 的 情 
形 )。 这 些 拼 块 任务 最 初 插 入 相关 的 (拥有 它 的 ) 处 理 器 的 任务 队列 ， 一 个 处 理 器 按 线 扫描 
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次 序 来 光线 跟踪 它 自己 划分 中 的 拼 块 。 当 它 完成 了 自己 的 分 块 后 ， 就 从 仍然 还 在 忙 着 的 处 理 
涡 那 里 窃取 拼 块 任务 。 拼 块 大 小 的 选择 也 是 需要 折 中 考虑 的 ， 大 一 些 ， 可 以 通过 空间 相关 性 
保持 数据 的 局 部 性 和 减少 对 其 他 处 理 器 队列 的 访问 次 数 〈 两 者 都 减少 通信 ); 小 一 些 ， 则 可 
以 通过 足够 小 的 任务 来 更 好 地 保证 负载 平衡 。 我 们 也 可 能 在 开始 的 时 候 以 某 种 在 两 个 维 都 交 
织 的 方式 将 拼 块 分 给 进程 〈 称 为 散发 分 解 )， 从 而 追求 在 初始 分 配 中 改进 负载 的 平衡 ， 减 少 
运行 时 任务 的 窃取 ， 这 时 的 代价 是 某 些 空间 相关 性 的 损失 。 


十 一片， 任务 窃取 单元 
He, WPA 





图 3-20 针对 四 个 处 理 器 的 系统 ，Raytrace 的 图 像 平面 的 划分 。 每 一 小 片 包含 若干 像素 。 每 个 进程 分 得 一 
片 连续 的 拼 块 。 当 进程 完成 了 对 分 给 它 的 块 的 处 理 ， 它 可 能 从 其 他 进程 那里 “窃取 ”小 片 来 处 理 

3. 协调 

给 定 前 面 的 分 解 和 分 配 ， 让 我 们 考察 空间 局 部 性 、 时 间 局 部 性 和 同步 。 

空间 局 部 性 ”大 多 数 共享 数据 的 访问 是 针对 场景 数据 的 。 然 而 ， 由 于 视点 的 改变 和 光线 
的 反射 不 可 预测 ， 不 可 能 将 场景 划分 为 若干 部 分 ， 每 一 个 只 被 (或 者 即使 主要 是 ) 一 个 进程 
访问 。 除 此 以 外 ， 场 景 数据 结构 自然 是 比较 小 的 ， 通 过 指针 连 在 一 起 ， 因 此 很 难 在 存储 器 中 
用 页 面 的 粒度 分 布 它 们 。 我 们 因此 用 一 种 含有 场景 数据 页 面 的 轮 循 布局 来 减少 热点 和 冲突 。 
图 像 数据 也 很 小 ， 我 们 试图 将 它 所 涉及 的 几 个 页 面 分 配 到 不 同 的 处 理 器 ， 如 同 场景 数据 那 
样 。 先 前 描述 的 对 图 像 平 面 的 块 状 分 配 ， 在 高 速 缓存 块 的 粒度 能 够 相当 好 地 保持 空间 局 部 
性 ， 尽 管 它 可 能 导致 一 些 拼 块 边界 局 部 性 的 损失 (特别 是 任务 窃取 时 )。 图 像 平面 的 条 状 分 
解 ， 从 空间 局 部 性 的 观点 看 起 来 要 好 些 ， 但 在 利用 场景 的 空间 相关 性 方面 并 不 怎么 好 。 如 同 
Ocean， 最 好 的 选择 可 能 是 和 体系 结构 有 关 的 ， 分 配 能 够 容易 地 参数 化 。 场 景 数据 上 的 空间 
局 部 性 不 是 很 高 ， 对 于 大 场景 来 说 也 没什么 改进 。 

时 间 局 部 性 由 于 场景 数据 的 只 读 性 质 ， 如 果 有 无 限 的 复制 容量 ， 那 么 只 是 在 最 初 对 非 
本 地 分 配 的 数据 引用 时 会 引起 通信 。 另 一 方面 ， 如 果 是 有 限 复制 容量 ， 数 据 可 能 要 被 替换 ， 
重新 通信 就 成 为 可 能 。 前 面 所 描述 的 域 分 解 和 空间 相关 性 方法 增强 了 场景 数据 的 时 间 局 部 
性 ， 减 小 了 工作 集 的 大 小 。 然 而 ， 由 于 访问 模式 是 如 此 的 不 可 预测 (鉴于 光线 的 弹射 )， 工 
作 集 相对 还 是 较 大 并 且 定 义 的 不 好 。 注 意 ， 大 多 数 被 访问 的 场景 数据 ， 也 就 是 工作 集 的 内 
容 ， 可 能 是 非 本 地 的 。 尽 管 如 此 ， 这 个 共享 地 址 空间 程序 没有 安排 在 主 存 复制 数据 ， 主 要 是 
由 于 工作 集 不 那么 明显 ， 机 器 上 的 缓存 已 经 较 大 ， 而 在 主 存 搞 数据 复制 是 有 代价 的 ， 因 此 不 
清楚 利益 是 否 能 大 于 开销 。 

同步 和 粒度 ”程序 只 用 了 一 个 栅 障 ， 安 排 在 整个 场景 的 泻 染 完成 后 ， 但 在 显示 之 前 。 锁 
用 来 保护 任务 队列 和 某 些 跟踪 程序 统计 信息 的 全 局 变量 。 在 同步 点 之 间 的 工作 是 和 一 个 光线 
拼 块 相关 的 工作 ,通常 是 相当 大 的 。 
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4. 映射 

由 于 Raytrace 对 于 它 的 场景 数据 有 非常 不 可 预测 的 访问 和 通信 模式 ， 几 乎 没有 通过 映射 
来 优化 附加 通信 的 空间 。 初 始 的 分 配 将 图 像 划分 为 二 维 块 状 网 格 ， 使 得 我 们 很 自然 将 它 映射 
到 一 个 二 维 网 格 网 络 ， 但 这 种 映射 的 效果 不 可 能 很 明显 。 

5. 小结 

这 个 应 用 的 特点 是 有 较 大 的 工作 集 以 及 相对 较 差 的 空间 局 部 性 ; 只 要 有 足够 的 场景 复制 
容量 ,通信 计算 比 就 很 低 。 图 3-21 显示 在 Origin2000 上 执行 时 间 的 各 个 成 分 ， 针 对 的 是 一 种 
标准 的 数据 ， 即 场景 为 一 些 安排 成 堆 的 球 ， 该 图 表现 了 任务 窃取 对 于 提高 负载 平衡 的 重要 
性 ， 而 负载 平衡 也 意味 着 在 栅 障 同步 上 等 待 时 间 的 减少 。 由 于 任务 窃取 所 发 生 的 额外 通信 和 
同步 是 非常 值得 的 。 


时 间 (s) 
时 间 (s) 








进程 进程 
a) 没有 任务 窃取 b) 有 任务 窃取 


图 3-21 在 Origin 2000 上 ，Raytrace 算法 在 球 数据 上 的 执行 时 间 分 解 。 在 这 种 高 度 不 可 预测 的 应 
用 中 ,任务 窃 取 对 平衡 负载 (从 而 降低 在 杨 障 上 的 同步 等 待 时 间 ) 来 说 显然 是 很 重要 的 


3.5.4 数据 挖掘 


数据 挖 据 和 前 面 提 到 的 那些 应 用 的 一 个 关键 区 别 在 于 它 所 要 访问 和 处 理 的 数据 典型 地 驻 
留 在 磁盘 上 ， 而 不 是 在 内 存 中 。 由 于 磁盘 访问 的 代价 很 高 ， 减 少 其 访问 次 数 就 变 得 非常 重 
要 。 次 数 减少 的 另 一 好 处 是 减少 不 同 的 处 理 器 对 磁盘 控制 器 的 争 用 冲突 。 从 本 质 上 看 ， 用 于 
减少 磁盘 访问 代价 的 技巧 和 减少 通信 和 存储 访问 的 技巧 是 相同 的 。 

在 前 面 章 节 的 介绍 中 ,我们 得 到 相 联 挖 据 中 的 基本 要 点 ， 如 果 大 小 为 k 的 物品 集合 是 大 
的 〈 即 它 在 交易 中 出 现 的 次 数 超过 某 个 阔 值 )， 那 么 这 个 项 目 集合 的 所 有 子 集 必然 也 是 大 的 。 
作为 解释 ， 考 虑 一 个 数据 库 ， 包 含 五 个 物品 (A B, C DAE) 其 中 一 个 或 者 多 个 可 能 出 
现在 一 个 特定 的 交易 中 。 在 一 个 交易 中 的 物品 按照 词典 次 序 存放 。 考 虑 L ， 大 小 为 2 的 物品 
SMHS, BABE IAB, AC, AD, BC, BD, CD, DE}. EL, 中 的 物品 集 也 是 按 词 典 次 序 
排列 。 给 定 这 个 L,、L 的 候选 对 象 通过 在 L 的 元 素 上 做 连接 操作 得 到 一 一 即 取 L 中 共享 一 
个 物品 的 物品 集合 对 (比方 说 ，AB 和 AC)， 将 它们 连接 成 一 个 大 小 为 3 的 物品 集合 (这 里 
是 ABC)， 也 按 词 典 次 序 排列 。 在 这 种 情形 下 所 导致 的 候选 集合 C 是 1ABC，ABD，ACD， 
BCD}. Æ G 的 这 些 物 品 集合 中 ， 某 些 可 能 出 现 的 频率 足够 高 ， 从 而 要 被 放 到 L 中 ， 等 等 。 
一 般 来 说 ， 从 Le ,得 到 Cu 的 连接 操作 在 Li ,中 找到 物品 集合 对 ， 它 们 的 前 上- 2 个 物品 是 相 
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同 的 ， 将 它们 连接 以 生成 新 的 C 中 的 物品 集合 。 大 小 为 -1 的 物品 集合 ， 那 些 有 公共 (k 
-2) 大 小 前 缀 的 ， 称 为 形成 了 一 个 等 价 类 (例如 ， 在 这 个 例子 中 对 于 =3 为 AB, AC, 
AD}, {BC, BD}, {CD} 和 IDE) ÆA L -ÆR C 的 过 程 中 ， 只 是 那些 在 等 价 类 中 的 物 
品 集合 需要 一 起 考虑 ， 这 就 大 大 减少 了 为 确定 C, 物品 集合 对 比较 的 次 数 。 

1. 串 行 算法 

相 联 按 据 简 单 的 串 行 方法 是 首先 遍历 数据 集合 ， 记 录 所 有 大 小 为 1 的 物品 集合 出 现 的 频 
率 ， 这 样 确定 Lo AL, 我 们 能 够 构造 候选 表 C ， 然 后 再 次 遍历 数据 集合 以 发 现 C 的 哪些 项 
出 现 的 频率 足够 高 以 使 可 以 放 到 中 去 。 从 我 们 能 够 构造 C ， 然 后 遍历 数据 集合 来 确定 
Ls ， 如 此 下 去 ， 直 到 我 们 找到 L;。 尽 管 这 个 方法 简单 ， 它 要 求 从 数据 库 中 读 所 有 的 交易 k 
次 ,代价 是 很 高 的 。 

男 一 种 串 行 算法 寻求 减少 从 大 物品 集 L;. | 中 计算 候选 表 C; 的 工作 量 ， 特 别 是 减少 为 确 
E C; 中 物品 集合 的 频率 必须 从 磁盘 读 出 数据 的 次 数 。 我 们 已 经 看 到 等 价 类 能 用 来 达到 第 一 
个 目标 。 事实 上 ， 它 们 可 用 来 构造 一 个 方法 ， 同 时 达到 两 个 目标 。 这 里 的 想法 是 变换 数据 在 
数据 库 中 存放 的 方式 。 原 来 交易 数据 存放 的 形式 是 IT., A, B, D,...}, HPT BERR 
识 ，A、B、C 是 交易 中 的 物品 ; 现在 我 们 可 以 考虑 让 数据 记录 的 形式 为 S, T, T, 
T,...1， 其 中 IS, 是 一 个 物品 集合 ，T, ，T 等 是 包含 该 物品 集合 的 交易 。 即 ， 数 据 库 记录 按 
物品 集合 来 组 织 ， 而 不 是 交易 。 如 果 大 小 为 -1 的 大 物品 集 ( 即 L,_, 中 的 元 素 ) 在 相同 的 “75 
k -2 等 价 类 中 被 识别 ， 那 么 计算 候选 表 C, 只 要 求 考察 所 有 这 样 的 物品 集 对 。 由 于 每 个 物品 
集合 附 有 它 的 交易 表 ， 在 Ci 中 每 个 结果 物品 集 的 大 小 能 和 从 L， ,物品 集 的 对 中 构造 C 物品 
集 表 的 同时 计算 出 来 ， 方 法 只 是 简单 地 计算 在 那个 表 对 中 的 交易 的 交 。 

例 3.4 假设 {AB, 1, 3, 5, 8, 9| 和 {AC, 2, 3, 4, 8, 10) 是 大 小 为 2 的 大 物品 
集 ， 在 相同 的 一 等 价 类 中 (它们 从 A 开始 )。 数 据 将 怎么 在 磁盘 和 存储 器 中 被 访问 的 ? 

解答 : 包含 物品 集 ABC 的 交易 表 是 13，8} ， 因 此 物品 集 ABC 的 出 现 次 数 是 2。 这 意味 
着 一 旦 完成 了 数据 库 变换 ，1- 等 价 类 识别 出 来 了 ， 对 于 一 个 1- 等 价 类 的 其 他 计算 就 能 够 完成 
了 【〈 即 发 现 所 有 大 小 为 的 大 物品 集 )， 不 需要 考虑 任何 其 他 1- 等 价 类 的 数据 。 如 果 一 个 
1- 等 价 类 能 放 在 内 存 中 ， 那 么 在 数据 库 变换 后 ， 一 个 给 定 的 数据 项 只 需要 从 磁盘 读 一 次 ， 
大 大 减少 了 昂贵 VO 访问 的 次 数 。 于 是 我 们 得 到 了 一 种 成 块 以 开发 时 间 局 部 性 的 形式 。 国 

2. 分 解 和 分 配 

这 两 种 串 行 方法 在 并 行 化 方面 也 是 不 同 的， 后 者 在 这 方面 也 有 优势 。 为 了 并 行 化 第 一 种 
方法 ， 我 们 可 能 首先 在 处 理 器 之 间 划 分 数据 库 。 在 每 一 步 ， 一 个 处 理 器 只 是 遍历 在 它 的 本 地 
部 分 的 数据 库 ， 来 确定 候选 物品 集合 的 部 分 出 现 的 计数 ， 在 这 一 阶段 不 会 引起 通信 和 非 本 地 
磁盘 访问 。 部 分 计数 然后 合成 为 全 局 计数 ， 来 确定 哪些 候选 者 是 大 的 。 这 样 ， 这 个 方法 不 仅 
要 求 在 数据 库 上 做 多 次 遍历 ， 而 且 要 求 进程 间 通 信和 每 一 遍历 结束 时 同步 。 

在 第 二 种 方法 中 ， 那 些 有 助 于 串 行 算 法 减少 磁盘 访问 的 等 价 类 对 并 行 化 也 是 非常 有 用 
的 。 由 于 在 每 个 1- 等 价 类 上 的 计算 是 相互 独立 的 ， 我 们 可 以 简单 地 在 进程 之 间 分 1- 等 价 类 ， 
其 后 能 够 独立 推进 ,其 余 的 程序 部 分 没有 同步 和 通信 。 对 应 于 一 个 等 价 类 的 物品 集 表 ( 转 
换 后 的 格式 ) 能 存放 在 进程 本 地 磁盘 ， 它 分 配 有 该 等 价 类 ， 因 此 在 这 以 后 再 没有 远程 磁盘 访 
问 的 需要 。 如 同 在 串 行 算法 中 ， 在 进行 到 下 一 个 之 前 ， 每 个 进程 能 完成 它 所 分 得 的 等 价 类 上 
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的 工作 ， 因 此 每 个 来 自 本 地 磁盘 的 物品 集 记 录 应 该 也 只 被 读 一 次 ， 作 为 它 的 等 价 类 的 一 
部 分 。 

这 里 的 挑战 是 要 保证 在 进程 之 间 等 价 类 分 配 的 负载 平衡 。 负 和 载 平衡 的 一 个 简单 的 度量 是 
基于 等 价 类 中 的 初始 项 来 分 配 它们 。 然 而 ， 随 着 计算 大 小 为 的 物品 集 过 程 的 展开 ， 工 作 
量 的 确定 更 接近 在 每 一 步 所 产生 的 大 物品 集 的 个 数 。 对 这 个 量 或 者 某 些 其 他 更 合适 的 量 进行 
佑 计 ， 用 于 启发 式 算法 常常 是 可 行 的 。 和 否则， 我 们 可 能 得 归 诸 于 动态 任务 和 任务 窃取 ， 那 就 
要 大 大 破坏 这 个 方法 的 简单 性 〈 即 一 旦 进程 分 得 了 它们 的 初始 等 价 类 ， 它 们 不 再 需要 通信 、 
同步 或 者 做 远程 磁盘 访问 )。 

当然 ， 这 种 做 法 的 第 一 步 是 要 计算 1- 等 价 类 和 在 它们 中 大 小 为 2 的 大 物品 集 ， 来 作为 并 
行 分 配 的 起 始点 。 为 了 计算 这 些 物品 集合 ， 我 们 最 好 用 原始 的 面向 交易 的 数据 库 形式 ， 而 不 
是 变换 后 的 版 本 ， 因 此 我 们 也 不 对 数据 库 进 行 变 换 (见习 题 3.18)。 针 对 交易 中 的 每 一 对 物 
铝 ， 每 个 进程 遍历 数据 库 中 属于 它 本 地 部 分 的 交易 ， 当 发 现 其 出 现 后 ， 就 在 此 物品 对 的 本 地 
计数 器 上 加 一 (本 地 计数 能 维护 成 一 个 二 维 上 三 角 和 矩阵 ， 索 引 为 物品 )。 本 地 计数 值 然后 合 
并 起 来 《这 要 涉及 到 进程 间 道 信 )， 从 而 就 确定 了 大 小 为 2 的 大 物品 集 的 个 数 。 这 些 物 品 集 
然后 划分 成 1- 等 价 类 ， 按 前 面 所 描述 的 方式 分 给 进程 。 

下 一 步 是 变换 数据 库 ， 从 最 初 的 按 交易 的 组 织 T, A, B, D...) 到 按 物品 集 的 组 织 
HS, Ty, Th, Ty...}, HPI, 最 初 是 大 小 为 2 的 物品 集 。 这 可 以 通过 两 步 来 完成 一 -一 
个 本 地 步骤 和 一 个 通信 步骤 。 在 本 地 步骤 ,进程 从 它 所 分 得 的 数据 库 部 分 中 ， 针 对 大 小 为 2 
的 大 物品 集 构造 部 分 交易 表 。 在 通信 步骤 ， 根 据 二- 等 价 类 的 所 属 关系 ， 一 个 进程 (至 少 是 概 
念 上 的 ) 将 它 所 得 到 的 大 小 为 2 的 物品 集 表 “分 发 ”给 相关 的 进程 ， 从 其 他 进程 “接收 ”分 
发 给 它 的 等 价 类 表 。 并 按 词 典 存储 次 序 ， 将 从 各 个 进程 收 到 的 部 分 表 合 并 成 本 地 表 ; 在 这 之 
后 ， 进 程 对 于 分 给 它 的 等 价 类 就 有 了 转换 后 的 数据 库 。 它 现在 就 可 以 对 它 的 每 一 个 等 价 类 ， 
一 步 一 步 地 计算 大 小 为 的 物品 集 ， 不 需要 通信 、 同 步 或 者 远程 磁盘 访问 (如果 不 做 任务 
窃取 的 话 )。 在 计算 结束 时 ， 大 小 为 的 物品 集合 就 存在 于 不 同 的 进程 之 中 。 变 换 阶段 的 通 
信 通 常 是 本 算法 中 代价 最 大 的 ， 很 像 进行 一 个 矩阵 的 转 置 ， 不 同 的 是 在 不 同 的 进程 对 之 间 通 
信 的 大 小 可 能 是 不 同 的 。 

3. 协调 

在 这 种 分 配 和 分 解 下 ， 让 我 们 考察 空间 局 部 性 、 时 间 局 部 性 和 同步 。 

空间 局 部 性 ”计算 的 组 织 将 物品 集合 和 交易 按 词典 序 的 存放 使 得 大 多 数 通过 数据 的 遍历 
只 是 简单 地 从 前 往 后 的 遍历 ， 表 现 出 很 好 的 可 预测 性 和 空间 局 部 性 。 这 对 于 从 磁盘 中 读数 据 
是 特别 重要 的 ， 这 样 可 以 在 大 量 有 用 数据 上 分 摊 很 高 的 磁盘 读 启动 代价 。 

时 间 局 部 性 ”如 前 面 所 讨论 的 ， 每 次 在 一 个 等 价 类 上 的 操作 很 像 成 组 操作 ， 它 的 成 功 与 
否 取决 于 那个 等 价 类 的 数据 是 否 能 放 在 主 存 中 。 随 着 等 价 类 计算 的 进行 ， 大 物品 集合 的 数量 
变 小 ， 这 样 在 主 存 中 的 重用 更 可 能 被 开发 出 来 。 注 意 ， 这 里 我 们 更 像 是 发 气 在 主 存 中 的 时 间 
局 部 性 ， 而 不 是 缓存 ， 尽 管 技术 和 目标 在 扩展 存储 层次 的 任何 一 层 都 是 类 似 的 。 

同步 “在 算法 的 第 一 步 (计算 大 小 为 2 的 大 物品 集合 ) 之 后 ， 需 要 有 一 个 栅 障 同步 ， 保 
证 将 部 分 计数 归 约 到 全 局 计数 ， 然 后 开始 数据 库 的 变换 阶段 。 归 约 只 是 对 大 小 为 2 的 物品 集 
合 需 要 ; 在 此 之 后 ,每 个 进程 独立 地 继续 计算 它 自 己 的 等 价 类 中 的 大 小 为 的 大 物品 集合 。 
如 果 用 动态 任务 管理 来 做 负载 平衡 ， 也 许 需要 有 进一步 的 同步 。 
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4. 映射 

变换 数据 库 的 通信 是 “全 部 对 全 部 ”: 一 个 进程 可 能 将 不 同 的 大 小 为 2 的 物品 集合 和 它 
们 的 部 分 交易 表 “ 分 送 ”给 不 同 的 进程 ， 同 时 可 能 从 所 有 其 他 进程 “接收 ”或 者 读 得 这 样 的 
表 。 将 全 部 对 全 部 的 通信 ， 以 一 种 无 冲突 的 方式 映射 到 互 连 关系 不 是 很 多 的 网 络 拓扑 〈 像 网 
格 或 者 环 ) 是 困难 的 。 终 点 连接 可 以 通过 调度 技术 减少 ， 例 如 可 以 使 每 个 处 理 器 i 在 步骤/ 
和 处 理 器 ; xor j 交换 数据 ， 从 而 没有 处 理 器 或 者 节点 被 重 载 。 

5. 小 结 

由 于 磁盘 访问 是 主要 的 瓶颈 ， 数 据 挖掘 不 同 于 其 他 几 个 应 用 实例 ， 因 此 并 行 化 技术 主要 
瞄准 磁盘 访问 的 代价 。 前 面 已 经 分 析 过 的 技术 将 磁盘 简单 地 看 作 是 另 -- 个 、 显 式 的 扩展 存储 
层次 中 的 一 个 管理 层次 。 这 里 负载 平衡 是 特别 重要 的 ， 考 虑 不 好 就 可 能 抵消 这 个 并 行程 序 中 
某 些 局 部 性 质 所 带 来 的 好 处 。 


3.6 编程 模型 涉及 的 问题 


通过 前 面 儿童 的 讨论 ， 我 们 已 经 看 到 并 行程 序 的 分 解 和 分 配 通 常 是 (不 一 定 总 是 ) 独立 
于 程序 设计 模型 的 ， 但 协调 步骤 却 和 它 高 度 相关 。 在 第 1 章 中 ,我 们 阐述 了 根本 的 设计 间 
题 ， 适 用 于 任何 通信 体系 结构 层次 和 程序 设计 模型 。 我 们 了 解 了 两 种 主要 的 程序 设计 模型 ， 
共享 地 址 空间 和 在 私有 地 址 空间 之 间 的 显 式 消息 传递 ， 并 由 功能 上 的 差别 (例如 命名 、 复 制 
和 同步 ) 将 它们 从 根本 上 区 别 开 来 。 尽 管 这 两 种 程序 设计 模型 都 能 在 任何 通信 抽象 和 硬件 上 
实现 ， 但 在 一 个 给 定 的 层次 所 采取 的 关于 这 些 功能 性 问题 的 做 法 影响 (同时 被 影响 ) 着 性 能 
诸 要 素 ， 例 如 开销 、 时 延 和 带宽 。 在 此 阶段 ， 我 们 只 是 以 一 种 抽象 的 形式 来 对 待 这 些 问题 ， 
不 能 体会 它们 和 应 用 的 相互 作用 ， 以 及 哪 种 程序 设计 模型 在 什么 条 件 会 有 更 好 的 影响 。 现 在 
我 们 已 经 有 了 对 几 个 典型 并 行 应 用 的 深入 理解 ， 理 解 了 在 协调 阶段 的 性 能 问题 ， 我 们 就 能 从 
应 用 和 性 能 特点 的 角度 来 对 程序 设计 模型 进行 比较 。 

假定 有 一 个 一 般 化 的 物理 分 布 存储 多 处 理 器 体系 结构 ， 下 面 我 们 用 这 些 应 用 事例 来 解释 
上 述 问 题 。 对 于 共享 地 址 空间 来 说 ， 我 们 假定 对 共享 数据 的 读 (装载 ) AE (存放 ) 是 用 户 
能 看 到 的 仅 有 的 通信 机 制 ， 我 们 称 这 是 读 - 写 共享 地 址 空间 。 当 然 ， 在 实践 上 共享 地 址 空间 
并 不 是 除了 这 些 原 语 外 就 不 能 有 对 显 式 消息 传递 的 支撑 ,但 我 们 现在 忽略 这 种 可 能 。 共 享 地 
址 空间 模型 可 以 用 很 多 方法 支持 ,包括 通信 抽象 和 硬件 /软件 接口 等 (回顾 在 第 1 章 结尾 部 
分 的 命名 模型 )， 它 们 在 支持 通信 、 复 制 和 不 同 粒度 的 一 致 性 上 有 不 同 的 效率 。 这 些 因素 影 
响 着 程序 设计 模型 的 成 功 与 否 ， 具 体 将 在 第 8、9 章 详细 讨论 。 这 里 ， 我 们 集中 的 看 一 看 最 
常见 的 情况 ， 其 中 缓存 一 致 性 共享 地 址 空间 在 细 粒 度 上 得 到 高 效 支持 一 一 例如 ， 对 共享 物理 
地 址 空间 提供 直接 的 硬件 支持 以 及 在 高 速 缓存 块 固定 粒度 上 的 通信 、 复 制 和 -一致 性 。 同 时 也 
将 这 种 常见 的 情况 和 硬件 支持 的 不 带 一 致 性 复制 的 共享 地 址 空间 进行 对 比 ， 正 如 BBN Butter- 
fly AI CRAY T3D 和 T3E 机 器 所 提供 的 。 对 于 消息 传递 程序 设计 模型 ， 我 们 将 假设 它 也 是 通过 
通信 抽象 和 硬件 /软件 接口 得 到 高 效 支持 的 。 

作为 应 用 程序 设计 员 ， 我 们 将 程序 设计 模型 看 作 是 我 们 对 于 通信 系统 结构 的 窗口 。 程 序 
设计 模型 之 间 的 区 别 和 它们 如 何 实现 的 对 程序 设计 的 许多 方面 都 有 影响 ， 包 括 程序 设计 的 容 
易 程度 、 通 信 结 构 、 性 能 以 及 可 扩展 性 等 。 除 了 功能 方面 〈 像 命名、 复制 和 同步 )， 还 有 组 
织 方面 〈 像 通信 的 粒度 ) 和 性 能 方面 〈 像 通信 操作 的 端点 开销 )， 它 们 对 不 同 的 程序 设计 模 
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型 各 不 相同 ， 影 响 针 对 性 能 的 程序 设计 。 其 他 的 性 能 方面 (例如 时 延 和 可 获得 的 带宽 ) 主要 
取决 于 所 用 的 网 络 和 网 络 接口 ， 可 以 认为 是 等 价 的 。 除 此 以 外 ， 在 硬件 开销 上 有 差别 ; 在 要 
求 高 效 支持 抽象 的 复杂 性 有 差别 ， 在 使 我 们 能 够 推导 和 预测 性 能 的 容易 程度 上 也 有 差别 。 下 
面 我 们 一 一 进行 讨论 。 首 先 考 虑 的 三 个 方面 一 一 命名 、 复 制 和 通信 开销 ， 表 明 读 - 写 共 享 存 
储 有 优势 ;而 其 他 方面 一 一 消息 大 小 、 同 步 、 硬 件 或 者 设计 代价 、 以 及 性 能 的 可 预测 性 一 一 
显 式 消 息 传递 有 好 处 。 


3.6.1 命名 


如 我 们 所 见 ， 共 享 地 址 空间 使 程序 员 能 容易 地 给 逻辑 上 共享 的 数据 命名 ， 任 何 进程 能 够 
直接 引用 任何 数据 ， 其 命名 模型 类 似 于 单 处 理 器 。 显 式 消 息 在 这 里 是 不 必要 的 ， 一 个 进程 不 
需要 给 其 他 进程 命名 或 者 需要 知道 哪个 处 理 节点 当前 拥有 它 所 需要 的 数据 。 在 规则 的 、 通 信 
需求 静态 可 知 的 应 用 中 ， 诸 如 方程 求解 器 内 核 和 Ocean， 确 定数 据 驻 留 在 哪个 进程 的 地 址 空 
间 没 什么 困难 ， 因 此 用 显 式 消息 也 很 容易 。 但 对 于 非 规 则 、 不 可 预测 的 数据 需求 应 用 ， 要 找 
到 数据 的 拥有 和 使 用 之 间 的 关系 就 是 相当 困难 的 ， 算 法 上 和 程序 设计 上 都 如 此 。 一 个 例子 是 
Bames-Hut， 星 体 和 树 的 单元 的 拥有 关系 是 随时 间 变 化 的 ， 因 此 一 个 进程 为 了 计算 它 所 负责 
的 星体 所 受 的 力 ， 需 要 遍历 树 的 哪 一 部 分 ， 不 是 静态 可 确定 的 。 确 定 要 和 哪个 进程 通信 引起 
运行 时 的 额外 工作 。 在 光线 跟踪 例子 中 ， 由 一 个 进程 负责 的 光线 在 场景 数据 中 不 可 预测 地 反 
射 ， 因 此 如 果 数 据 分 布 在 进程 的 私有 地 址 空间 中 ， 难 以 确定 谁 拥有 所 需 的 数据 。 这 些 困 难 可 
以 被 克服 ， 但 要 求 要 么 改变 和 增加 算法 的 复杂 性 〈 例 如 ， 在 Barnes-Hut 的 每 一 时 间 步 加 进 一 
个 额外 的 阶段 ， 来 计算 谁 需要 什么 数据 ， 然 后 传送 那些 数据 [Salmon 1990] 或 者 在 光线 跟踪 
中 改 用 面向 场景 的 方法 ) ， 在 所 有 节点 上 复制 整个 共享 数据 结构 (但 这 不 是 个 扩 放 性 好 的 办 
法 )， 或 者 用 软件 模仿 一 种 和 特定 应 用 相关 的 共享 数据 结构 ， 将 星体 和 单元 或 者 场景 数据 散 
列 到 处 理 节 点 上 。 这 些 应 用 层 的 命名 解决 方法 大 大 改变 了 程序 的 外 观 ， 通 常 是 运行 时 开销 最 
RAK. Ete (Singh, Hennessy, and Gupta 1995; Singh, Gupta, and Levoy 1994; Warren 
and Salmon 1993) 中 有 进一步 的 讨论 。 


3.6.2 复制 


有 几 个 方面 的 要 素 用 来 区 别 非 局 部 数据 复制 的 不 同 管理 方式 : 1) 谁 负责 复制 ， 即 制造 
本 地 数据 的 拷贝 ? 2) 复制 在 本 地 存储 层次 中 的 什么 地 方 发 生 ? 3) 在 复制 存储 区 中 数据 以 什 
么 粒度 分 配 空间 ? 4) 复制 数据 的 值 如 何 保持 一 致 性 ? 5) 复制 数据 的 替换 如 何 管理 ? 

对 于 消息 传递 模型 中 分 离 的 、 私 有 虚拟 地 址 空间 ， 复 制 通信 数据 的 惟一 方式 是 在 应 用 程 
序 中 显 式 地 将 数据 拷贝 到 进程 的 私有 地 址 空间 。 复 制 的 数据 在 新 的 地 址 空间 显 式 地 重新 命 
名 ， 因 此 对 两 个 进程 来 说 ， 虚 拟 地 址 和 物理 地 址 可 能 是 不 同 的 ， 从 系统 的 角度 来 看 ， 它 们 的 
拷贝 相互 之 间 没有 任何 关系 。 数 据 总 是 首先 复制 到 主 存 ( 当 拷 贝 发 生 时 )， 进 入 处 理 器 高 速 
缓存 的 只 有 本 地 主 存 的 数据 。 在 本 地 存储 器 分 配 的 粒度 是 可 变 的 ， 它 取决 于 用 户 。 对 于 复制 
数据 更 新 的 保证 要 由 程序 通过 显 式 消息 来 得 到 。 我 们 即将 讨论 替换 。 

回顾 在 共享 地 址 空间 的 情况 ， 由 于 数据 是 通过 普通 处 理 器 的 读 和 写 来 访问 的 并 且 通 信和 是 
隐 式 的 ， 系 统 可 能 对 用 户 透 明 地 复制 数据 一 一 不 需要 拷贝 和 在 程序 中 显 式 重新 命名 一 一 就 像 
单 处 理 器 情况 中 的 高 速 缓 在。 这 就 导致 了 很 多 可 能 性 。 例 如 ， 在 共享 物理 地 址 空间 系统 ， 非 
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本 地 数据 在 访问 时 透明 地 进入 处 理 器 高 速 缓存 子 系统 ， 不 是 复制 在 主 存 。 复 制 以 高 速 缓存 块 
的 细 粒 度 发 生 ， 数 据 由 硬件 来 保持 一 致 性 。 其 他 系统 可 能 先 透明 地 在 主 存 复 制 数据 一 一 或 者 
通过 附加 的 硬件 支持 以 高 速 缓存 块 的 粒度 ， 或 者 通过 系统 软件 以 页 面 或 者 对 象 的 粒度 一 一 而 
县 可 以 保持 一 致 性 的 方法 和 粒度 有 很 多 ， 将 在 第 9 章 讨 论 。 还 有 一 些 系 统 可 能 选择 不 支持 透 
明 的 复制 和 /或 一 致 性 ， 而 是 让 用 户 来 管理 (例如 在 CRAY BDA BE 系统 )。 

最 后 ， 让 我 们 考察 由 于 有 限 容 量 所 导致 的 本 地 复制 数据 的 替换 。 替 换 的 管理 方式 对 所 要 
复制 的 通信 量 有 影响 ， 每 次 涉及 本 地 存储 层次 的 一 个 层次 。 例 如 ， 硬 件 高 速 缓存 动态 管理 替 
换 ， 针 对 的 是 每 一 次 引用 并 且 空 间 粒 度 很 细 ， 因 此 高 速 缓存 只 需要 像 工 作 负 载 的 活跃 工 作 集 
那么 大 。 在 消息 传递 中 ， 当 用 户 来 管理 复制 的 时 候 ， 可 以 通过 在 应 用 中 维护 一 个 本 地 高 速 组 
存 数据 结构 获得 一 种 类 似 的 效果 ， 可 以 看 成 是 一 个 对 非 本 地 数据 的 硬件 高 速 缓存 。 然 而 ， 因 
软件 要 查询 和 进行 地 址 映射 ， 管 理 这 个 缓存 使 程序 设计 变 得 复杂 ， 同 时 当 高 速 缓存 失效 时 自 
然 地 要 产生 细 粒 度 消息 ， 从 而 引起 运行 时 开销 。 另 一 方面 ， 软 件 高 速 缓存 能 够 做 得 很 大 并 可 
以 用 一 种 和 应 用 相关 的 方式 管理 。 

典型 地 ， 消 息 传 递 程序 对 复制 蔡 换 的 管理 通常 缺少 动态 性 。 通 信 的 数据 在 本 地 存储 器 有 
显 式 的 拷贝 并 在 程序 的 某 些 点 显 式 地 被 清除 ; 典型 的 是 在 计算 的 一 个 阶段 之 后 ， 确 定 了 在 后 
面 的 一 段 时 间 里 不 再 需要 那些 数据 的 时 候 。 在 某 些 非 规则 应 用 中 ， 所 需 的 复制 可 能 要 求 大 量 
的 额外 存储 空间 ， 例 如 Bames-Hut 和 Raytrace。 对 于 像 光线 跟踪 例子 中 场景 那样 的 只 读数 据 ， 
许多 消息 传递 程序 简单 地 在 每 一 个 处 理 节 点 复制 整个 数据 集合 ， 这 就 解决 了 命名 问题 并 几乎 
完全 消除 了 通信 ， 但 也 没有 了 在 较 大 系统 解决 较 大 问题 的 能 力 。 在 Bames-Hut 应 用 中 ， 人 们 
提出 过 一 种 很 有 特点 的 方法 (Salmon 1990) ， 该 方法 中 的 进程 首先 在 本 地 复制 所 有 它 所 需要 
的 数据 (针对 属于 它 的 体 )， 然 后 再 开始 受 力 的 计算 。 这 意味 着 在 受 力 计算 阶段 没有 通信 ， 
和 进程 分 得 的 数据 划分 相 比 ， 此 时 在 主 存 复制 的 数据 量 要 大 许多 ， 从 而 肯定 比 活跃 工作 集 要 
大 得 多 (我 们 知道 ， 这 里 的 工作 集 只 是 计算 一 个 星体 受 力 所 需 要 的 数据 )。 这 个 工作 集 在 典 
型 的 共享 地 址 空间 系统 中 能 放 在 处 理 器 高 速 缓存 中 ， 因 此 根本 不 需要 在 主 存 复制 数据 。 在 消 
息 传 递 中 ， 大 量 的 复制 可 能 限制 方法 的 可 扩展 性 。 由 于 这 些 原因 和 其 他 一 般 性 问题 ， 对 于 非 
规则 数据 访问 类 型 的 应 用 ， 通 过 软件 利用 哈 希 方法 来 仿真 共享 地 址 空间 ， 用 一 个 固定 大 小 的 
软件 高 速 缓存 〈 为 保持 一 致 性 ， 该 高 速 缓存 内 容 在 计算 阶段 的 边界 被 清除 ) 更 动态 地 管理 复 
制 的 做 法 正 变 得 越 来 越 流行 。 当 消息 传递 系统 对 小 消息 越 来 越 高 效 的 时 候 ， 尤 其 如 此 。 


3.6.3 通信 的 开销 和 粒度 


局 动 和 接收 消息 的 开销 在 很 大 程度 上 受 通信 活动 的 完成 在 软 硬 件 之 间 分 工 的 影响 ， 而 在 
软件 中 ， 操 作 系 统 的 影响 会 特别 大 。 回 顾 在 共享 物理 地 址 空间 中 ， 由 于 共享 地 址 空间 只 是 一 
个 大 的 线性 地 址 空间 ， 底 层 的 单 处 理 器 硬件 机 制 足以 完成 地 址 翻译 和 保护 (即使 存储 器 物理 
上 是 分 布 的 )。 在 一 组 实验 中 (Scales and Lam 1994)， 简 单 地 用 软件 对 共享 数据 做 地 址 翻译 ， 
相对 于 硬件 来 说 ， 降 低 Bames-Hut 的 性 能 大 约 为 20% 。 开 销 的 另外 主要 成 分 是 缓冲 区 的 管 
理 : 人 向 和 出 向 的 通信 需要 暂时 缓存 在 网 络 接口 中 ， 以 允许 多 个 通信 同时 进行 ， 在 一 个 通信 
流水 线 里 排队 等 待 。 在 固定 字 粒 度 或 者 高 速 缓存 块 粒度 的 通信 使 得 用 硬件 高 效 管 理 缓冲 区 变 
得 容易 。 这 些 因素 组 合 起 来 ， 在 高 速 缓存 一 致 性 共享 地 址 空间 机 器 上 ， 通 信使 每 个 高 速 缓存 
块 的 开销 相当 低 〈 几 个 周期 到 几 十 个 周期 ， 取 决 于 实现 和 通信 辅助 设施 的 集成 )。 另 一 方面 ， 
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如 果 空 间 局 部 性 不 好 的 话 ， 固 定 大 小 块 的 自动 传送 可 能 导致 大 量 的 附加 通信 。 

事实 上 ， 对 比 一 个 高 速 缓 存 一 致 性 共享 存储 空间 和 那 种 提供 透明 的 命名 但 没有 一 致 性 复 
制 的 系统 (如 CRAY T3D 和 T3E)， 通 信和 粒度 的 问题 反映 了 一 个 重要 的 、 难 以 把 握 的 区 别 。 
对 于 前 者 ， 通 信 的 完成 是 透明 的 ， 但 其 粒度 比 所 引用 的 字 要 大 〈 例 如， 高 速 缓存 块 )。 于 是 
通信 的 代价 被 分 担 了 ， 不 用 程序 员 来 保留 所 传送 数据 的 其 他 部 分 的 一 致 性 问题 ， 一 切 由 系统 
负责 。 对 于 后 者 ， 复 制 和 一 致 性 是 程序 员 的 责任 ; 于 是 当 发 生 扑 空 时 ， 系 统 只 取 要 引用 的 字 
(和 否则， 程序 员 的 负担 可 能 就 太 大 了 )。 

在 消息 传递 系统 中 ， 本 地 引用 所 带 来 的 开销 不 比 单 处理 器 大 。 不 过 ,通信 消息 是 很 灵活 
的 ， 因 此 有 很 大 的 开销 。 消 息 类 型 的 种 类 繁多 ， 要 求 软件 开销 来 对 消息 的 类 型 编 解码 ， 这 要 
通过 发 送 和 接收 端点 执行 相应 的 处 理 程序 来 完成 。 灵 活 的 消息 长 度 、 异 步 和 非 块 化 消息 的 使 
用 使 缓冲 区 管理 变 得 复杂 ， 因 此 常常 要 启用 系统 软件 来 临时 存放 消息 。 最 后 ， 在 任意 的 地 址 
空间 之 间 发 送 显 式 消息 ， 要 求 节点 (或 硬件 支持 ) 上 的 操作 系统 的 于 预 来 提供 保护 。 特 别 是 
当 操 作 系统 必须 被 启用 时 ， 缓 冲 区 的 管理 和 保护 的 软件 开销 可 能 是 很 大 的 。 最 近 大 量 的 设计 
努力 集中 在 将 网 络 接口 和 消息 传递 机 制 合理 化 ， 以 大 大 降低 每 一 个 消息 的 开销 。 这 些 方法 会 
限制 灵活 性 ,将 在 第 7 章 讨论 。 尽 管 如 此 ， 和 硬件 支持 的 读 - 写 共 享 地 址 空间 接口 相 比 ， 每 
个 消息 的 开销 可 能 保持 几 倍 大 ， 这 就 限制 了 软件 方法 在 那些 自然 产生 细 粒 度 通信 的 非 规则 应 
用 中 的 有 效 性 。 

这 三 个 问题 (命名 、 复 制 和 通信 开销 ) 表明 了 有 高 效 支持 的 共享 地 址 空间 系统 对 于 并 行 
程序 设计 的 优势 。 下 面 分 析 有 利于 消息 传递 的 要 点 。 


3.6.4 块 数据 传送 


在 硬件 支持 的 高 速 缓存 一 致 性 的 共享 地 址 空间 系统 ， 通 过 读 和 写 的 隐 式 通信 典型 地 引起 
一 个 消息 的 产生 ， 这 是 针对 每 个 引用 或 者 至 少 对 每 个 要 求 通信 的 高 速 缓存 块 发 生 的。 通信 通 
常 由 需要 数据 的 进程 发 起 ， 可 能 经 历 缓存 扑 空 ， 我 们 称 之 为 接收 者 发 起 的 通信 。 硬 件 支持 提 
供 了 高 效 的 细 粒 度 通信 ， 但 对 于 将 大 块 的 数据 从 一 个 进程 传 到 另 一 个 进程 ， 每 次 和 一 个 高 速 
缓存 块 通信 不 是 最 高 效 的 方法 。 我 们 更 愿意 通过 用 一 个 消息 或 者 一 组 大 消息 来 做 数据 通信 ， 
从 而 分 摊 开 销 和 时 延 ， 这 种 方法 称 为 块 数据 传送 。 

显 式 通信 ， 如 同 消息 传递 ， 在 选取 消息 的 大 小 ， 在 选择 是 否 由 接收 方 发 起 还 是 由 发 送 方 发 
起 的 通信 的 时 候 ， 人 允许 较 大 的 灵活 性 ， 这 样 自然 地 就 使 块 传送 成 为 可 能 。 显 式 通 信 甚 至 能 加 到 
一 种 硬件 一 致 性 共享 地 址 空间 命名 模型 中 ， 给 程序 员 通信 方法 的 选择 并 且 在 某 些 可 预测 通信 的 
情形 下 ， 还 可 能 由 系统 透明 地 在 一 个 读 写 程 序 设计 模型 之 下 来 做 较 粗 粒 度 的 通信 。 然 而 ， 由 共 
亭 地 址 空间 表现 出 的 自然 的 通信 结构 是 细 粒 度 的 ， 通 常 是 接收 方 发 起 的 。 由 于 时 延 容 忍 技 术 的 
采用 ， 在 硬件 支持 的 共享 存储 空间 的 岂 传 送 的 优势 多 少 有 些 复 杂 ， 但 它 显然 是 有 优点 的 。 


3.6.5 同步 


在 消息 传递 中 ， 同 步 可 以 隐 含 在 显 式 通信 中 ;而 在 共享 地 址 空间 中 ， 同 步 常常 是 显 式 
的 ， 是 和 隐 式 数据 通信 分 离 的 。 这 种 情形 使 我 们 在 消息 传递 程序 设计 时 基本 上 可 以 不 考虑 同 
步 问题 。 互 斥 自动 就 达到 了 ， 不 要 用 什么 标志 。 这 样 做 ， 那 些 难以 捉摸 的 骨 险 条 件 和 时 序 甸 
误 在 消息 传递 中 可 能 要 少 一 些 。 除 此 以 外 ， 细 粒度 共享 和 复制 的 困难 趋 于 使 程序 员 用 更 多 的 
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结构 化 ， 有 时 是 更 初等 的 算法 来 做 简单 的 协调 。 然 而 ， 当 用 异步 消息 传递 的 时 候 ， 这 个 优势 
就 不 那么 明显 了 ; 在 异步 消息 传递 的 情况 下 ， 必 须要 用 单独 的 事件 同步 来 保证 正确 性 。 


3.6.6 硬件 代价 和 设计 复杂 性 


对 于 共享 地 址 空间 ， 得 到 所 期 望 效果 的 硬件 代价 和 设计 时 间 要 大 于 支持 消息 传递 的 模 
型 。 由 于 必须 要 看 见 所 有 存储 事务 ， 以 确定 何 时 非 本 地 的 高 速 缓存 扑 空 发 生 ， 通 信和 辅助 电路 
的 某 些 功能 必须 和 处 理 节 点 相当 紧密 地 集成 。 一 种 用 硬件 高 速 缓存 实现 透明 复制 和 一 致 性 保 
证 的 系统 要 求 更 多 的 硬件 支持 并 实现 相当 复杂 的 一 致 性 协议 。 在 消息 传递 抽象 中 ， 辅 助 电路 
不 需要 看 到 存储 引用 并 且 可 以 不 用 那么 紧密 地 和 集成， 例如， 可 能 就 集成 在 VO 总 线 上 。 在 第 
5、7 和 8 EE, 我们 要 讨论 支持 不 同 抽象 的 实际 的 硬件 代价 和 复杂 性 。 

不 过 ， 代 价 和 复杂 性 是 要 比 辅助 硬件 成 本 和 设计 时 间 更 复杂 的 问题 。 例 如 ， 同 高 速 缓存 
一 致 性 共享 地 址 空间 所 发 生 的 复制 数据 量 相 比 ， 如 果 在 一 个 消息 传递 程序 中 需要 复制 的 量 要 
大 很 多 (由 于 不 同 的 复制 管理 方式 或 者 由 于 操作 系统 的 复制 )， 那 么 为 这 种 复制 所 需 的 存储 
量 应 该 和 支持 共享 地 址 空间 的 硬件 代价 比较 。 同 样 的 观念 也 适用 于 在 一 个 机 器 上 开发 有 效 的 
程序 所 引发 的 代价 和 “设计 时 间 ”。 协 议 的 设计 代价 也 随 经 验 的 增长 降低 。 在 实践 上 ， 成 本 
和 价格 在 很 大 程度 上 由 销售 量 、 工 程 设 计 经 验 和 经 营 来 决定 ， 而 不 是 纯 技 术 的 因素 。 


3.6.7 性 能 模型 


最 后 ， 在 针对 一 个 体系 结构 设计 并 行程 序 的 时 候 ， 我 们 希望 至 少 有 一 个 粗糙 的 性 能 模 
型 。 用 这 样 的 性 能 模型 ， 我 们 能 够 预测 一 个 程序 的 一 种 实现 是 不 是 要 比 另 一 种 实现 好 ， 由 此 
来 引导 通信 结构 的 形成 。 一 个 性 能 模型 有 3 个 方面 。 首 先 ， 我 们 必须 对 机 器 的 特点 建 模 ， 例 


的 模型 ， 例 如 ， 在 并 行程 序 中 的 基本 事件 的 频率 和 突 发 性 。 第 三 ， 我 们 必须 有 一 个 能 解析 表 
达 的 或 者 数值 模拟 的 性 能 模型 ， 取 上 述 两 种 特点 的 集合 作为 输入 ， 预 测 执行 时 间 。 为 系统 特 
扩建 模 通常 并 不 是 很 困难 ,我们 在 本 章 已 经 看 到 了 一 个 简单 的 通信 代价 模型 。 然 而 ， 建 立 应 
用 特点 的 模型 是 相当 困难 的 ， 特 别 是 当 应 用 是 复杂 和 非 规 则 时 。 当 冲突 是 一 个 不 可 和 忽略 的 因 
素 时 ， 开 发 一 个 好 的 解析 性 能 模型 是 困难 的 。 正 是 由 于 建立 应 用 特点 模型 所 带 来 的 困难 ， 预 
测 共享 地 址 空间 系统 中 的 性 能 比 消息 传递 要 难 ， 因 为 对 于 前 者 我 们 感 兴趣 的 一 些 事件 在 程序 
中 表达 不 出 来 。 对 于 程序 员 来 说 ， 在 消息 传递 中 最 基本 的 性 能 规则 至 少 是 清楚 的 ， 消 息 有 代 
价 ; 最 好 不 要 经 常 发 送 它们 。 在 共享 地 址 空间 ， 特 别 是 带 有 一 致 性 复制 的 系统 ， 正 是 由 于 它 
有 使 得 程序 设计 容易 的 性 质 ， 命名 、 复 制 和 一 致 性 都 是 隐 含 的 ( 即 对 程序 员 透 明 ) ， 因 此 难 
以 确定 有 多 少 通信 出 现 , 何 时 出 现 ， 从 而 导致 性 能 建 模 复杂 化 。 附 加 通信 也 是 隐 含 的 ， 并且 
特别 难以 预测 。( 考 虑 那些 产生 通信 的 高 速 缓存 映 射 冲突 !) 结果 ， 对 程序 设计 的 指导 也 就 模 
糊 得 多 。 我 们 只 能 讲 : 当 必 要 时 ， 通 过 数据 布局 来 开发 时 间 和 空间 局 部 性 ， 以 控制 通信 量 的 
增 大 。 这 里 的 问题 类 似 于 在 单 处 理 器 上 的 情形 ， 隐 含 的 高 速 缓存 使 得 在 单 处 理 器 上 也 难以 预 
测 性 能 ， 从 而 使 用 简单 的 汉 诺 依 曼 模型 来 分 析 计 算 机 难以 奏效 了 ， 因 为 该 模型 假设 所 有 引用 
是 同等 代价 的 。 然 而 ， 我 们 这 里 的 问题 要 大 得 多 ， 这 是 因为 通信 的 代价 要 比 单 处 理 器 上 局 部 
存储 的 访问 代价 大 得 多 ， 于 是 有 更 大 的 发 生 竞争 的 机 会 。 
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3.6.8 小 结 


共享 地 址 空间 模型 的 隐 式 通信 给 我 们 带 来 的 主要 的 潜在 好 处 是 程序 设计 容易 以 及 细 粒 度 
数据 共享 方面 的 性 能 〈 至 少 当 模 型 有 硬件 支持 时 )。 显 式 通信 的 主要 的 好 处 ， 如 在 消息 传递 
中 ， 是 块 数据 传送 ， 在 消息 传递 中 包含 同步 、 较 好 的 性 能 导向 和 预测 能 力 以 及 系统 比较 容易 
建造 。 

给 定 这 些 权衡 ， 系 统 结 构 设 计 师 要 回答 的 问题 是 : 

。 是 否 值 得 为 共享 存储 提供 硬件 支持 〈 即 透明 的 命名 ); 软件 支持 是 不 是 就 够 了 或 者 由 

程序 员 来 显 式 管理 所 有 通信 是 不 是 本 来 就 很 容易 ? 

。 如 果 共 享 地址 空间 是 值得 的 ， 是 不 是 也 值得 提供 硬件 支持 来 实现 透明 的 复制 和 一 

致 性 ? 
。 如 果 对 上 面 问 题 的 任何 一 个 回答 是 肯定 的 ， 隐 式 通 信息 不 是 就 够 了 ?或 也 要 有 处 理 
可 以 使 用 的 节点 之 间 的 显示 消息 传递 的 硬件 支持 ? 

对 这 些 问 题 的 回答 取决 于 应 用 特点 和 代价 。 对 任何 一 个 问题 的 肯定 回答 自然 导致 其 他 问 
题 ， 诸 如 这 些 特 征 应 该 怎么 高 效 支 持 ， 在 什么 粒度 等 ; 这 就 又 提出 了 代价 、 性 能 和 程序 设计 
权衡 。 这 些 问 题 将 随 着 本 书 内 容 的 进展 而 变 得 清晰 起 来 。 经 验 表 明 ， 随 着 应 用 变 得 更 复杂 和 
更 非 规则 ， 透 明 命 名 和 复制 的 有 用 性 增加 ， 这 是 倾向 于 共享 存储 的 观点 。 然 而 ， 由 于 通信 自 
然 是 细 粒 度 的 〈 特 别 是 非 规则 应 用 ) ， 还 由 于 大 粒度 通信 和 一 致 性 引起 的 性 能 问题 ， 支 持 共 
享 空 间 就 要 求 有 大 胆 的 通信 系统 结构 ， 用 硬件 来 支持 大 多 数 功能 。 许 多 计算 机 公司 现在 正 建 
造 这 样 的 机 器 作为 它们 的 高 端 系 统 。 另 一 方面 ， 便 宜 的 工作 站 群 或 者 多 处 理 器 群 也 正在 逐步 
流行 起 来 。 这 些 系 统 通 常 是 消息 传递 程序 设计 的 ， 这 是 由 于 消息 传递 的 性 能 模型 比较 好 定 
义 ， 可 以 用 大 消息 来 分 摊 开 销 ， 显 式 的 控制 以 及 不 同 的 机 器 操作 粒度 对 性 能 的 相对 影响 不 大 。 


3.7 结论 


并 行程 序 的 特点 对 于 设计 多 处 理 器 体系 结构 有 重要 的 影响 。 对 于 程序 行为 的 某 些 关键 的 
观察 结果 曾 导致 了 单 处 理 器 计算 中 某 些 最 重要 的 进步 : 在 程序 访问 模式 中 时 间 和 空间 局 部 性 
的 识别 导致 高 速 缓存 的 设计 ， 指 令 使 用 情况 的 分 析 导 致 合理 化 指令 集合 的 设计 。 在 多 处 理 器 
中 ， 由 于 应 用 需求 和 体系 结构 所 能 提供 的 支持 之 间 的 不 匹配 所 导致 的 性 能 的 丢失 要 大 得 多 ， 
因此 对 运行 在 这 样 的 机 器 上 的 并 行程 序 和 其 他 工作 负载 理解 是 更 重要 的 。 

从 历史 上 看 ， 许 多 不 同 的 并 行 体系 结构 曾 导致 许多 不 同 的 程序 设计 风格 ， 但 有 不 好 的 可 
移植 性 。 现 在 ， 体 系 结构 的 统一 化 趋势 导致 了 一 种 共同 的 基础 来 开发 可 移植 的 软件 环境 和 程 
序 设 计 语言 。 对 于 共享 存储 空间 和 消息 传递 程序 设计 模型 ， 尽 管 特定 的 粒度 、 性 能 特点 和 协 
调 技术 不 同 ， 我 们 考虑 并 行 化 进程 的 方式 以 及 许多 关键 的 性 能 问题 在 很 大 程度 上 是 类 似 的 。 
当 我 们 分 析 共 享 地 址 空间 和 消息 传递 之 间 折 中 的 时 候 ， 两 者 的 技术 特征 在 体系 结构 设计 空间 
的 不 同 部 分 不 断 丰 富 起 来 。 

体系 结构 融合 的 另 一 个 效果 是 有 了 一 个 更 清楚 的 关于 性 能 问题 的 理解 ， 从 而 可 以 根据 它 
来 设计 软件 。 历 史上 ， 理 论 并 行 算法 研究 的 主要 注意 力 是 PRAM 模型 ， 它 忽略 数据 访问 和 通 
信 代 价 ， 只 考虑 负载 平衡 和 额外 工作 (PRAM 模型 的 某 些 变形 也 涉及 了 当 不 同 的 处 理 器 试图 
访问 同样 数据 时 的 串 行 化 效果 )。PRAM 模型 对 于 理解 应 用 中 的 固有 并 发 性 是 很 有 用 的 ， 这 
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是 开发 并 行程 序 的 第 一 个 概念 性 步 又 ;然而 ， 它 没有 考虑 现代 系统 中 重要 的 现实 ， 诸 如 数据 
访问 和 通信 代价 常常 在 总 执行 时 间 中 起 支配 作用 。 历 史上 ， 通 信和 是 单独 处 理 的 ， 对 它 的 处 理 
中 的 主要 考虑 是 将 通信 映射 到 不 同 的 网 络 拓扑 上 。 随 着 我 们 对 通信 的 重要 性 ， 以 及 在 现代 机 
器 中 一 次 通信 中 主要 开销 的 理解 更 加 清晰 ， 发 生 了 两 件 事情 。 首 先 ， 人 们 开发 了 有 助 于 分 析 
通信 代价 ， 从 而 改善 通信 结构 的 模型 ， 例 如 大 同步 程序 设计 (BSP) 模型 (Valiant 1990) 和 
LogP 模 型 (Culler et al. 1993) ， 希 望 取代 PRAM 来 作为 并 行 算法 分 析 的 基本 模型 。 这 些 模型 
力图 揭示 和 一 次 通信 事件 相 联 系 的 重要 的 代价 〈 诸 如 时 延 、 带 宽 或 者 开销 ) 就 像 我 们 在 本 章 
所 说 的 那样 ， 允 许 一 个 算法 设计 人 员 来 分 别 考虑 它们 ， 对 比 地 进行 并 行 算法 的 分 析 。BSP 模 
型 还 提供 了 一 个 漂亮 的 框架 ， 能 用 来 讨论 通信 和 并 行 的 性 能 。 其 次 ， 对 通信 代价 模型 方面 的 
强调 ， 已 经 移 到 了 通信 消息 端点 的 节点 ， 因 此 在 端点 的 消息 和 竞争 数 变 得 要 比 映 射 网 络 拓扑 
重要 得 多 。 事 实 上 ，BSP 和 LogP 模型 完全 不 考虑 网 络 拓扑 ， 而 是 用 一 个 常数 值 作为 网 络 上 
延迟 的 模型 ! 

人 们 有 盼望 着 有 一 个 现实 的 系统 结构 模型 ， 使 得 我 们 能 在 它 上 面 设计 和 分 析 并 行 算法 。 
BSP 和 LogP 是 在 这 个 方向 上 重要 的 进步 。 改 变 这 些 模 型 中 的 关键 参数 ， 我 们 就 可 能 确定 一 
个 算法 在 体系 结构 的 一 个 范围 上 表现 得 怎样 ， 怎 么 能 够 最 好 地 构成 以 适应 不 同 的 系统 结构 或 
者 是 可 移植 的 性 能 。 然 而 ， 比 用 几 个 参数 建立 体系 结构 模型 更 困难 的 是 建立 并 行 算法 或 者 应 
用 行为 的 模型 ， 尤 其 是 当 它 的 结构 是 非 规则 时 。 这 是 建 模 方程 的 另外 一 个 方面 (Singh, 
Rothberg, and Gupta 1994)。 这 里 的 关键 问题 是 : 什么 是 通信 计算 比 ? 它 怎 么 随 着 系统 复制 容 
量 的 变化 而 变化 ? 访问 模式 是 如 何 同 扩展 存储 层次 的 粒度 相互 作用 的 ? 通信 的 突 发 情况 如 
何 ” 这 些 怎么 能 够 结合 到 性 能 模型 中 来 考虑 ? 能 够 概括 真实 应 用 中 的 这 些 特点 ， 并 将 它们 集 
成 到 如 同 BSP 和 IogP 那样 的 机 器 模型 的 建 模 技 术 尚 待 开 发 出 来 。 

本 章 讨 论 了 并 行程 序 某 些 关 键 的 性 能 特性 ， 以 及 它们 和 多 处 理 器 的 扩展 存储 层次 和 通信 
结构 所 提供 的 基本 功能 之 间 的 相互 作用 。 这 些 特性 包括 负载 平衡 ， 通 信 计 算 比 ， 协 调 通信 的 
影响 代价 的 各 个 方面 ， 数 据 的 局 部 性 和 它 和 复制 容量 以 及 存储 分 配 、 传 送 和 一 致 性 (产生 附 
加 通信 ) 粒度 的 相互 作用 ， 通 信和 抽象 和 机 器 可 能 支持 的 硬 软 件 界面 的 影响 。 我 们 已 经 看 到 ， 
性 能 的 方方面面 是 相互 制约 的 ， 设 计 好 的 并 行程 序 的 艺术 在 于 在 相互 矛盾 的 要 求 中 获得 适当 
的 折 中 。 以 高 性 能 为 目标 的 程序 设计 也 是 一 个 逐步 求 精 的 过 程 : 在 后 面 所 发 现 的 系统 或 者 程 
序 的 特点 ， 可 能 导致 在 前 一 个 步骤 中 所 做 的 决定 被 修改 。 将 性 能 的 潜力 都 发 挥 出 来 可 能 需要 
很 大 的 努力 ， 这 取决 于 应 用 和 系统 两 个 方面 。 进 而 ， 不 同 技术 一 起 发 挥 作用 的 程度 和 方式 能 
够 大 大 影响 表现 给 体系 结构 的 工作 负载 的 特点 。 通 过 第 2 章 的 介绍 ， 我 们 已 经 深入 考察 了 4 
个 应 用 实例 ， 看 到 了 这 些 问题 如 何在 其 中 起 作用 。 在 本 书 的 其 他 部 分 ， 当 我 们 考虑 体系 结构 
的 设计 选择 、 权 衡 和 评估 时 ， 我 们 还 将 更 详细 的 讨论 这 些 性 能 问题 。 然 而 ， 根 据 已 经 得 到 的 
并 行程 序 设计 的 知识 ， 我 们 现在 已 经 知道 了 如 何 用 这 些 程序 作为 工作 负载 来 评估 并 行 体系 结 
构 和 权衡 。 


习题 





3.1 对 我 们 所 描述 的 几 种 应 用 (0cean Barnes-Hut, Raytrace、Data Mining) ， 在 并 行 化 过 程 
中 ， 其 中 哪些 我 们 是 分 解数 据 、 用 拥有 者 计算 规则 来 确定 计算 的 发 生 ， 而 不 是 直接 分 
解 计算 ? 在 其 他 的 应 用 中 ， 如 果 用 严格 的 数据 分 布 和 拥有 者 计算 规则 ， 会 有 什么 问题 ? 
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3.2 


3.3 


你 怎么 对 竺 这些 问题 ? 

相对 于 全 局 任务 队列 来 说 ， 用 分 布 式 任务 队列 来 实现 负载 平衡 的 优 缺点 是 什么 ? 在 两 
种 情况 下 ， 小 任务 都 一 定 会 增加 通信 、 竞 争 和 任务 管理 开销 吗 ? 

对 于 下 面 的 表 ， 从 每 一 种 存储 系统 流量 〈 表 的 左边 ) 向 其 解决 技术 (右边) MR, 
所 谓 解 决 技术 是 在 一 个 机 器 中 ( 带 有 物理 上 分 布 存储 的 共享 地 址 空间 ) 降低 流量 源 的 
最 有 效 的 办 法 。 





存储 系统 流量 的 种 类 解决 技术 

冷 启动 流量 用 较 大 的 高 速 缓存 
固有 通信 数据 摆 放 

扑 空 后 的 额外 数据 通信 算法 的 重新 组 织 

由 于 容量 产生 的 通信 设计 较 大 的 高 速 缓存 块 
由 于 容量 产生 的 局 部 流量 数据 结构 的 重新 组 织 


3.4 假设 串 行 和 并 行程 序 都 是 确定 性 的 ， 问 在 什么 条 件 下 ， 进 程 有 效 忙 的 时 间 之 和 不 等 于 


3.5 


BT BP ASU AT al? 给 出 一 个 例子 。 

作为 层次 式 并 行 性 的 一 个 例子 ， 考 虑 经 常用 于 医疗 诊断 和 经 济 预测 的 一 个 算法 。 这 个 
算法 通过 一 个 网 络 或 者 图 (如 图 3-22 所 示 ) 传播 信息 ， 每 个 节点 表示 一 个 矩阵 。 弧 对 
应 于 节点 之 间 的 依赖 关系 ， 也 是 信息 流动 的 通道 。 这 个 算法 从 图 的 底部 的 节点 开始 ， 
向 上 发 展 ， 在 每 个 碰 到 的 节点 上 做 矩阵 运算 。 它 至 少 在 两 个 层次 上 表现 出 并 行 性 ; 在 
遍历 中 那些 没有 辈分 关系 的 节点 能 并 行 计算 ; 在 一 个 节点 内 的 矩阵 计算 也 能 并 行 化 。 
你 会 如 何 并 行 化 这 个 算法 ?这 个 网 络 或 图 的 什么 特点 最 能 影响 你 的 决定 什么 是 最 重 
要 的 折 中 ? 





图 3-22 在 一 种 图 计算 中 的 并 行 性 层次 。 在 图 的 节点 内 的 工作 由 左边 的 扩展 节点 所 示 
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3.6 


3.7 


3.8 


3.9 


为 了 解释 并 行 性 的 层次 ， 本 章 描述 了 一 种 应 用 ， 在 VLSI 芯片 或 板 上 布线 连接 点 。 有 三 

种 级 别 的 并 行 性 存在 : 线路 之 间 、 一 个 线路 内 的 线段 之 间 、 对 于 给 定 的 线段 上 可 能 的 

布线 方式 之 间 。 在 确定 选取 哪 种 级 别 时 ， 权 衡 是 什么 ? 输入 和 机 器 的 什么 参数 影响 你 

的 决定 ?对 下 面 的 情形 你 选取 什么 ，30 根 线路 、24 个 处 理 器 、 每 线路 有 5 段 、 每 段 有 

10 种 布线 法 、 每 条 布线 评估 用 同样 多 的 时 间 ? 如 果 你 必须 选择 一 个 级 别 ， 并 且 要 用 于 

所 有 情形 ， 你 会 选 什么 ? (你 可 以 声明 你 的 合理 的 假设 来 引导 你 的 答案 。) 

如 果 E 是 通过 并 行 化 增强 的 算法 的 段落 集合 ，f 是 第 上 个 段落 在 单 处 理 器 上 串 行 执行 

的 时 间 ; s, 是 通过 并 行 化 在 第 天 个 片段 上 得 到 的 加 速 比 ， 推 导出 整体 加 速 比 表达 式 。 

将 它 应 用 于 高 斯 消去 法 中 以 元 素 为 粒度 的 广播 方式 。 对 于 这 个 计算 画 出 一 个 粗略 的 并 

发 性 形态 (一 个 图 ， 表 明 相 对 于 时 间 的 并 发 最 ， 时 间 单 位 是 一 种 逻辑 的 操作 ， 比 如 更 

新 内 部 的 一 个 活跃 元 素 )。 假 设 100 x 100 个 元 素 的 矩阵 。 估 计 加 速 比 ， 忽 略 存储 引用 

和 通信 代价 。 

考虑 在 习题 2.7 ~ 2.10 中 讨论 过 的 并 行 高 斯 消去 算法 。 

1) 画 出 一 个 并 发 性 态 图 ， 表 示 “ 广 播 ” 版 本 随时 间 可 用 的 并 发 性 。 假 定 对 于 网 格 元 素 
每 次 更 新 是 一 个 计算 和 时 间 单位 。 

2) WF nxn BEA p 个 进程 ， 分 析 负载 不 平衡 和 通信 量 ， 假 定 给 进程 分 配 连续 若 
干 行 。 

3) 对 行 向 进程 交织 分 配 的 情形 做 同样 的 分 析 。 

4) 对 于 流水 版 本 做 同样 的 分 析 ， 分 解 按照 行 来 做 。 

高 斯 消去 法 中 的 并 发 性 也 能 够 增强 ， 通 过 分 解 成 个 别 元 素 ， 而 不 是 行 。 为 什么 ? 

1) 对 于 这 种 情形 ， 画 出 一 个 针对 广播 版 本 的 并 发 性 形态 。 

2) 一 种 二 维 散播 (二 维 交 织 或 者 切 饼 (cookie-cutter)) 分 配 能 用 在 个 别 元 素 的 粒度 ， 
而 不 一 定 是 行 分 配 。 分 析 在 这 种 情形 下 的 广播 版 本 的 负载 不 平衡 和 通信 和 量 

3) 分 析 负 载 不 平衡 和 通信 重 ， 对 于 流水 版 本 ， 假 定 二 维 元 素 的 交织 分 配 。 和 有 相同 分 
配 的 广播 版 本 相 比 ， 负 载 不 平衡 和 通信 和 量 有 大 的 区 别 吗 ? 

4) 在 本 题 和 上 一 题 中 ， 所 讨论 的 哪 一 个 版 本 在 一 个 真实 机 器 上 实际 表现 的 最 好 ， 为 什 
么 ? 你 能 想 出 一 种 更 好 的 分 解 和 分 配 吗 ? 


3.10 我 们 已 经 讨论 了 广泛 用 于 线性 代数 算法 ， 以 开发 时 间 局 部 性 的 成 块 技术 ( 见 3.3.1 


节 )。 考 虑 一 种 串 行 高 斯 消去 程序 。 

1) 用 BxB 块 划分 方式 ， 写 一 个 成 块 的 串 行 版 本 。 

2) 对 于 原始 〈 非 成 块 ) 和 成 块 的 串 行 程序 ， 给 出 一 个 有 关 n MB 的 读 扑 空 率 表达 式 。 
假设 在 非 成 块 版 本 中 ， 撼 阵 的 一 行 不 能 放 在 高 速 缓存 中 ， 而 在 成 块 版 本 中 B 的 选 
FEE B x B 块 大 约 能 占 高 速 缓 存 的 一 半 。 和 忽略 高 速 缓存 冲突 ， 只 对 和 矩阵 元 素 的 访 
问 计数 。 对 于 大 小 为 16 KB 的 高 速 缓存 ，1 024 x 1 024 个 元 素 的 矩阵 和 块 大 小 
B=32, 什 么 是 读 失效 率 (在 两 种 情形 下 )。 假 设 没有 跨 块 操作 的 块 重用 。 如 果 读 失 
效 占用 50 个 周期 ,什么 是 两 种 版 本 之 间 的 性 能 差别 (将 每 个 网 格 点 的 更 新 计算 计 
为 一 个 周期 ， 忽 略 写 访问 )? 

3) 你 怎么 来 划分 这 个 成 块 版 本 用 来 并 行 执行 ， 假 定 以 一 种 广播 方式 ” 写 出 伪 代 码 ， 
将 一 个 块 的 计算 看 成 是 一 个 伪 操 作 。 
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3.12 


3.13 


3.14 


4) 分 析 这 种 情况 下 的 负载 的 不 平衡 和 通信 ， 和 先前 广播 方式 的 划分 方法 进行 比较 。 

5) 考虑 所 有 的 性 能 问题 (不 仅仅 是 算法 层次 )， 在 共享 存储 地 址 空间 机 器 中 ， 你 会 用 
最 好 的 成 块 或 非 成 块 的 版 本 用 于 并 行 广播 方式 吗 ?对 消息 传递 系统 你 会 用 哪 种 ? 
为 什么 ? 

6) 考虑 流水 方式 (成 块 或 不 成 块 )， 你 会 总 体 上 用 哪 种 方式 来 对 付 共享 地 址 空间 机 器 
和 消息 传递 机 器 ? 

终止 检测 是 任务 窃取 的 一 个 有 趣 的 方面 。 考 虑 -- 种 任务 窃取 的 情形 ， 其 中 进程 随 着 计 

算 的 进行 产生 任务 。 设 计 一 种 好 的 任务 分 配方 法 〈 从 哪儿 取 任务 ， 如 何 将 任务 放 进 池 

中 等 ) ， 考 虑 某 种 好 的 终止 检测 启发 式 方法 。 对 于 你 认为 的 终止 检测 方法 需要 的 消息 

数 ， 做 最 坏 情况 的 复杂 性 分 析 。 在 实践 中 你 会 用 哪 一 种 方法 ?对 于 那 种 保证 会 正确 工 

作 和 应 该 给 出 好 性 能 的 方法 ， 写 出 伪 代 码 。 

考虑 在 并 行 中 转 置 一 个 矩阵 ， 从 一 个 源 矩 阵 到 一 个 目的 抵 阵 ( 即 8 li, j) =A Li, j] 

1) 你 会 如 何在 进程 之 间 划 分 这 两 个 抵 阵 ?讨论 一 些 可 能 性 和 折 中 。 这 对 于 共享 地 址 
空间 和 消息 传递 机 器 有 区 别 吗 ? 

2) 为 什么 在 矩阵 转 置 中 的 进程 间 通信 称 为 全 部 对 全 部 的 个 性 化 通信 ? 

3) 对 于 并 行 矩 阵 转 置 ， 写 出 在 共享 地 址 空间 和 消息 传递 系统 中 简单 的 伪 代 码 (只 是 
实现 转 置 的 循环 ) 。 除 了 固有 通信 和 负载 平衡 外 ， 在 每 种 情况 ， 什 么 是 你 考虑 的 主 
要 性 能 问题 ， 你 怎样 对 待 它们 ? 

4) 对 于 这 个 并 行 矩 阵 转 置 ， 成 块 会 有 什么 好 处 吗 ? 在 什么 条 件 下 ? 你 如 何 对 它 进行 
SBR? (没有 必要 写 出 完整 代码 )。 如 果 有 的 话 ， 高 斯 消去 法 和 这 里 分 块 的 区 别 是 
什么 ? 

应 用 的 通信 和 需要， 即使 简单 地 表达 为 执行 每 条 指令 所 要 通信 的 字 节 数 ， 也 能 帮助 我 们 

对 背后 的 计算 过 程 有 一 定 的 认识 ， 来 确定 增加 带宽 和 降低 时 延 的 影响 。 例 如 ， 人 快速 傅 

立 叶 变 换 (FFT) 是 广泛 用 于 信号 处 理 和 气候 建 模 应 用 中 的 算法 。 一 个 简单 的 在 ”个 

数据 点 上 的 并 行 FFT 在 每 个 进程 上 有 计算 代价 

0( MBN) 


和 通信 量 O(m/p )， 其 中 p 是 进程 个 数 。 通信 计算 率 因此 为 O(Ulogn )。 为 简便 起 见 ， 

假设 前 而 表达 式 中 的 所 有 常数 为 单位 ， 我 们 要 完成 上 = 1 M (或 22) 点 的 FFT， 在 p= 

1 024 进程 上 。 让 一 个 字数 据 (FFT 的 一 个 点 ) 的 平均 通信 时 延 是 200 个 处 理 器 周期 ， 

让 任何 节点 和 网 络 之 间 的 通信 带宽 是 100 MBps。 假 设 没有 负载 不 平衡 的 问题 ， 没 有 同 

步 代 价 ， 忽 略 网 络 中 的 竞争 。 

1) 没有 时 延 隐藏 ， 有 多 少 执行 时 间 是 由 于 通信 时 延 而 导致 进程 停滞 ? 

2) 通信 时 延 减 半 ， 对 执行 时 间 的 影响 如 何 ? 

3) 没有 时 延 隐藏 ， 什 么 是 节点 对 网 络 带 宽 的 需求 ? 

4) 什么 是 节点 对 网 络 带 宽 的 需求 ， 假 设 所 有 时 延 都 隐藏 了 ， 这 个 机 器 能 满足 它们 吗 ? 
如 果 时 延 没 被 隐藏 ， 那 么 什么 〈 定 性 ) 是 影响 因素 ? 

考虑 利用 复制 来 减少 数据 流量 

1) 哪 种 类 型 的 数据 (本 地 、 非 本 地 或 者 两 者 ) 能 够 构成 相关 的 工作 集 在 | ) 消息 传 
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3.15 


3.16 


3.17 


3.18 


递 抽 象 中 的 主 存 ? i) 消息 传递 抽象 中 的 处 理 器 的 高 速 绥 存 ? ii) 在 高 速 缓存 一 至 
性 共享 地 址 空间 中 处 理 器 高 速 缓存 ? 

2) 有 一 种 关于 高 速 缓存 一 致 性 机 器 的 提议 ， 是 要 对 细 粒 度 、 主 存 中 一 致 性 复制 也 提 
供 硬 件 支 持 。 你 认为 这 值得 吗 ? 在 什么 情况 下 ， 什 么 是 主要 的 缺点 ? 对 本 章 中 的 
哪 一 个 应 用 例子 来 说 ， 这 种 设想 有 可 能 是 有 益 的 ? 

写 一 段 在 p 个 进程 之 间 做 归 约 和 广播 的 伪 代 码 : 首先 用 线性 的 0(p) 方法 ， 然 后 用 一 

个 基于 树 的 0(logp) 方法 。 分 别 给 出 对 共享 地 址 空间 和 消息 传递 的 结果 。 

用 一 种 四 维 数组 表示 网 格 ， 写 出 在 共享 地 址 空间 的 方程 求解 器 内 核 ， 要 求 连续 的 划分 

的 形状 (例如 ， 条 状 还 是 块 状 或 者 是 网 格 每 一 维 进程 的 个 数 ) 能 够 通过 程序 的 输入 来 

指定 。 

在 将 任务 分 给 处 理 器 后 ， 处 理 器 按 某 种 时 间 顺 序 调度 分 给 它 的 任务 的 问题 依然 存在 。 

什么 是 这 里 涉及 的 要 点 ? 哪些 是 和 单 处 理 器 相同 的 ， 哪 些 是 不 同 的 ? 构造 例子 ， 显 示 

在 不 同情 况 下 不 好 的 调度 的 影响 。 

在 数据 挖掘 的 例子 中 ， 为 什么 大 小 为 2 的 物品 集合 是 从 原始 数据 库 格 式 中 ， 而 不 是 从 

转换 后 的 格式 中 计算 出 来 的 ?从 计算 复杂 性 的 角度 分 析 两 种 做 法 的 不 同 。 

假设 你 接 到 一 个 任务 ， 要 为 某 个 大 的 出 版 高 开发 一 个 单词 计数 程序 。 你 的 工作 环境 是 

32 个 处 理 器 的 共享 内 存 系统 。 给 定 的 惟一 接口 是 get _ words， 它 的 参数 是 一 个 数组 ， 

返回 时 在 数组 中 放 着 下 一 批 需 要 计数 的 1 000 个 单词 。 每 个 处 理 器 要 做 的 主要 工作 大 

致 为 : 
while(get_words(word)) { 

for (i=0; i<1000; i++) { 
if word{i] is in list 
increment its count 
else 
add word to list 
} 


} 
/*Once all words have been logged, the list should be printed out*/ 


试用 伪 代 码 给 出 一 个 并 行程 序 的 控制 流 和 数据 结构 的 一 个 详细 的 描述 。 你 的 方法 


应 该 试图 极 小 化 空间 的 使 用 、 同 步 开 销 和 存储 延迟 。 求 解 这 个 问题 有 很 大 的 灵活 性 ， 
因此 请 陈述 清楚 你 所 作 的 各 种 假设 和 具体 的 设计 决定 。 
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第 4 章 工作 负载 驱动 的 性 能 评价 


计算 机 体系 结构 领域 变 得 越 来 越 定量 化 ， 只 有 在 对 折 中 方案 的 详细 评价 完成 后 才能 决 
定 采用 什么 样 的 设计 特性 。 系 统一 旦 建立 ， 理 解 折 中 方案 的 体系 结构 设计 者 和 做 出 购买 决定 
的 用 户 都 会 对 系统 进行 评价 和 比较 。 在 单 处 理 器 设计 中 ， 有 现存 的 机 器 及 在 其 上 面 运行 的 应 
用 这 样 丰 富 的 基础 ， 识 别 和 评价 折 中 方案 的 过 程 体现 出 从 已 知 量 出 发 的 细致 推断 。 设 计 者 通 
过 使 用 一 些微 基准 测试 程序 一 一 即 一 些 强 调 机 器 特定 性 质 的 小 程序 ， 来 分 离 机 器 的 执行 特 
征 。 一 些 流行 的 工作 负载 已 经 被 编写 在 标准 的 基准 测试 程序 集中 了 ， 比 如 ， 标 准 性 能 评价 公 
A] (Standard Performance Evaluation Corporation, SPEC) 的 工程 计算 类 工作 负载 基准 测试 程序 集 
(SPEC 1995) ， 其 测量 是 建立 在 一 系列 现存 的 不 同 设计 方法 之 上 的 。 基 于 测量 、 对 新 兴 技 术 
的 评估 以 及 应 用 需求 的 预期 变化 ， 设 计 者 提出 一 些 新 的 方法 。 对 其 中 有 前 途 的 方法 通过 模拟 
来 进行 典型 的 评价 。 首 先 ， 要 写 一 个 模拟 器 。 模 拟 器 是 一 个 程序 ， 它 模拟 那些 具有 或 者 不 县 
有 所 建议 的 特性 的 设计 。 其 次 ， 要 选择 一 定数 量 的 程序 或 者 多 道 程序 工作 负载 ， 它 们 可 以 是 
来 自 标 准 的 基准 测试 程序 集 ， 或 者 是 那些 很 可 能 要 运行 在 该 机 器 上 的 工作 负载 的 代表 。 这 些 
程序 运行 在 模拟 器 上 ， 机 器 特性 对 性 能 的 影响 也 就 决定 了 。 特 性 的 性 能 和 实现 该 特性 的 硬件 
以 及 设计 该 特性 的 时 间 的 预期 成 本 一 起 ， 决 定 了 是 否 要 在 机 器 中 包括 这 种 特性 。 模 拟 器 要 写 
得 灵活 ， 这 样 可 以 通过 改变 组 成 结构 和 性 能 方面 的 参数 来 理解 它们 的 影响 。 

好 的 工作 负载 驱动 的 评价 是 一 个 困难 而 且 耗 时 的 过 程 ， 即 使 对 于 单 处 理 器 系统 也 是 如 
此 。 当 技术 和 使 用 模式 发 生变 化 时 ， 工 作 负载 需要 更 新 。 作 为 工业 标准 的 基准 测试 程序 集 每 
隔 儿 年 就 要 修正 一 次 。 特 别 是 ， 程 序 使 用 的 输入 数据 集会 影响 到 与 系统 的 一 些 关 键 相 互 作 
用 ,并 且 决 定 是 否 能 突出 对 系统 的 这 些 重 要 特性 的 评价 。 我 们 必须 理解 这 些 相 互 作用 ， 并 且 
反映 到 工作 负载 的 使 用 中 。 比 如 ， 考 虑 到 处 理 器 速度 的 剧 增 和 高 速 缓存 尺寸 的 变化 ， 从 
SPEC92 到 SPEC95 的 基准 测试 程序 集 的 一 个 主要 变化 是 使 用 了 更 大 的 输入 数据 集 来 加 强 存储 
器 系统 的 测试 。 当 然 ， 精 确 的 模拟 器 的 开发 和 验证 是 很 昂贵 的 ， 而 且 模拟 程序 的 运行 会 消耗 
大 量 的 计算 时 间 ， 但是， 这 些 努 力 仍 是 值得 的 ， 因 为 一 个 好 的 评价 会 产生 好 的 设计 。 

随 着 多 处 理 器 体系 结构 的 成 熟 ， 从 一 代 机 器 到 下 一 代 机 器 之 间 有 着 更 多 的 连续 性 ， 人 们 
采用 类 似 的 定量 的 评价 方法 。 尽 管 早期 的 并 行 机 设计 在 很 多 方面 像 艺 术 品 的 大 胆 创 作 ， 很 大 
程度 上 依赖 于 设计 者 的 直觉 ， 但 现代 的 设计 却 包含 了 对 于 所 建议 的 设计 特性 的 大 量 的 评价 。 
这 里 ， 工 作 负 和 载 既 用 来 评价 真正 的 机 器 ， 也 用 来 推断 所 建议 的 设计 是 否 合理 ， 通 过 软件 模拟 
来 探索 可 能 的 折 中 方案 。 对 于 多 处 理 器 ， 所 感 兴趣 的 工作 负载 可 能 是 并 行程 序 ， 也 可 能 是 忠 
行 和 并 行程 序 混合 的 多 道 程序 。 对 于 多 处 理 器 体系 结构 ， 评 价 是 新 工程 方法 的 一 个 关键 部 
分 。 在 考察 多 处 理 器 体系 结构 的 核心 或 者 本 书 中 所 评价 的 折 中 方案 之 前 ， 理 解 评价 的 关键 问 
题 是 非常 重要 的 。 

不 幸 的 是 ， 对 于 多 处 理 器 体系 结构 的 工作 负载 驱动 的 评价 工作 比 在 单 处 理 器 情况 下 要 更 
加 困难 ， 其 原因 有 以 下 几 点 ， 

。 并 行 应 用 的 不 成 熟 性 。 对 于 多 处 理 器 ， 找 到 有 “代表 性 ”的 工作 负载 并 非 易 事 ， 这 
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既 因为 它们 的 使 用 相对 来 说 不 成 熟 ， 又 因为 有 很 多 新 的 行为 特征 要 表示 。 

。 并 行程 序 设计 语言 的 不 成 熟 性 。 并 行程 序 设 计 的 软件 模型 还 不 稳定 。 基 于 不 同 的 模 

型 编写 的 程序 会 有 完全 不 同 的 行为 。 

行为 差异 的 敏感 性 。 不 同 的 工作 负载 ， 甚 至 将 相同 的 串 行 工作 负载 并 行 化 时 所 做 出 

的 不 同 决策 ， 都 会 呈现 出 差异 巨大 的 体系 结构 执行 特征 。 

。 新 的 自由 度 。 在 体系 结构 中 有 一 些 新 的 自由 度 。 最 明显 的 是 处 理 器 的 数量 。 其 他 的 

自由 度 包括 扩展 的 存储 器 层次 结构 ， 特 别 是 通信 体系 结构 的 组 成 结构 和 性 能 参数 。 
与 工作 负载 的 自由 度 《 即 应 用 程序 参数 ) 和 基本 的 单 处 理 器 节点 一 起 ， 这 些 参数 导 
致 了 试验 设计 的 极其 巨大 的 空间 ， 特 别 是 在 通用 的 环境 中 评价 一 个 概念 或 者 折 中 方 
案 ， 而 不 是 评价 某 一 台 确 定 的 机 器 时 更 是 如 此 。 通 信 的 高 代价 使 得 性 能 对 所 有 这 些 
自由 度 之 间 的 相互 作用 比 在 单 处 理 器 情况 下 更 为 敏感 。 也 使 得 对 如 何 遍 历 大 的 参数 
空间 的 理解 更 加 重要 。 

。 模拟 的 限制 。 用 软件 来 模拟 多 处 理 器 从 而 评价 设计 上 的 决策 比 模拟 单 处 理 器 需要 更 

多 的 资源 。 多 处 理 器 的 模拟 要 消耗 大 量 的 内 存 和 时 间 。 因 此 ， 虽 然 我 们 希望 探索 的 
设计 空间 较 大 ， 但 是 ， 实 际 可 能 探索 的 空间 往往 要 小 得 多 ,我们 在 决定 对 哪 部 分 空 
闻 进 行 模拟 时 必须 要 做 出 细致 的 折 中 方案 。 

在 应 付 这 些 困 难 时 ， 我 们 对 于 第 2、3 章 中 的 并 行程 序 的 理解 是 十 分 关键 的 。 通 过 本 章 
的 学 习 ， 我 们 将 了 解 到 ， 要 实现 一 个 有 效 的 模拟 需要 理解 工作 负载 和 体系 结构 两 者 的 重要 特 
性 以 及 这 些 特 性 是 如 何 相互 作用 的 。 特 别 是 ， 应 用 程序 参数 和 处 理 器 的 数量 之 间 的 关系 决定 
了 程序 的 基本 特性 ， 比 如 通信 与 计算 比 、 负 载 平衡 、 时 间 和 空间 的 局 部 性 等 。 这 些 特性 和 扩 
展 的 存储 器 层次 结构 的 参数 之 间 相 互 作用 ， 以 与 应 用 相关 的 显著 方式 影响 着 程序 的 性 能 〈 见 
图 4-.1)。 选 择 工作 负载 和 机 器 的 参数 值 (或 者 规模 )， 理 解 它们 规模 变化 之 间 的 关系 ， 是 工 
作 和 负载 驱动 的 评价 的 一 个 关键 方面 ， 有 深远 的 意义 。 它 会 影响 我 们 为 了 充分 履 盖 行为 特征 所 
设计 的 试验 方案 ,也 会 影响 我 们 评价 的 结论 。 它 还 能 够 帮助 我 们 限制 试验 的 次 数 或 必须 考察 
的 参数 组 合 数 。 

本 章 的 一 个 重要 目标 是 揭示 这 些 特 性 和 参数 之 间 的 关键 相互 作用 ， 说 明 它 们 的 重要 性 ， 
并 指出 一 些 重要 的 误区 。 尽 管 对 评价 而 言 ， 没 有 普遍 适用 的 规则 ， 但 本 章 力图 详细 痔 述 一 种 
通过 模拟 来 评价 真实 机 器 和 评估 折 中 方案 的 方法 。 在 本 章 最 后 在 对 几 种 工作 负载 的 特征 化 过 
程 中 ， 以 及 在 贯穿 全 书 使 用 这 些 工 作 负 载 的 例证 性 的 评价 中 ， 我 们 遵循 了 这 个 方法 。 重 要 的 
是 ， 我 们 不 仅 要 进行 良好 的 评价 ， 而 且 还 要 理解 评价 研究 的 局 限 性 ， 这 样 ， 我 们 在 做 出 体系 
结构 决策 时 才能 正确 地 使 用 评价 这 一 工具 。 

本 章 开头 讨论 了 随 着 处 理 器 数量 增加 ， 放 大 工作 负载 参数 的 基本 问题 ， 研 究 了 性 能 指标 
和 并 行程 序 关键 的 固有 行为 特征 的 含义 。 在 接 下 来 的 两 节 里 ， 讨 论 了 与 扩展 存储 器 层次 结构 
的 组 成 结构 和 性 能 参数 间 的 相互 作用 ， 以 及 如 何 将 这 些 相互 作用 结合 到 实际 的 实验 设计 中 
去 ， 这 两 节 考 察 了 两 种 主要 类 型 的 评价 。 

4.2 节 概述 了 一 种 评价 真实 机 器 的 方法 ， 它 包括 : 首先 理解 我 们 可 能 会 使 用 到 的 基准 测 
试 程序 工作 负载 的 类 型 和 它们 在 这 种 评价 中 的 角色 一 一 包括 微 基 准 测试 程序 、 内 核 、 应 用 程 
序 和 多 道 程序 式 的 工作 负载 ， 还 要 理解 选择 它们 时 的 期 望 的 标准 。 然 后 ， 对 于 给 定 的 工作 负 
载 ， 我 们 考察 在 评价 一 台 给 定 的 机 器 时 如 何 选择 工作 负载 的 参数 ， 说 明 重 要 的 考虑 和 可 能 的 
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处 理 器 数目 处 于 器 数 日 
a) 在 Origin2000 上 运行 的 Oeean 程 序 b) 在 两 种 机 器 上 运行 的 Barnes-Hut 


图 41 应 用 程序 参数 对 并 行 性 能 的 影响 。 对 Ocean 而 言 ， 所 显示 的 应 用 程序 的 参数 是 每 一 维 网 格 
点 的 个 数 (N), MÆ Bames-Hut 中 ， 它 是 星体 的 数量 。 这 些 参数 决定 了 要 使 用 的 数据 集 的 
大 小 。 对 于 许多 应 用 程序 而 言 ， 比 如 a) 中 的 Ocean， 参 数 的 作用 是 很 明显 的 ， 至 少 是 当 
数据 集 的 尺寸 相对 于 处 理 器 的 数量 是 足够 大 之 前 。 对 于 最 小 的 问题 ， 从 4 个 到 8 个 甚至 更 
多 处 理 器 的 情况 下 ， 性 能 变 得 更 差 而 不 是 更 好 。 对 于 仅 次 于 最 小 的 问题 ， 当 处 理 器 个 数 
从 8 到 16 时 ,性 能 下 降 。 对 于 最 大 的 问题 ， 性 能 大 致 随处 理 器 个 数 线性 增长 ， 直 到 处 理 
器 个 数 达到 32。 对 于 其 他 的 应 用 ， 比 如 b) 中 的 Bames- Hut， 数 据 集 尺寸 的 影响 要 小 得 多 


误区 。 这 一 节 的 最 后 将 讨论 可 能 用 于 解释 和 表示 结果 的 各 种 指标 。4.3 节 把 这 种 方法 的 讨论 
扩展 到 更 具有 挑战 性 的 问题 ， 即 在 更 一 般 的 情况 下 ,通过 模拟 来 评价 体系 结构 方面 的 折 中 
方案 。 

在 理解 了 如 何 执行 工作 负载 驱动 的 评价 之 后 ， 我 们 进入 4.4 节 ， 它 提供 了 工作 负载 的 相 
关 特 征 ， 在 本 书 所 介绍 的 例证 性 评价 中 要 用 到 这 些 特征 。 在 附录 中 ， 还 列 出 了 一 些 用 于 并 行 
计算 的 重要 的 、 可 以 公开 获得 的 工作 负载 集 以 及 它们 的 原理 。 


4.1 改变 工作 负载 和 机 器 的 规模 


在 考察 规模 性 能 模型 和 它们 的 含义 之 前 ， 我 们 首先 讨论 一 下 在 多 处 理 器 上 的 一 些 基本 的 
性 能 测量 ， 从 而 可 以 体会 到 适当 的 规模 扩 放 的 重要 性 。 


4.1.1 多 处 理 器 性 能 的 基本 测量 


假设 我 们 已 经 选择 了 一 个 并 行程 序 作为 工作 负载 ， 并 想 利用 它 来 评价 一 台 机 器 。 对 于 一 
台 并 行 机 ， 我 们 可 以 测量 它 的 两 个 性 能 特征 : 绝对 性 能 和 并 行 性 所 带 来 的 性 能 改进 。 后 者 的 
测量 通常 称 作 加 速 比 ， 它 已 在 第 1 章 中 定义 ， 等 于 p 个 处 理 吕 上 的 绝对 性 能 除 以 在 一 个 单 处 
理 饥 上 的 性 能 。 绝 对 性 能 (和 代价 一 起 ) 对 于 最 终 用 户 或 者 说 机 器 的 购买 者 来 讲 是 最 重要 
的 。 但 是 ， 它 本 身 并 不 能 说 明 性 能 的 改善 在 多 大 程度 上 是 来 自 于 并 行 性 的 应 用 和 通信 体系 结 
构 的 有 效 性 ， 而 不 是 来 自 于 底层 的 单个 处 理 锅 节点 的 性 能 。 加 速 比 可 以 告诉 我 们 性 能 有 和 多少 
是 来 自 并 行 性 的 使 用 ， 但 是 值得 注意 的 是 ， 当 计算 比较 慢 时 ， 通 信 代 价 显 得 不 是 那么 重要 ， 
所 以 当 单 个 节点 的 性 能 比较 低 时 ， 很 容易 获得 好 的 加 速 比 。 这 两 种 指标 都 很 重要 ， 都 应 该 被 
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测量 。 

对 绝对 性 能 的 最 好 的 测量 是 单位 时 间 内 完成 的 工作 量 。 给 定 一 个 程序 ， 要 完成 的 工作 量 
通常 由 程序 的 操作 所 依赖 的 输入 配置 来 决定 ， 这 被 称 为 问题 规模 (我 们 以 后 将 会 更 精确 地 定 
义 问 题 规模 )。 输 入 配置 可 能 只 是 在 程序 最 前 面 使 用 ， 也 可 能 包括 要 到 达 “ 服 务 器 ”应 用 程 
序 的 一 系列 连续 的 输入 的 集合 ， 比 如 一 个 处 理 银行 事务 的 系统 或 是 对 来 自传 感 器 的 输入 做 出 
响应 的 系统 。 假 设 输入 配置 和 由 此 引起 的 工作 量 对 于 一 组 实验 来 讲 是 保持 不 变 的 ， 那 么 我 们 
就 可 以 把 工作 量 看 作 是 一 个 固定 的 参考 点 ， 测 量 执行 时 间 并 且 将 性 能 定义 为 相应 的 执行 时 间 
的 倒数 。 

用 户 发 现 ， 在 一 些 应 用 领域 中 ， 即 使 当 输入 配置 固定 不 变 时 ， 使 用 一 个 显 式 的 、 领 域 特 
定 的 工作 量 的 表示 和 使 用 每 单位 时 间 所 完成 的 工作 量 这 样 显 式 的 性 能 指标 更 为 方便 。 例 如 ， 
在 一 个 事务 处 理 系统 中 ， 指 标 可 以 是 每 分 钟 服务 的 事务 的 次 数 ;在 排序 应 用 中 ， 指 标 可 以 是 
每 秒 钟 排序 的 关键 字 的 数量 ; 而 在 化 学 应 用 中 ， 指 标 可 以 是 每 秒 钟 计算 的 结合 的 数量 。 但 
是 ， 尽 管 可 以 显示 地 表示 工作 量 ， 性 能 还 是 相对 于 特定 的 输入 配置 或 者 工作 量 来 测量 的 ， 这 
些 性 能 指标 仍然 都 是 从 执行 时 间 (和 涉及 到 的 应 用 事件 的 数量 一 起 ) 的 测量 中 得 来 的 。 给 定 
了 一 个 固定 的 已 知 的 问题 配置 ， 这 些 领域 特定 的 指标 并 没有 显示 出 优 于 执行 时 间或 者 执行 时 
间 倒 数 的 根本 优势 。 实 际 上 ， 我 们 必须 要 慎重 ,确保 所 使 用 的 显 式 的 工作 量 的 测量 从 应 用 程 
序 的 角度 上 来 看 确实 是 有 意义 的 测量 ， 而 不 是 我 们 可 以 用 来 骗 人 的 东西 。 随 着 讨论 的 深入 ， 
还 会 进一步 地 讨论 工作 指标 的 理想 特性 ， 在 4.2.5 节 中 会 考虑 到 关于 指标 的 更 为 细节 的 问 
题 。 现 在 ， 让 我 们 先 集中 精力 评价 一 下 由 于 并 行 性 带 来 的 绝对 性 能 的 改善 ， 即 因为 使 用 了 p 
个 处 理 器 而 不 是 一 个 处 理 器 所 获得 的 加 速 比 。 

把 执行 时 间作 为 我 们 的 性 能 指标 ， 在 第 1 章 中 ,我 们 看 到 了 可 以 简单 地 在 一 个 处 理 器 
M p 个 处 理 器 上 运行 具有 相同 输入 配置 的 程序 ， 性 能 改善 或 加 速 比 的 测量 是 ; 


时 间 (1 个 处 理 器 ) 
时 间 Cp 个 处 理 器 ) 


以 每 秒 钟 的 操作 次 数 作为 性 能 指标 ， 我 们 可 以 按 下 式 测量 加 速 比 : 


每 秒 钟 的 操作 (p 个 处 理 器 ) 

每 称 钟 的 操作 MERR 
这 里 产生 了 一 个 问题 ， 就 是 我 们 如 何 测量 一 个 处 理 器 的 性 能 ? 例如， 在 一 个 处 理 器 上 运行 最 
好 的 串 行程 序 是 否 比 在 一 个 处 理 器 上 运行 并 行程 序 本 身 所 得 到 的 性 能 更 为 精确 ?这 个 问题 其 
实 是 很 容易 回答 的 。 随 着 处 理 器 数量 的 变化 ， 我 们 可 以 让 这 个 问题 运行 在 不 同 处 理 器 数量 的 
机 器 上 ， 并 且 计算 它们 的 加 速 比 。 那 么 为 什么 又 要 考虑 扩 放 呢 ? 


4.1.2 为 什么 要 考虑 扩 放 性 


不 幸 的 是 ， 存 在 一 些 原因 使 得 我 们 认为 ， 把 对 固定 问题 规模 的 加 速 比 测量 作为 评价 各 种 
不 同 规模 的 机 器 的 并 行 性 所 带 来 的 性 能 改善 的 惟一 方法 是 不 够 的 。 

假设 我 们 已 经 选 定 的 固定 问题 规模 相对 较 小 ， 适 用 于 只 有 几 个 处 理 器 的 机 器 。 对 于 相同 
的 问题 规模 ， 当 我 们 增加 了 处 理 器 的 个 数 时 ， 并 行 性 所 产生 的 额外 开销 通信、 负载 失衡 ) 
相对 于 有 效 的 计算 就 会 增加 。 最 终 我 们 会 到 达 某 一 点 ， 问 题 规 模 对 于 评价 现 有 的 机 器 变 得 不 
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合 情 理 的 小 。 过 高 的 额外 开销 会 导致 小 得 没有 意义 的 加 速 比 ， 其 结果 是 由 于 使 用 了 不 合适 的 
问题 规模 ， 因 而 不 能 反映 出 机 器 的 能 力 〈 也 就 是 说 ， 问 题 对 大 型 机 器 没有 足够 的 并 发 性 )。 
事实 上 ， 在 有 些 点 上 使 用 较 多 的 处 理 器 甚至 可 能 会 损害 性 能 ， 因 为 额外 开销 相对 于 有 用 的 工 
作 占 据 了 主导 的 地 位 (参见 图 4-2a)， 用 户 不 应 该 在 那么 大 的 机 器 上 运行 这 类 问题 ， 所 以 用 
这 样 的 问题 来 评价 机 器 是 不 合适 的 。 同 样 的 情况 ， 如 果 在 大 机 器 上 运行 耗 时 很 少 的 问题 也 是 


不 合适 的 。 
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图 4-2 当 处 理 器 个 数 增加 时 ，SGI Origin2000 的 加 速 比 。a) 显示 了 在 Ocean 应 用 中 小 问题 规模 的 加 束 
比 。 该 问题 规模 显然 非常 适合 于 有 8 个 处 理 器 的 机 器 。 在 稍稍 超过 16 个 处 理 器 时 ， 加 速 比 会 达 
到 人 饱和， 此 时 我 们 不 清楚 是 否 应 该 在 这 么 大 规模 的 机 器 上 运行 这 样 规模 的 问题 。 为 评价 具有 32 
个 或 者 更 多 处 理 器 的 机 器 而 运行 这 样 规模 的 问题 显然 是 不 行 的 ! b) 显示 了 对 方程 求解 器 内 核 的 
加 速 ， 说 明了 超 线性 加 速 出 现 的 条 件 ， 即 在 16 个 处 理 器 的 系统 中 ， 处 理 器 的 工作 集 能 够 容纳 于 
高 速 缓存 之 中 ， 而 在 使 用 8 个 或 者 更 少 的 处 理 器 时 ， 处 理 器 的 工作 集 就 无 法 被 高 速 缓存 所 容纳 
男 一 方面 ， 如 果 我 们 选择 了 一 个 适用 于 运行 在 有 很 多 处 理 器 的 机 器 上 的 问题 ， 我 们 在 评 
价 由 于 并 行 性 而 引起 的 性 能 改进 时 可 能 会 碰 到 相反 的 问题 。 这 个 问题 对 于 单 处 理 器 来 讲 可 能 
太 大 了 ， 因 为 它 的 数据 已 经 大 到 无 法 放 和 人 一 个 单 节点 的 内 存 中 。 在 某 些 机 器 中 ， 它 可 能 不 在 
一 个 单 处 理 器 上 运行 ; 在 另外 一 些 机 器 中 ， 单 处 理 器 的 执行 会 使 磁盘 遭受 严重 的 反复 存 取 的 
T 而 在 其 他 的 一 些 机 器 中 ， 溢 出 的 数据 会 被 分 配 到 扩展 存储 器 层次 结构 的 其 他 节点 的 内 
存 中 ， 导 致 很 多 人 为 的 节点 间 的 通信 。 当 使 用 足够 多 的 处 理 器 时 ， 数 据 就 会 容纳 于 它们 的 集 
合 的 内 存 中 ; 如 果 数 据 分 布 得 合理 ， 就 会 消除 人 为 的 通信 。 在 每 个 处 理 器 上 的 计算 会 更 加 有 
效 ， 结 果 是 加 速 比 要 大 大 高 于 所 使 用 的 处 理 器 的 数量 。 一 旦 发 生 这 种 情况 ， 当 处 理 器 的 数量 
增加 时 ， 加 速 比 会 以 更 为 平常 的 方式 得 到 进一步 的 改善 ， 但 是 相对 于 单 处 理 器 的 加 速 仍然 和 
处 理 器 的 数量 星 超 线性 。 
这 种 情况 可 能 出 现在 存储 器 层次 结构 的 任何 层次 上 ， 而 不 仅仅 是 发 生 于 主 存 。 比 如 说 ， 
| 当 每 一 个 具有 自己 高 速 缓存 层次 结构 的 处 理 器 被 加 入 时 ， 机 器 的 集合 高 速 缓存 容量 会 增加 。 
AO 如 果 每 个 处 理 器 的 工作 集 随 着 数据 集 减少 ， 当 处 理 器 数目 增加 时 ， 处 理 器 开始 更 加 有 效 地 使 
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用 它们 的 高 速 缓存 。 图 4-2b 说 明了 方程 求解 器 内 核 使 用 高 速 缓存 容量 的 例子 。 这 种 因为 存 
铺 系 统 的 效果 而 产生 的 巨大 的 超 线 性 加 速 比 不 是 假 的 。 确 实 ， 从 用 户 的 观点 看 ， 具 有 更 多 
的 、 分 布 式 的 内 存 是 并 行 系统 胜 过 单 处 理 器 工作 站 的 一 个 重要 的 优点 ， 因 为 它 能 够 使 并 行 系 
统 运行 更 大 的 问题 ， 而 且 运 行 得 更 快 。 但 是 ， 超 线性 加 速 比 使 我 们 无 法 区 别 容量 带 来 的 效应 
和 并 行 化 所 带 来 的 通常 意义 上 的 改善 ， 也 不 能 帮助 我 们 评价 机 器 通信 体系 结构 的 有 效 性 。 

当 处 理 器 个 数 增加 时 ， 保 持 不 变 的 问题 规模 的 最 后 限制 是 它 也许 不 能 反映 机 器 实际 的 使 
用 情况 。 用 户 经 常 想 使 用 更 加 强大 的 机 器 来 解决 更 大 的 问题 ， 而 不 是 让 同样 的 问题 解 得 更 
快 。 在 这 样 的 情况 下 ， 因 为 在 机 器 的 实际 使 用 中 问题 规模 与 机 器 规模 一 起 增长 ， 所 以 在 评价 
机 器 时 ， 也 应 该 扩 放 间 题 的 规模 。 这 样 的 扩 放 可 以 克服 刚才 讨论 的 由 规模 不 匹配 而 引出 的 问 
题 ， 但 是 却 失去 了 针对 相同 问题 比较 机 器 配置 的 简单 性 。 

关于 如 何 使 问题 规模 适应 机 器 规模 的 变化 而 改变 ， 我 们 需要 良好 定义 的 规模 扩 放 模型 ， 
这 样 我 们 才 可 以 根据 这 些 模型 来 评价 机 器 。 不 管 扩 放 模 型 如 何 ， 性 能 的 度量 总 是 单位 时 间 内 
所 完成 的 工作 量 。 但 是 ， 如 果 问 题 规模 被 扩 放 ， 所 做 的 工作 并 不 是 保持 不 变 的 ， 我们 不 能 简 
单 地 通过 比较 执行 时 间 来 决定 加 速 比 。 工 作 量 必须 被 表示 和 测量 。 问 题 是 如 何 去 做 ? 此 外 ， 
我 们 还 想 理解 扩 放 模型 是 如 何 影响 程序 特征 的 ， 比 如 通信 和 与 计算 比率 、 负 载 平衡 、 扩 展 的 存 
储 器 层次 结构 中 的 数据 局 部 性 等 。 为 了 简单 起 见 ， 我 们 集中 看 一 下 单一 的 并 行 应 用 程序 ， 而 
不 是 多 道 程序 的 工作 负载 。 首 先 ， 我 们 需要 清楚 地 定义 那些 曾 被 非 正式 使 用 的 术语 : 扩 放 机 
器 和 问题 的 规模 。 

扩 放 机 器 的 意思 是 使 机 器 更 加 强大 (或 者 相反 ) 。 可 以 通过 使 机 器 的 任何 一 个 成 分 ， 如 
单个 处 理 器 、 高 速 缓 存 、 内 存 、 通 信 体 系 结构 或 者 输入 输出 系统 的 能 力 更 加 强大 ， 更 加 复杂 
或 者 更 加 快速 的 办 法 达到 这 个 目的 。 一 般 来 说 ， 机 器 规模 是 刻画 单个 节点 的 处 理 能 力 、 存 储 
器 层次 结构 、 通 信和 输入 输出 能 力 的 一 个 向 量 。 机 器 的 扩 放 包括 改变 向 量 中 的 某 一 个 或 者 多 
个 项 。 因 为 我 们 感 兴趣 的 是 并 行 性 ， 所 以 我 们 就 把 机 器 规模 定义 为 处 理 器 的 数量 ， 而 且 我 们 
假设 对 于 每 个 节点 ， 它 的 本 地 高 速 缓存 、 存 储 器 系统 以 及 每 个 节点 的 通信 能 力 在 机 器 扩 放 时 
保持 不 变 。 扩 展 一 台 机 器 意味 着 添加 多 个 相同 的 节点 。 比 如 说 ， 把 一 台 有 着 p 个 处 理 器 ，p 
x mMB 内 存 的 机 器 扩展 倍 ， 产 生 的 是 一 台 拥 有 xp 个 处 理 器 和 x p x m MB 内 存 的 
机 器 。 

问题 的 规模 指 的 是 一 个 特定 问题 实例 或 者 输入 配置 ， 它 通常 由 输入 参数 向 量 而 不 是 单个 
参数 n (如 ,一 个 nx n 的 Ocean 网 格 或 者 n 个 粒子 的 Bames-Hut) 指定 。 比 如 ， 在 程序 
Ocean 中 ， 问 题 规模 由 向 量 V= (n, e, At, T) WB, n 是 网 格 每 一 维 的 尺寸 ( 它 说 明了 
我 们 在 表示 海洋 时 的 空间 分 辨 率 )，e 是 用 来 决定 多 网 格 方程 求解 器 收敛 的 容 差 系数 ，A 指 
时 间 分 辩 率 〈 即 时 间 步 之 间 的 物理 时 间 )，7 是 所 执行 的 时 间 步 的 数量 。 在 一 个 事务 处 理 系 
统 中 ， 问 题 规模 由 使 用 的 终端 个 数 、 终 端 用 户 产生 业务 的 速率 、 事 务 处 理 的 混合 等 决定 。 问 
题 规模 是 一 个 决定 程序 所 做 的 工作 量 的 主要 因素 。 

必须 把 问题 规模 和 数据 集 尺 寸 区 别 开 来 。 数 据 集 尺寸 是 在 一 个 单 处 理 器 上 运行 程序 所 需 
要 的 存储 器 的 数量 。 这 本 身 不 同 于 程序 的 内 存 使 用 ， 程 序 的 内 存 使 用 是 包括 复制 在 内 的 并 行 
程序 使 用 的 内 存 的 总 和 。 数 据 集 的 尺寸 通常 依赖 于 少数 几 个 程序 参数 。 比 如 ， 在 Ocean 中 ， 
数据 集 的 尺寸 完全 是 由 网 格 规模 ”决定 的 ， 但 是 指令 条 数 和 执行 时 间 则 是 依赖 于 其 他 的 问 
题 规模 参数 。 因 此 ， 尽 管 问题 规模 向 量 了 决定 了 应 用 程序 的 很 多 重要 参数 ， 比 如 它 的 数据 
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集 尺寸 、 它 执行 的 指令 条 数 和 它 的 执行 时 间 ， 它 还 是 有 别 于 这 些 特征 中 的 任何 一 个 。 
4.1.3 扩 放 的 关键 问题 


给 出 了 这 些 定义 后 ， 要 扩展 一 个 问题 使 之 运行 在 较 大 的 机 器 上 ， 还 要 解决 两 个 问题 : 

1) 问题 扩 放 应 该 在 什么 约束 之 下 ? 为 了 定义 一 个 扩 放 模型 ， 当 机 器 扩 放 时 必须 保证 一 
些 特性 不 变 。 这 些 特性 或 许 包括 数据 集 尺寸 、 每 个 处 理 器 的 内 存 使 用 、 执 行 时 间 、 每 秒 钟 执 
行 的 事务 处 理 的 数量 、 分 配给 每 个 处 理 器 的 粒子 数量 或 者 矩阵 行 数 。 

2) 问题 如 何 扩 放 ? 也 就 是 说 ， 如 何 改变 问题 规模 向 量 了 中 的 参数 来 满足 选 定 的 约束 ? 

为 了 简化 讨论 ， 我 们 先 假设 问题 规模 由 单个 参数 n 决定 ， 然 后 考察 在 这 个 假设 下 的 扩 
放 模型 及 其 影响 。 稍 后 ， 在 4.1.6 节 中 ， 我 们 将 会 考察 扩 放 工作 负载 参数 时 这 些 参 数 之 间 相 
互 参 照 的 更 为 微妙 的 问题 。 


4.1.4 扩 放 模型 和 加 速 比 的 测量 


用 作 扩 放 约 束 的 基础 特性 可 以 被 分 成 两 类 : 面向 用 户 的 特性 和 面向 资源 的 特性 。 面 向 用 
户 的 特性 的 例子 是 在 Bames-Hut 中 分 给 每 个 处 理 器 的 星体 的 数量 ; 在 矩阵 乘法 程序 中 为 每 个 
处 理 器 的 矩阵 行 数 ， 在 事务 处 理 中 为 每 个 处 理 器 向 系统 发 出 的 事务 的 数量 以 及 每 个 处 理 器 执 
行 的 输入 输出 操作 的 数量 。 面 向 资源 的 约束 的 例子 是 执行 时 间 和 每 个 处 理 器 使 用 的 存储 器 总 
量 。 由 于 在 不 同 的 约束 下 执行 扩 放 时 ， 给 定数 量 的 处 理 器 要 完成 的 工作 量 是 不 同 的 ， 因 此 每 
一 个 这 样 的 约束 都 定义 了 一 个 不 同 的 扩 放 模型 。 究 竟 是 面向 用 户 还 是 面向 资源 的 约束 更 加 合 
适 则 取决 于 应 用 领域 ， 构 造 基准 测试 程序 的 一 项 关键 性 任务 是 保证 扩 放 约束 对 于 所 涉及 的 领 
域 是 有 意义 的 。 

在 执行 评价 时 ， 面 向 用 户 的 约束 通常 更 容易 被 遵循 (比如 ， 随 着 处 理 器 数量 的 变化 简单 
线性 地 改变 粒子 的 数量 )。 但 是 ， 大 规模 的 程序 经 常 是 在 严格 的 资源 约束 之 下 运行 的 ， 资 源 
约束 在 跨 不 同 应 用 领域 时 更 有 普遍 性 (时 间 就 是 时 间 ， 存 储 器 就 是 存储 器 ， 不 管 程序 是 处 理 
粒子 还 是 矩阵 )， 因 此 我 们 将 使 用 资源 约束 来 说 明 扩 放 模型 的 效果 。 让 我 们 针对 为 了 在 一 台 
规模 大 & 倍 的 机 器 上 运行 而 扩展 应 用 规模 时 的 约束 ,考察 一 下 三 个 最 流行 的 面向 资源 的 模 
型 :问题 约束 的 (PC) PA, EAR (TC) 扩 放 和 存储 器 约束 的 (MC) 扩 放 。 

在 PC 扩 放 中 ， 问 题 规模 是 固定 的 ， 也 就 是 说 ， 它 根本 没有 被 扩 放 ， 尽 等 前 面 也 讨论 过 
一 些 关 于 圈定 问题 规模 所 带 来 的 问题 。 不 管 机 右上 处 理 器 的 个 数 有 多 少 ， 都 使 用 相同 的 输入 
配置 。 在 TC 扩 放 中 ， 完 成 程序 所 需要 的 墙 钟 (wall-clock) 执行 时 间 是 固定 的 。 问 题 被 扩 放 ， 
使 得 在 大 机 器 上 新 的 问题 的 执行 时 间 和 在 小 机 器 上 旧 问 题 的 执行 时 间 相 等 《Gustafson 1988), 
在 MC 扩 放 中 ， 每 个 处 理 器 使 用 的 主 存储 器 的 数量 是 固定 的 。 问 题 被 扩 放 ， 使 得 新 问题 使 用 
的 主 存 正 好 是 老 问 题 的 倍 (包括 数据 复制 )。 因 此 ， 如 果 老 问题 刚好 能 容纳 于 小 机 器 的 内 
存 ， 那 么 新 问题 则 应 刚好 能 容纳 于 大 机 器 的 内 存 。 

在 某 些 领域 里 可 能 有 一 些 更 加 适合 的 专门 化 的 模型 ， 比 如 ， 在 商业 在 线 事务 处 理 基准 测 
试 程序 中 ， 事 务 处 理 委员 会 (TPC) 规定 了 扩 放 的 规则 ， 即 产生 事务 的 用 户 终端 数量 和 被 访 
问 的 数据 库 的 规模 随 被 评价 系统 的 “计算 能 力 ”成 比例 地 扩 放 ， 其 测量 遵循 指定 的 方式 。 这 
和 TC、MC 扩 放 模型 一 样 ， 符 合资 源 约束 条 件 的 扩 放 经 常 需要 经 过 一 些 实验 才能 找到 合适 的 
输入 ， 因 为 资源 的 使 用 并 不 一 定 是 简单 地 随 着 输入 参数 而 扩 放 。 存 储 器 的 使 用 通常 是 可 以 预 
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匈 的 ， 特 别 是 如 果 没 有 在 主 存 中 复制 的 需要 时 更 是 如 此 ， 但 是 预见 一 个 输入 配置 在 256 个 处 
理 器 的 机 器 上 的 执行 时 间 和 另外 一 个 输入 配置 在 16 个 处 理 器 的 机 器 上 的 执行 时 间 相 等 却 是 
十 分 困难 的 。 我 们 将 进一步 研究 PC. TCA MC 的 扩 放 模型 ， 看 看 在 这 些 模型 下 , “单位 时 间 
完成 的 工作 量 ”"， 即 加 速 比 ， 被 转换 成 了 什么 。 

1. 问题 约束 的 扩 放 

在 PC 扩 放 中 的 假设 是 ， 用 户 使 用 较 大 机 器 的 目的 是 为 了 更 快 地 解决 相同 问题 ， 这 是 一 
种 很 寻常 的 情况 。 比 如 ， 如 果 一 个 视频 压缩 算法 每 秒 钟 只 处 理 一 帧 图 像 ， 我 们 使 用 并 行 性 的 
目标 可 能 不 是 在 1 s 内 压缩 一 个 更 大 的 图 像 ， 而 是 每 秒 钟 压缩 30 帧 图 像 ， 从 而 可 以 对 这 种 大 
小 的 帧 进行 实时 压缩 。 另 外 一 个 例子 是 ， 如 果 一 个 VLSI 的 布线 工具 要 用 一 周 的 时 间 来 布 通 
一 个 复杂 的 芯片 的 版 图 ， 我 们 更 感 兴趣 的 可 能 是 如 何 使 用 并 行 性 来 减少 布线 时 间 ， 而 不 是 为 
一 个 更 大 的 芯片 布线 。 因 为 在 工作 /时 间 的 性 能 定义 中 ， 有 用 的 工作 保持 不 变 ， 加 速 比 指标 
的 公式 可 以 简单 地 表示 成 : 


、 _ 工 个 处 理 器 用 的 时 间 





2. 时间 约束 的 扩 放 

这 个 模型 假设 用 户 有 一 定 的 时 间 可 以 用 来 等 待 程序 的 执行 ， 他 们 想 在 这 个 固定 的 时 间 内 
解决 尽 可 能 大 的 问题 。( 想 像 一 下 那 种 愿意 在 计算 中 心 购买 8 小 时 机 时 的 用 户 或 者 那些 愿意 
等 待 一 个 通宵 完成 程序 的 运行 ， 但 是 需要 在 第 二 天 早晨 获得 结果 以 便 分 析 的 用 户 )。 尽 管 在 
PC 扩 放 中 问题 规模 固定 不 变 ， 但 执行 时 间 是 变化 的 ， 而 在 TC 扩 放 中 ， 问 题 规模 是 增加 的 ， 
执行 时 间 则 保持 不 变 。 因 为 性 能 是 工作 量 除 以 时 间 ， 而 当 系统 扩 放 时 时 间 保 持 不 变 ， 加 速 比 
可 以 由 在 固定 的 执行 时 间 内 完成 的 工作 的 增 量 来 测定 ; 


加 速 比 x (o 个 处 理 器 ) = PERE LE (4-2) 

问题 是 如 何 测量 工作 ， 如 果 我 们 把 它 测量 成 在 一 个 单 处 理 器 上 问题 配置 的 实际 执行 时 
间 ， 那 么 我 们 可 能 不 得 不 在 机 器 的 一 个 处 理 器 上 运行 一 个 较 大 〈 扩 展 ) 规模 的 问题 ， 这 样 才 
能 获得 分 母 ?。 不 幸 的 是 ， 这 种 情况 可 能 行 不 通 ， 或 者 要 花 很 长 的 时 间 ， 或 者 根本 不 可 能 
运行 。 

工作 指标 的 理想 特点 是 它 应 该 容易 测量 ， 而 且 尽 可 能 地 与 体系 结构 无 关 。 它 应 该 很 容易 
用 一 个 仅仅 基于 应 用 的 解析 表达 式 来 建立 模型 ， 我 们 不 应 该 进行 额外 的 实验 来 测量 问题 被 放 
大 后 的 工作 量 ， 工 作 量 的 测量 也 应 该 与 算法 的 串 行 时 间 复杂 度 成 线性 比例 ( 见 例 4.1)。 

例 4.1 为 什么 线性 扩 放 的 特点 对 于 工作 指标 很 重要 ? 

解答 ; 如 果 我 们 希望 理想 的 加 速 比 〈 忽 略 存储 器 系统 的 人 为 效应 ) 和 处 理 器 的 数量 成 比 
例 ， 那 么 线性 扩 放 特点 是 很 重要 的 。 为 了 理解 这 一 点 ， 假 设 我 们 在 一 个 秆 阵 乘法 程序 中 把 正 
方形 短 阵 的 行 数 n 作为 工作 的 指标 。 让 我 们 完全 忽略 掉 存储 器 系统 的 相互 作用 ， 如 果 单 外 
理 器 系统 问题 有 n 行 ， 那 么 它 的 执行 “时 间 ” 或 者 它 需要 执行 的 乘法 操作 的 数量 ， 和 岂 成 
比例 。 因 为 问题 是 确定 的 ， 我 们 所 能 期 望 p 个 处 理 器 在 相同 时 间 内 的 最 好 情况 是 执行 怠 x p 





O 原文 是 “分子”"。 一 一 译 者 注 
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次 操作 ， 它 对 应 (no x3p) x (no xVp) 的 矩阵 。 如 果 我 们 把 矩阵 行 数 作为 工作 的 度量 ， 
那么 根据 式 (4-2)， 即 使 在 这 种 理想 的 情况 下 加 速 比 是 (mo xyzp) / m 或 者 说 yp ， 而 不 是 
po 使 用 矩阵 (n?) 中 的 点 数 作为 工作 的 指标 ， 从 这 点 讲 来 ， 也 是 不 合适 的 ， 因 为 它 导致 了 
时 间 约 束 的 理想 加 速 比 为 p”。 但 是 ， 使 用 n? (乘法 操作 的 次 数 ) 作为 工作 指标 会 得 到 理想 
的 加 速 比 P， 因 为 这 种 度量 和 握 阵 乘法 串 行 时 间 复 杂 度 0(m ) 成 线性 比例 。 国 

理想 的 工作 量度 量 不 仅 要 满足 这 些 特 点 ， 而 且 从 用 户 角度 看 应 是 一 个 直 党 参数 。 比 如 ， 
在 使 用 一 种 叫 基数 排序 的 方法 对 整数 的 关键 字 进 行 排序 时 ， 串 行 的 复杂 度 随 待 排序 的 关键 字 
的 个 数 线性 增加 ， 所 以 我 们 使 用 关键 字 作 为 工作 的 度量 。 但 是 在 实际 应 用 中 是 很 难 发 现 这 种 
度量 的 ， 特 别 是 当 多 个 应 用 的 参数 都 在 扩 放 ， 并 且 以 不 同方 式 影响 执行 时 间 的 时 候 更 是 如 
此 。 我 们 在 实践 中 应 如 何 测量 工作 呢 ? 

如 果 无 法 找到 一 个 具有 理想 特性 的 单个 直觉 参数 ， 我 们 可 以 试 着 去 发 现 一 种 容易 从 直觉 
参数 推导 ， 而 且 随 着 串 行 复杂 度 线性 扩 放 的 度量 。 一 种 流行 的 实现 矩阵 因子 分 解 的 LINPACK 
基准 测试 程序 就 是 这 么 做 的 。 大 家 都 知道 基准 测试 程序 应 该 使 用 2n3/3 次 浮 点 操作 来 因子 分 
解 一 个 n x n 的 矩阵。 其 余 的 操作 要 么 和 它 成 比例 ， 要 么 完全 不 鼎 主 导 地 位 。 如 在 例 4.1 中 
的 矩阵 乘法 ， 操 作 的 次 数 可 以 很 容易 从 输入 矩阵 的 维 数 n 计算 得 到 ， 旦 显 然 满 足 线性 扩 放 
的 特性 ， 所 以 在 基准 测试 程序 中 ， 它 被 用 作 工 作 的 度量 。 

真正 的 应 用 程序 经 常 有 多 个 参数 要 扩 放 、 因 此 更 加 复杂 。 只 要 我 们 有 一 个 良好 定义 的 规 
则 来 同时 扩 放 参数 ， 我 们 就 可 以 构造 一 个 具有 期 望 特性 的 解析 形式 的 工作 的 上 度量。 但是， 这 
样 的 工作 量 计算 可 能 不 再 是 简单 或 者 直观 的 ， 它 们 对 评价 者 或 者 基准 测试 程序 的 提供 者 有 很 
多 要 求 。 而 且 ， 在 复杂 的 应 用 中 解析 形式 的 预测 往往 被 简化 (比如 ， 它 们 通常 是 平均 的 情况 
或 者 它们 没有 反映 出 可 能 相当 重要 的 “实现 ”的 行为 )， 因 此 所 执行 的 指令 或 操作 的 实际 增 
长 率 可 能 和 预期 的 不 同 。 

在 这 样 的 情况 下 ， 一 种 普遍 适用 的 经 验 式 的 技术 是 运行 串 行程 序 ， 测 量 机 器 操作 形式 的 
工作 量 。 如 果 能 知道 某 一 类 型 的 高 层次 操作 ， 比 如 粒子 之 间 的 相互 作用 ， 总 是 直接 与 串 行 复 
杂 度 成 比例 ， 那 么 ， 我 们 就 可 以 计算 出 运行 时 执行 的 操作 的 数量 。 在 更 一 般 的 情况 下 ， 我 们 
可 以 尝试 测量 在 一 个 单 处 理 器 上 运行 该 问题 所 花费 的 时 间 ， 假 设 所 有 的 存储 器 访问 都 是 在 高 
速 缓存 命中 并 且 花 相同 的 时 间 (比如 ， 单 个 周期 )， 因 此 消除 了 由 存储 器 系统 引起 的 人 为 因 
素 。 这 种 工作 测量 反映 了 在 运行 程序 的 时 候 哪些 机 器 指令 被 实际 执行 了 ， 同 时 避免 了 颠 壬 和 
超 线性 问题 ,我 们 把 它 称 作 具 有 完美 存储 器 的 执行 时 间 (注意 ， 它 和 在 3.4 节 中 介绍 的 串 行 
忙 -有 用 时 间 十 分 相近 )。 很 多 计算 机 拥有 某 种 系统 实用 程序 ， 允 许 对 计算 的 情况 进行 收集 ， 
获得 具有 完美 存储 器 情况 的 执行 时 间 。 如 果 没 有 这 样 的 功能 ,我 们 必须 求助 于 对 某 些 高 层 操 
作 发 生 次 数 的 测量 。 

一 旦 我 们 有 了 工作 量 的 测量 ,我 们 可 以 用 式 (4-2) 计算 TC 扩 放 下 的 加 速 比 。 但 是 ， 要 
决定 能 产生 期 望 的 执行 时 间 ， 因 而 满足 TC 扩 放 的 输入 配置 ， 可 能 需要 经 过 反复 的 求 精 。 

3. 存储 器 约束 的 扩 放 

这 个 模型 基于 的 假设 是 用 户 想 在 不 考虑 运行 时 间 的 情况 下 ， 运 行 尽 可 能 大 的 程序 而 不 使 
机 器 的 内 存 洲 出 。 比 如 ， 对 于 一 个 星体 物理 学 家 来 讲 ， 重 要 的 是 运行 一 个 像 Bames-Hut 这 样 
的 = 个 星体 的 模拟 ， 该 模拟 包含 了 机 器 可 以 接受 的 最 大 数量 的 星体 以 便 提 高 星体 对 宇宙 采 
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ENRE., M 扩 放 导致 经 常 使 用 一 个 叫做 扩 放 的 加 速 比 的 性 能 改善 指标 ， 它 被 定义 成 在 
单个 处 理 器 上 运行 一 个 较 大 的 〈 扩 展 的 ) 问题 花费 的 时 间 与 该 问题 在 扩展 的 机 器 上 运行 时 间 
的 比率 。 对 于 卖方 来 讲 ， 这 个 指标 通常 是 有 诱惑 力 的 ， 因 为 这 样 的 加 速 比 一 般 会 很 高 。 实 际 
上 ， 它 是 对 一 个 非常 大 的 问题 测量 问题 约束 的 加 速 比 ， 往 往 具 有 低 的 通信 与 计算 比 和 充分 的 
并 发 性 ， 并 且 受 益 于 由 存储 器 和 高 速 缓存 容量 产生 的 超 线 性 效应 。 不 管 怎样 ， 扩 展 了 的 问题 
并 不 是 我 们 在 MC 扩 放 模型 下 运行 在 单 处 理 器 上 的 问题 ， 所 以 这 不 是 一 个 合适 的 加 速 比 
指标 。 
与 前 面 的 模型 不 同 ， 在 MC 扩 放 模型 下 ， 工 作 和 执行 时 间 都 不 国定 。 作 为 惯例 ， 使 用 工 
作 除 以 时 间作 为 性 能 指标 ， 我 们 可 以 把 加 速 比 定义 为 : 
、 个 处 个 处 理 器 的 执行 时 站 
Howe (P 个 处 理 器 ) = Eas aba” ISLETS LE 
= gel ee (4-3) 
换行 时 间 的 增 量 
如 果 执 行 时 间 的 增加 仅仅 是 因为 工作 量 增加 ， 而 不 是 因为 并 行 性 的 额外 开销 所 致 ， 即 
如 果 不 存 在 MC 扩 放 中 一 般 很 少 发 生 的 存储 器 系统 人 为 效应 ， 那 么 加 速 比 将 是 Pp， 这 正 是 我 
们 所 希望 得 到 的 。 工 作 量 的 测量 和 我 们 在 前 面 讨论 过 的 Te 扩 放 的 测量 方法 一 样 。 
因为 在 MC 扩 放 下 数据 集 的 尺寸 比 在 其 他 模型 下 增长 的 快 ， 所 以 并 行 额外 开销 的 增长 相 
对 缓慢 ， 加 速 比 通常 更 好 (忽略 容量 型 人 为 效应 )。MC 扩 放 确实 是 很 多 用 户 所 希望 的 使 用 
并 行 机 的 方式 。 但 是 ， 对 于 很 多 类 型 的 应 用 来 说 ，MC 扩 放 会 导致 一 个 严重 的 问题 : 执行 时 
间 (对 于 并 行 执 行 ) 会 长 得 令 人 无 法 容忍 。 这 个 问题 能 出 现在 任何 一 个 工作 随 问题 规模 的 增 
长 比 存储 器 使 用 的 增长 快 得 多 的 应 用 之 中 ( 见 例 4.2)。 
例 4.2 算 阵 分 解 是 串 行 工作 的 增长 比 存储 器 使 用 的 增长 要 快 得 多 的 简单 例子 。 请 说 明 
在 这 种 应 用 中 ，MC 扩 放 如 何 导 致 并 行 执行 时 间 迅 速 增长 。 
解答 : 在 矩阵 分 解 中 ， 对 于 一 个 nx n 的 和 矩阵， 虽然 数据 集 的 尺寸 和 存储 器 的 使 用 按 
O(n ) 增 长 ， 在 一 个 单 处 理 器 上 的 执行 时 间 却 以 O(n? ) 增长 。 假 设 一 个 10 000 x 10 000 的 
矩阵 要 使 用 大 约 800 MB 的 存储 器 ， 可 以 在 一 个 单 处 理 器 的 机 器 上 用 一 小 时 完成 矩阵 的 因子 
分 解 ， 那 么 考虑 一 个 包含 1 000 个 处 理 器 的 扩展 的 机 器 ， 在 这 台 机 器 上 ， 在 MC 扩 放 模型 下 ， 
我 们 可 以 因子 分 解 一 个 320 000 x 320 000 的 矩阵 ， 因 为 几乎 不 需要 在 主 存 中 进行 复制 。 但 是 ， 
并 行程 序 的 执行 时 间 会 增加 到 将 近 32 个 小 时 (即使 假设 有 完美 的 1 000 倍 的 加 速 比 ) m 
在 3 个 模型 中 ， 时 间 约 束 的 扩 放 越 来 越 被 认为 是 最 可 行 的 一 个 ， 但 是 ， 没 有 一 个 模型 可 
以 宣称 自己 是 最 适 于 所 有 应 用 和 所 有 用 户 的 。 不 同 的 用 户 有 不 同 的 目标 ,在 不 同 的 约束 下 工 
作 ， 不 可 能 在 任何 情况 下 都 非常 严格 地 遵循 一 个 给 定 的 模型 。 但 不 管 怎样 ， 对 于 在 机 器 扩 放 
条 件 下 分 析 扩 放 的 性 能 而 言 ， 这 3 个 模型 都 是 有 用 的 综合 的 工具 ， 


4.1.5 扩 放 模型 对 方程 求解 器 内 核 的 影响 


我 们 先 考察 一 个 简单 的 例子 ~ 一 第 2 章 的 方程 求解 器 内 核 ， 看 一 看 它 如 何 和 不 同 的 扩 放 
模型 相互 作用 ， 以 及 这 些 模型 是 如 何 影响 它 与 体系 结构 相关 的 行为 特征 的 。 对 于 一 个 nxn 
的 网 格 来 说 ,简单 方程 求 解 器 需要 的 内 存 为 0(n* )。 计 算 复杂 度 是 0O(m ) 乘 以 最 终 达 到 收 
敛 的 迭代 次 数 ， 我 们 可 以 保守 地 假设 迭代 次 数 是 0(n ) (使 数值 从 网 格 的 一 侧 边界 流动 到 另 
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外 一 侧 所 需要 的 迭代 次 数 )。 这 导致 了 0Cn”) 的 串 行 计算 的 复杂 度 。 
假设 在 任何 情况 下 ， 由 于 并 行 性 的 加 速 比 等 于 处 理 器 的 个 数 p， 考 虑 一 下 在 3 种 扩 放 模 
型 下 的 执行 时 间 和 存储 器 需求 。 对 于 PC 扩 放 ， 因 为 相同 的 n x n 网 格 在 更 多 的 处 理 器 p 之 
间 分 割 ， 每 个 处 理 器 的 存储 器 需求 会 按 p 线性 下 降 ， 执 行 时 间 也 是 一 样 。 在 TC 扩 放 中 ， 执 
行 时 间 根 据 定义 是 固定 不 变 的 。 假 设 是 线性 加 速 比 ， 这 就 意味 着 如 果 扩 展 的 网 格 规模 是 x 
k, IA 局/p = 下， 所 以 大 = nxYp。 因 此 每 个 处 理 器 需要 的 内 存 为 
An 
P Vp 
它 按照 处 理 器 的 立方 根 减少 。 根 据 定 义 ， 使 用 MC 扩 放 ， 每 个 处 理 器 的 存储 器 需求 保持 不 
BE, HOC )， 这 里 单个 处 理 器 执行 的 基本 网 格 是 hn x n。 这 意味 着 网 格 的 整个 规模 增长 了 
pti, HUT AMORA nip x nvp 而 不 是 mx nm。 因为 它 现在 需要 np 次 迭代 才能 收敛 ， 
所 以 串 行 的 时 间 复 杂 度 为 0 〈(nyp》)。 这 意味 着 即使 假设 由 于 并 行 化 产生 的 加 速 比 是 理想 
的 ,在 p 个 处 理 器 上 扩展 了 的 问题 的 执行 时 间 是 
o( ce] 
P 
或 者 说 是 n Vp。 因 此 ， 基 本 问题 的 并 行 执行 时 间 是 串 行 执行 时 间 的 /p 倍 。 甚 至 在 线性 加 速 
比 的 假设 下 ， 在 一 个 处 理 器 上 需要 运行 一 个 小 时 的 问题 ， 在 MC 扩 放 模型 下 在 一 台 具 有 
1 024 个 处 理 器 的 机 器 上 要 运行 32 个 小 时 。 那 么 ， 对 于 这 个 简单 的 方程 求解 器 ，MC 扩 放 下 
的 执行 时 间 会 快速 增加 ， 在 TC 扩 放 下 每 个 处 理 嚣 对 内 存 的 需求 减少 。 
让 我 们 考虑 一 下 不 同 的 扩 放 模型 对 于 并 发 性 、 通 信 与 计算 的 比率 、 同 步 和 1/0 频 度 、 时 
间 和 空间 的 局 部 性 、 消 息 的 尺寸 (在 使 用 消息 传递 模型 时 〉 的 效应 。 
这 个 内 核 中 的 并 发 性 和 网 格 点 的 数量 成 正比 。 它 在 PC 扩 放 下 保持 不 变 ; 在 MC 扩 放下 
的 增长 和 p 成 正比 ; 在 TC 扩 放 下 的 增长 和 p" "成 正比 。 
通信 与 计算 的 比率 是 分 配给 每 个 处 理 器 的 网 格 分 区 的 周 长 与 面积 之 比 ， 也 就 是 说 ， 它 和 
每 个 处 理 器 的 点 数 《〈m/P ) 的 平方 根 成 反比 。 在 PC 扩 放 模型 下 ， 该 比率 按 Vz 增 长 ; 在 MC 
扩 放 模型 下 ， 分 区 大 小 不 变 ， 所 以 通信 与 计算 的 比率 也 不 变 。 最 后 ,在 TC 扩 放 模型 下 ， 因 
为 一 个 处 理 器 的 分 区 的 规模 随 着 处 理 器 数量 的 立方 根 减少 ， 则 该 比率 按 p 的 六 次 方 根 增加 。 
方程 求解 器 在 每 个 网 格 扫描 的 结尾 处 同步 一 次 来 决定 收敛 与 否 。 假 设 它 在 那个 时 刻 也 执 
行 VO 操作 ， 比 如， 在 每 次 扫描 的 结尾 输出 最 大 误差 。 在 PC 扩 放 模型 下 ， 在 一 次 给 定 的 扫 
描 中 每 个 处 理 器 完成 的 工作 随 着 处 理 器 数量 的 增加 而 线性 递 碱 ， 所 以 假设 线性 加 速 比 ， 同 步 
频率 和 输入 输出 频率 随 着 p 而 线性 增加 。 在 MC 扩 放 模型 下 ， 频 率 保持 不 变 ; 在 TC 扩 放 模 
型 下 ， 它 随 着 p 的 立方 根 增加 。 
这 个 方程 求解 器 的 重要 工作 集 的 尺 才 正好 是 网 格 在 一 个 处 理 器 中 的 分 区 的 大 小 ， 表 示 了 
它 的 时 间 局 部 性 。 因 此 ， 在 PC 扩 放 下 ， 重 要 工作 集 的 尺寸 和 对 高 速 缓存 的 需求 随 着 p 而 线 
性 减少 ， 在 MC 扩 放 中 保持 不 变 ， 在 TC 扩 放 中 随 着 p 的 立方 根 减少 。 因 此 ， 在 TC 扩 放 中 ， 
尽管 总 的 问题 规模 在 增加 ， 每 个 处 理 器 的 工作 集 的 尺寸 还 是 在 减 小 。 
方程 求解 器 的 空间 局 部 性 在 一 个 处 理 器 分 区 内 部 ， 在 面向 行 的 边界 上 是 最 好 的 ， 在 面向 
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变 大 而 减 小 ， 因 此 在 MC 扩 放 下 它 保 持 不 变 ， 在 PC 扩 放 下 减少 得 很 快 ， 在 TC 扩 放 下 减少 得 
比较 慢 。 

最 后 ,在 消息 传递 模型 中 ， 一 个 单个 的 消息 很 可 能 包含 一 个 处 理 器 分 区 的 边界 行 或 边界 
列 ， 它 是 分 区 尺寸 的 平方 根 。 因 此 ， 这 里 消息 尺寸 的 扩 放 类 似 于 通信 与 计算 的 比率 的 扩 放 。 
然而 ， 一 个 进程 发 送 的 消息 数量 只 是 依赖 于 相 邻 的 进程 数目 ， 而 与 n、p 或 者 扩 放 模型 
无 关 。 

从 前 面 的 讨论 中 我 们 可 以 很 清楚 地 看 到 ， 只 要 存储 器 或 者 高 速 缓存 的 容量 效应 不 是 主 


要 的 ， 在 MC 扩 放 下 ， 我 们 可 以 期 望 有 最 低 的 并 生 性 额外 开销 和 最 高 的 加 速 比 ,在 TC 扩 放 . 


下 其 次 。 在 PC 扩 放 下 ， 我 们 应 该 能 够 预料 到 ， 至 少 一 旦 额外 开销 相对 于 有 用 的 工作 变 得 显 
著 起 来 时 ， 加 速 比 会 很 快 下 降 。 还 有 一 点 很 清楚 ， 应 用 参数 的 选择 和 扩 放 模型 在 很 大 程度 上 
影响 基本 的 程序 特性 以 及 和 扩展 存储 器 层次 结构 在 体系 结构 上 的 相互 作用 ， 比 如 空间 和 时 间 
的 局 部 性 。 除 非 已 经 知道 一 个 特定 的 扩 放 模型 刚好 适合 一 个 应 用 程序 或 者 特别 不 适合 ， 以 所 
有 这 3 种 模型 评价 机 器 都 是 有 用 处 的 。 在 讨论 实际 的 评价 时 ， 我 们 会 更 仔细 地 考察 与 体系 结 
构 参 数 的 相互 作用 以 及 它们 对 评价 的 重要 性 (4.2 节 和 4.3 节 )。 首 先 ， 我 们 先 简要 地 看 一 看 
扩 放 的 其 他 那些 重要 而 精妙 的 方面 ,如何 扩 放 应 用 的 参数 来 满足 给 定 的 扩 放 模型 的 约束 。 


4.1.6 扩 放 工作 负载 参数 


在 讨论 问题 规模 扩 放 的 约束 时 ， 我 们 仅 对 单个 应 用 参数 n 作 了 简化 性 的 假设 ,但 没有 
考察 构成 问题 的 规模 向 量 的 不 同 应 用 参数 应 该 如 何 相 互 参照 进行 扩 放 来 满足 选 定 的 约束 条 
件 。 我 们 现在 不 考虑 这 个 简单 假设 ， 比 如 ，Ocean 应 用 程序 有 一 个 带 4 个 参数 的 向 量 : n 
e，Al，7。 工 作 负 载 应 该 如 何 相 互 参照 而 扩 放 ， 这 在 PC 扩 放 中 不 是 问题 ; 但 是 ， 它 在 MC、 
TC 扩 放 中 的 确 是 一 个 问题 。 不 同 的 参数 彼此 相关 ， 不 太 可 能 扩 放 其 中 一 个 参数 而 不 影响 其 
余 的 参数 ， 或 者 说 不 可 能 独立 地 扩 放 它们 。 比 如 ， 在 Bames-Hut 应 用 的 实际 使 用 中 ， 参 数 9 
( 力 的 计算 精度 )，A; (时 间 步 之 间 的 物理 时 间 间 隔 ) 应 该 随 n (星体 的 数量 ) 的 变化 而 扩 
放 。 所 有 这 些 参数 决定 了 一 个 给 定 的 执行 特性 ， 比 如 ，Bames-Hut 的 执行 时 间 的 增长 并 不 是 
简单 的 nlogn， 而 是 


l nlo n 
2At 2 


0 


结果 ， 在 TC 扩 放 模型 下 ， 星体 数目 n 的 增加 没有 仅仅 由 扩展 nn 获得 的 那么 大 。 

即使 简单 的 方程 求解 器 内 核 也 有 另外 一 个 参数 ，e， 它 是 用 来 决定 求解 器 收敛 的 容 差 系 
数 。 使 该 容 差 系 数 变 小 ， 正 如 实际 应 用 中 随 着 n 的 扩 放 所 做 的 那样 ， 就 要 增加 为 达到 收敛 
所 需要 的 迭代 次 数 ， 因 此 ， 也 就 提高 了 执行 时 间 ; 但 是 ， 它 并 没有 影响 对 存储 器 的 需求 。 和 
仅仅 扩 放 n 相 比较 ，s 和 n 一 起 扩展 导致 了 在 TC 扩 放 下 每 个 进程 的 网 格 尺寸 、 存 储 器 需求 、 
工作 集 尺 寸 减 少 得 更 快 ， 通 信 与 计算 的 比率 在 TC 扩 放 中 增加 得 更 快 ， 而 在 MC 扩 放 中 保持 
不 变 ， 甚 至 在 MC 扩 放 中 执行 时 间 增 加 的 更 快 。 作 为 一 个 使 用 工作 负载 的 机 器 设计 者 ， 从 应 
用 程序 用 户 的 观点 来 理解 参数 之 间 的 关系 ， 并 根据 这 种 理解 在 评价 中 对 参数 进行 扩 放 是 十 分 
重要 的 。 和 否则 ， 我 们 很 容易 获得 一 个 不 正确 的 关于 体系 结构 的 结论 。 
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参数 之 间 的 实际 关系 和 扩 放 它们 的 规则 依赖 于 应 用 的 领域 。 因 为 没有 一 个 普遍 适用 的 规 
则 ， 这 使 得 好 的 评价 变 得 更 加 令 人 感 兴趣 。 比 如 ， 在 像 Bames-Hut 和 Ocean 这 样 的 通过 使 物 
理 现 象 离散 化 而 进行 模拟 的 应 用 中 ， 不 同 的 应 用 参数 通常 精确 地 决定 着 模拟 某 些 现象 (比如 
星系 的 演化 ) 过 程 中 不 同 的 误差 来 源 。 因 此 ， 整 体 扩 放 这 些 参数 的 合理 规则 是 由 扩 放 不 同类 
型 误差 的 策略 所 决定 的 。 理 想 的 情况 是 ， 基 准 测试 程序 集会 描述 扩 放 规则 ， 甚 至 可 以 在 应 用 
中 对 它们 编码 ， 只 留 下 一 个 像 n 这 样 的 自由 参数 ; 所 以 对 于 作为 基准 测试 程序 使 用 者 的 设 
计 者 来 说 ， 他 不 必 再 操心 学 习 这 些 东西 。 习 题 4.12 和 4.13 说 明了 合适 的 应 用 程序 扩 放 的 重 
要 性 ， 它 们 显示 了 适当 地 扩 放 多 个 参数 与 仅仅 扩 放 数据 集 尺 寸 参 数 n 相 比 ， 往 往 会 得 出 关 
于 体系 结构 的 定量 的 、 某 些 时 候 甚 至 是 定性 的 不 同 结论 。 


4.2 评价 一 台 实 际 的 机 器 


现在 ， 我 们 已 经 理解 了 合适 扩 放 的 重要 性 以 及 问题 和 机 器 的 规模 对 于 基本 行为 特性 和 体 
系 结 构 相 互 作用 的 效果 ， 我 们 可 以 为 两 种 主要 类 型 的 工作 负载 驱动 的 评价 制定 特定 的 指导 方 
针 ， 这 两 类 评价 是 ; 评价 一 台 实 际 的 机 器 和 在 通用 的 环境 中 评价 一 个 体系 结构 的 概念 或 折 中 
方案 。 评 价 一 台 实际 的 机 器 在 很 多 方面 是 比较 简单 的 : 组 成 结构 、 粒 度 和 机 器 的 性 能 参数 是 
固定 的 ， 我 们 所 要 考虑 的 是 选择 合适 的 工作 负载 和 工作 负载 参数 ， 而 且 我 们 并 没有 受到 软件 
模拟 的 局 限 性 的 约束 。 本 节 提 供 了 评价 实际 机 器 的 一 个 范例 性 模板 。 我 们 从 使 用 微 基 准 测试 
程序 分 离 性 能 特征 入 手 ， 然 后 考虑 为 评价 而 选择 工作 负载 所 涉及 的 主要 问题 。 紧 接着 介绍 一 
旦 选 定 了 工作 负载 后 评价 机 器 的 指导 方针 ， 首 先是 何 时 固定 处 理 器 的 数量 ， 然 后 是 何 时 允许 
它 变 化 。 本 节 最 后 将 讨论 用 于 测量 机 器 性 能 和 表示 评价 结果 的 流行 的 指标 。 在 评价 一 台 实 际 
的 机 器 时 的 所 有 问题 都 和 评价 体系 结构 的 概念 或 折 中 方案 有 关 。 


4.2.1 使 用 微 基准 测试 程序 分 离 性 能 


评价 一 台 实际 的 机 器 的 第 一 步 是 理解 它 的 基本 性 能 指标 ， 也 就 是 ， 程 序 设计 模型 提供 的 
主要 操作 的 性 能 特性 、 通 信 抽 象 (用 户 /系统 接口 ) 或 者 硬件 /软件 接口 。 这 通常 是 通过 使 用 
小 的 、 专 门 编写 的 被 称 作 微 基准 测试 程序 (Saavedra, Gaines, and Carlton 1993) 的 程序 来 完 
成 的 ， 微 基准 测试 程序 是 为 了 分 离 这 些 性 能 特征 〈 比 如 ,延迟 、 带 宽 、 额 外 开销 等 ) 而 设 
计 的 。 

在 并 行 系统 中 使 用 了 5 种 类 型 的 微 基 准 测试 程 序 ; 前 三 个 也 可 以 用 于 单 处 理 器 的 评价 ; 

处 理 类 微 基 准 测试 程序 。 测 量 处 理 器 不 涉及 存储 器 访问 的 操作 性 能 ， 比 如 算术 操作 、 逻 
辑 操作 和 转移 。 

本 地 存储 器 微 基 准 测试 程序 。 决 定 了 本 地 节点 内 部 的 存储 器 层次 结构 各 层 的 组 成 、 时 
延 、 带 宽 , 测量 由 不 同 层次 满足 的 本 地 读 和 写 操作 的 人 性能， 包括 那些 导致 TLB OS ATT 
的 操作 。 

输入 -输出 微 基 准 测试 程序 。 测 量 110 操作 的 特征 ， 比 如 不 同 跨 距 和 长 度 的 磁盘 读 写 。 

通信 微 基准 测试 程序 。 测 最 数据 通信 操作 ， 比 如 消息 发 送 和 接受 或 者 不 同类 型 的 远程 
读 写 。 
同步 微 基准 测试 程序 。 测 量 不 同类 型 的 同步 操作 的 性 能 ， 比 如 加 锁 和 栅 障 。 
通信 和 同步 微 基准 测试 程序 依赖 于 所 使 用 的 通信 抽象 或 者 程序 设计 模型 。 它 们 可 能 涉及 
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一 个 或 者 一 对 处 理 器 ， 比 如 ， 一 个 单个 的 远程 读 扑 空 、 一 对 发 送 /接收 或 者 一 个 自由 锁 的 获 
得 ; 它们 也 可 以 是 集合 式 的 ， 比 如 广播 、 归 约 、 全 部 到 全 部 的 通信 、 概 率 性 通信 模式 、 很 多 
处 理 髓 疯 争 一 个 锁 或 者 路 障 。 可 以 设计 不 同 的 微 基准 测试 程序 来 强调 非 竞 争 时 延 、 带 宽 、 额 
外 开销 和 竞争 。 

出 于 测量 的 目的 ， 微 基准 测试 程序 通常 是 采用 重复 的 基本 操作 集合 来 实现 的 (比如 ， 一 
行 中 有 10 000 个 远程 读 操 作 )。 它 们 通常 具有 一 些 简 单 的 参数 ， 这 些 参 数 可 以 变化 以 获得 更 
加 完整 的 特征 ; 比如， 集合 通 信 微 基准 测试 程序 中 涉及 的 处 理 器 的 数量 ， 或 者 本 地 存储 器 微 
基准 测试 程序 中 连续 读 操作 之 间 的 跨 距 。 图 4-3 说 明了 使 用 本 地 存储 器 微 基准 测试 程序 所 获 
得 的 机 器 的 典型 情况 。 微 基准 测试 程序 的 主要 作用 是 分 离 和 理解 基本 系统 能 力 的 性 能 。 一 个 
现在 尚未 实现 的 更 具 雄 心 的 想法 是 ， 如 果 工 作 负载 可 以 用 不 同 的 基本 操作 的 加 权 之 和 来 刻 
画 ， 那 么 对 于 给 定 的 负载 一 台 的 机 器 的 性 能 可 以 根据 它 执行 相应 的 微 基 准 测试 程序 的 性 能 做 
出 预测 。 当 我 们 在 后 续 的 章节 中 测量 真实 的 系统 时 ， 我 们 将 讨论 一 些 特殊 的 微 基准 测试 程序 
和 它们 的 设计 问题 。 


300 
256K-8M 


微 基准 测试 程序 . 


for times e 0 to 10,000 do 
for i «0 to ArraySize-1 
by stride do 
load A{i}; 


it fa] (ns) 





8 32 128 512 2K 8K 32K 128K 512K 2M 
跨度 


图 43 在 CRAY T3D 多 处 理 器 的 单个 处 理 节 点 上 微 基准 测试 程序 的 实验 结果 。 每 个 处 理 器 有 -个 由 
本 地 存储 器 支持 的 小 的 单 级 高 速 缓存 。 微 基准 测试 程序 由 读 取 本 地 数组 的 大 量 操作 构成 ， Y 
轴 显 示 了 每 次 读 操作 需要 的 时 间 ， 以 ns 为 单位 。x 轴 是 在 一 次 循环 中 连续 读 操作 之 间 的 跨 
EE 〈 即 所 访问 的 存储 器 单元 的 地 址 的 差异 )。 不 同 的 曲线 对 应 所 访问 的 数组 的 尺 二 ( ArrayS- 
ize) ， 并 标注 了 数组 的 尺寸 。 当 AraySize 小 于 8 KB 时 ， 数 组 可 以 容纳 于 处 理 器 的 高 速 缓存 ， 
这 样 所 有 的 读 操作 都 能 命中 ， 需 要 6.67 ns 完成 读 操作 。 对 于 大 一 些 的 数组 ， 我 们 能 观察 到 
高 速 缓存 扑 空 的 效应 。 平 均 访问 时 间 是 命中 时 间 和 扑 空 时 间 的 加 权 和 ， 直 到 跨 距 大 于 缓存 块 
的 大 小 〈32 个 字 或 128 个 字 节 ) 而 造成 地 址 出 界 ， 使 得 每 一 次 访问 都 扑 空 为 止 。 曲 线 下 -个 
上 升 是 由 于 某 些 访问 引起 缺 页 而 发 生 的 ， 地 址 出 界 的 原因 是 跨 距 足够 大 (16 KB)， 以 至 于 每 
一 次 连续 的 访问 都 导致 缺 页 。 曲 线 最 后 一 个 上 升 是 由 于 4 体 的 主 存 中 存储 体 的 访问 发 生 了 冲突 
所 致 ， 当 跨 距 为 64 KB 时 ， 连 续 的 访问 总 是 落 在 相同 的 存储 体 上 ， 而 其 余 的 存储 体 总 是 空闲 的 


分 离 了 性 能 特征 之 后 ， 下 一 步骤 是 使 用 更 加 实际 的 工作 负载 来 评价 机 器 。 我 们 必须 沿 着 
三 个 主要 的 坐标 : 工作 负载 、 它 们 的 问题 规模 、 处 理 器 的 数目 (或 者 机 器 规模 ) 进行 遍历 。 
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低级 机 器 参数 是 固定 的 ， 我 们 首先 来 为 评价 选择 工作 负载 。 
4.2.2 选择 工作 负载 


除了 微 基准 测试 程序 以 外 ， 用 于 评价 的 工作 负载 可 以 按照 真实 性 和 复杂 度 上 升 的 次 序 划 
分 成 三 类 : 内 核 、 完 整 的 应 用 程序 和 多 道 程序 的 工作 负载 。 每 一 类 都 有 它 自己 的 作用 、 优 点 
和 人 缺点。 

内 核 是 实际 的 应 用 程序 中 良好 定义 的 部 分 ， 但 是 它们 本 身 却 不 是 完整 的 应 用 程序 。 其 范 
围 从 简单 内 核 ( 比 如 ， 一 次 和 矩阵 转 置 或 者 一 次 相 邻 网 格 的 扫描 ) 到 更 为 复杂 的 、 占 应 用 程序 
执行 时 间 的 主要 部 分 的 那些 基本 内 核 (比如 矩阵 因子 分 解 和 解 偏 微分 方程 用 的 选 代 方 法 )。 
用 于 信息 处 理 的 内 核 的 例子 包括 在 决策 支持 应 用 中 使 用 的 复杂 的 数据 库 查 询 或 者 一 组 数据 的 
排序 。 内 核 揭示 了 微 基准 测试 程序 中 所 没有 的 高 层次 的 相互 作用 ， 结 果 ， 在 某 种 程度 上 也 失 
去 了 性 能 分 离 的 作用 。 它 们 的 关键 特性 是 : 它们 那些 与 性 能 相关 的 特征 ， 比 如 通信 与 计算 比 
率 、 并 行 性 和 工作 集 ， 很 容易 理解 并 经 常 可 以 解析 地 决定 ， 所 以 作为 相互 作用 的 结果 观察 到 
的 性 能 可 以 根据 这 些 特征 来 解释 。 

完整 的 应 用 程序 由 多 个 内 核 组 成 ， 并 且 展 示 了 那些 一 个 内 核 所 不 能 展示 的 内 核 之 间 的 高 
层次 交互 。 完 整 的 应 用 程序 不 同 于 内 核 ， 它 们 由 用 户 运 行 以 获得 用 户 关心 的 答案 。 相 同 的 大 
数据 结构 可 以 在 一 个 应 用 程序 中 被 多 个 内 核 以 不 同方 式 访问 ， 而 被 不 同 的 内 核 访问 的 不 同 的 
数据 结构 可 能 在 存储 器 层次 结构 中 产生 相互 的 干涉 。 此 外 ， 对 于 孤立 的 内 核 最 佳 的 数据 结 村 
在 完整 的 应 用 程序 中 可 能 不 是 最 好 的 。 对 于 划分 技术 也 是 如 此 。 比 如 ， 如 果 在 一 个 应 用 程序 
中 有 两 个 独立 内 核 ， 那么 我 们 可 以 决定 不 把 每 个 内 核 划 分 给 所 有 的 进程 ， 而 宁愿 在 它们 之 间 
共享 进程 。 共 享 一 个 数据 结构 的 不 同 内 核 可 以 有 几 种 划分 的 方法 ， 以 求 在 它们 不 同 的 访问 类 
型 和 通信 模式 之 间 得 到 某 种 平衡 ， 产 生 最 大 的 总 体 局 部 性 。 一 个 应 用 程序 中 多 内 核 的 存在 带 
来 了 很 多 微妙 的 相互 作用 ， 一 个 完整 的 应 用 与 性 能 相关 的 特性 通常 不 能 用 解析 的 方法 精确 地 
决定 。 

多 道 程序 工作 负载 是 由 多 个 在 机 器 上 一 起 运行 的 串 行 应 用 程序 和 并 行 应 用 程序 构成 的 ， 
不 同 的 应 用 程序 可 以 在 时 间 上 或 者 在 空间 上 共享 机 器 〈 比 如 ， 运 行 在 机 器 处 理 器 的 不 相交 子 
集 上 的 不 同 应 用 程序 ) 或 者 同时 具有 时 间 共 享 和 空间 共享 ， 它 依赖 于 操作 系统 多 道 程序 的 规 
定 。 正 如 完整 的 应 用 程序 因 作 为 其 组 成 成 分 的 内 核 之 间 的 高 层次 相互 作用 而 变 得 复杂 ， 多 道 
程序 的 工作 负载 也 涉及 到 多 个 完整 应 用 程序 本 身 之 间 的 复杂 相互 作用 。 

随 着 我 们 从 内 核 转移 到 完整 的 应 用 程序 和 多 道 程序 工作 负载 ， 我 们 获得 了 真实 性 ， 这 是 
非常 重要 的 。 很 多 致命 的 错误 和 性 能 问题 不 能 被 微 基 准 测试 程序 甚至 内 核 所 揭示 ， 但 是 却 能 
被 这 些 工 作 负载 所 发 现 。 但 是 我 们 也 失去 了 某 些 能 力 ， 包 括 : 简明 地 描述 工作 负载 的 能 力 ， 
明确 地 说 明和 解释 结果 的 能 力 ， 孤 立 各 种 性 能 因素 的 能 力 。 在 极端 情况 下 ， 多 道 程序 工作 负 
载 不 仅 难以 解释 ， 而 且 设计 都 非常 困难 : 比如 哪些 应 用 程序 应 该 被 包括 在 这 种 工作 负载 中 ? 
比例 是 什么 ?因为 和 操作 系统 之 间 有 着 精细 的 与 定时 相关 的 交互 ， 从 多 道 程序 工作 负载 获得 
可 重复 的 结果 也 是 很 困难 的 。 每 种 类 型 的 工作 负载 都 有 它们 的 作用 ， 但 是 只 能 由 完整 的 应 用 
程序 和 多 道 程序 工作 负载 反映 出 较 高 层次 的 相互 作用 这 一 事实 (以 及 它们 是 由 用 户 实际 运行 
在 机 器 上 的 工作 负载 的 事实 )， 这 使 得 我 们 使 用 它们 最 终 决定 机 器 的 整体 性 能 变 得 十 分 重要 。 

让 我 们 考察 一 下 为 评价 而 选择 这 样 的 工作 负载 (应 用 程序 、 多 道 程 序 负载 、 甚 至 是 复杂 
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的 内 核 ) 时 期 望 的 特性 。 这 些 特 性 包括 应 用 领域 的 代表 性 、 行 为 特性 的 覆盖 性 和 足够 的 并 
发 性 。 

1. 应 用 领域 的 代表 性 

如 果 我 们 作为 要 购买 机 器 的 用 户 正在 进行 评价 ， 而 且 我 们 知道 机 器 会 仅仅 被 用 来 运行 某 
些 类 型 的 应 用 程序 的 话 ， 那么， 选择 一 个 有 代表 性 的 工作 负载 就 是 一 件 容 易 的 事情 。 另 一 方 
面 ， 如 果 我 们 用 机 器 运行 范围 宽广 的 工作 负载 ， 或 者 如 果 我 们 是 试图 通过 评价 一 台 通 用 的 机 
器 从 而 为 下 一 代 机 器 的 设计 得 到 一 些 启示 的 设计 者 ， 我 们 应 该 选择 能 代表 宽广 领域 的 工作 负 
载 的 混合 体 。 

今天 ， 并 行 计 算 的 某 些 重要 领域 包括 : 模拟 物理 现象 的 科学 应 用 ; 像 计 算 机 辅助 设计 、 
数字 信号 处 理 、 汽 车 碰撞 模拟 、 甚 至 是 用 于 评价 体系 结构 折 中 方案 的 模拟 这 样 的 工程 应 用 ; 
演 染 场景 或 实体 使 之 成 为 图 像 的 图 形 化 和 可 视 化 应 用 ; 像 图 像 、 视 频 和 音频 的 分 析 和 处 理 、 
语音 和 手写 体 文字 识别 这 样 的 媒体 处 理应 用 ; 像 数据 库 ， 数 据 挖掘 和 事务 处 理 这样 的 信息 管 
理应 用 ; 像 航空 公司 员工 调度 和 交通 控制 这 样 的 优化 应 用 ; 像 专 家 系统 和 机 器 人 这 样 的 人 工 
智能 应 用 ; 多 道 程 序 工作 负载 ， 以 及 本 身 就 是 一 个 复杂 的 并 行 应 用 的 多 处 理 器 操作 系统 。 

2. 行为 特性 的 覆盖 性 

工作 负载 可 以 在 第 3 章 所 讨论 的 与 性 能 相关 的 特征 的 整个 范围 之 内 发 生 实质 性 的 变化 。 
其 结果 是 ， 评 价 存在 的 一 个 主要 问题 是 ， 它 很 容易 利用 工作 负载 进行 欺骗 或 被 工作 负载 所 误 
导 。 比 如 ， 一 项 研究 可 以 选择 那些 强调 体现 了 体系 结构 优点 〈 比 如 ， 通 信 时 延 ) 的 特性 的 工 
作 负 载 ， 避 免 使 用 那些 性 能 比较 差 的 工作 负载 (比如 ， 本 地 访问 、 竞 争 或 者 通信 带宽 )。 对 
于 通用 的 评价 ， 重 要 的 是 使 我 们 选择 的 工作 负载 在 整体 上 能 强调 重要 的 性 能 特征 的 范围 。 比 
如 ， 我 们 应 该 选择 能 覆盖 低 的 和 高 的 通信 和 与 计算 比 、 小 的 和 大 的 工作 集 、 规 则 和 不 规则 的 访 
问 模式 和 本 地 的 、 远 距离 的 或 者 集合 式 通信 的 工作 负载 。 如 果 我 们 对 评价 特殊 的 体系 结构 特 
征 〈 比 如 ， 处 理 器 之 间 的 全 部 对 全 部 通信 的 总 带宽 ) 特别 感 兴趣 ， 那 么 我 们 至 少 应 该 选择 一 
些 强调 这 些 特 征 的 工作 负载 。 

另外 一 个 重要 的 问题 是 程序 优化 的 级 别 。 真 实 的 并 行程 序 并 不 总 是 像 第 3 章 讨论 的 那样 
为 获得 好 的 性 能 而 进行 了 高 度 优化 ， 第 3 章 所 讨论 的 优化 不 仅仅 是 针对 现 有 的 特定 机 器 ， 而 
是 甚至 采用 了 降低 通信 与 计算 比率 或 者 提高 时 间 和 空间 局 部 性 这 样 更 加 一 般 性 的 方法 。 没 有 
高 度 优化 的 原因 或 许 是 因为 优化 程序 所 涉及 的 工作 量 比 用 户 愿 意 付出 的 多 ， 或 许 是 因为 程序 
是 在 自动 并 行 工具 的 帮助 下 生成 的 。 优 化 的 级 别 很 大 程度 影响 着 关键 执行 特征 和 突出 体系 结 
构 能 力 的 程度 。 我 们 应 该 特别 注意 4 种 重要 类 型 的 优化 ; 

算法 。 任 务 的 分 解 和 分 配 可 能 不 够 最 优 〈 比 如， 比较 一 次 网 格 计算 是 采用 面向 条 的 分 配 
还 是 面向 块 的 分 配 ( 见 2.3.3 节 )); 对 数据 局 部 性 的 算法 上 的 增强 〈 比 如 ,阻塞 ) 可 能 并 没 
有 被 实现 。 

数据 结构 。 使 用 的 数据 结构 可 能 不 是 最 优 地 与 体系 结构 相互 作用 ， 增 加 了 人 为 的 通信 ， 
比如 ， 比 较 在 一 个 共享 地 址 空间 中 是 用 二 维 数组 还 是 四 维 数组 来 表示 一 个 二 维 的 网 格 ( 见 
3.3.1 节 )。 

数据 的 规划 、 分 布 和 对 齐 。 即 使 使 用 了 合适 的 数据 结构 ， 它 们 也 可 能 没有 被 适当 地 分 布 
或 者 没有 合适 地 对 齐 页 或 者 高 速 缓 存 的 块 ， 这 会 导致 过 高 的 本 地 流量 或 者 人 为 通信 。 

通信 和 同步 的 协调 。 所 产生 的 通信 和 同步 结构 可 能 不 够 优化 ， 比 如 ， 在 消息 传递 型 系统 
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中 发 送 小 消息 而 不 是 大 消息 。 

因为 优化 经 常 是 自 组 织 的 ， 这 些 分 类 强制 了 某 些 结构 。 在 合适 的 地 方 ， 我 们 应 该 将 机 器 
或 特性 的 健壮 性 与 具有 不 同 级 别 优化 的 工作 负载 相 比较 。 

3. 并 发 性 

在 工作 负载 中 主要 的 性 能 瓶颈 可 能 是 计算 负载 的 不 平衡 性 ， 究 其 原因 或 者 是 分 割 方法 所 
固有 的 特性 、 或 者 是 协调 同步 的 方法 (比如 ， 使 用 路 障 而 不 是 点 对 点 的 同步 ) 所 致 。 如 果 这 
是 事实 ， 那 么 该 工作 负载 可 能 对 于 评价 该 机 器 的 通信 体系 结构 不 合适 ， 因 为 体系 结构 对 于 这 
种 瓶颈 是 无 能 为 力 的 。 甚 至 通信 性 能 的 巨大 改进 也 不 可 能 对 整体 性 能 有 太 大 影响 。 为 了 评价 
通信 体系 结构 ， 我 们 应 该 保证 我 们 的 工作 负载 和 它们 的 问题 规模 呈现 足够 的 并 发 性 和 负荷 平 
衡 。 这 里 一 个 有 用 的 概念 是 算法 加 速 比 ， 该 加 速 比 是 假设 所 有 的 存储 器 访问 和 通信 操作 不 花 
费时 间 (多 第 3 章 中 PRAM 体系 结构 模型 的 讨论 ) 。 通 过 完全 忽略 数据 访问 和 通信 的 性 能 影 
响 ， 算 法 加 速 比 测量 了 工作 负载 的 计算 负载 平衡 性 以 及 并 行程 序 人 额外 要 做 的 工作 。 

一 般 来 说 ， 我 们 应 该 分 离 由 于 工作 负载 特征 所 引起 的 性 能 限制 ， 对 这 些 限制 机 器 本 身 是 
无 能 为 力 的 。 另 一 一 件 重要 的 事 是 ， ea 使 得 它 对 于 所 评价 的 机 
器 规模 而 言 是 真实 的 负载 ， 尽 管 这 一 点 和 并 发 性 通常 更 应 该 是 输入 问题 规模 的 函数 ， 而 不 是 
工作 负载 本 身 的 函数 。 

连同 前 面 讨论 过 的 那些 标准 ， 人 们 已 经 为 定义 并 行 应 用 的 标准 基准 测试 程序 集 为 方便 工 
作 负 荷 驱 动 的 体系 结构 评价 付出 了 巨大 的 努力 。 基 准 测试 程序 集 覆 盖 了 不 同 的 应 用 领域 具有 
不 同 的 原则 ， 其 中 一 些 在 附录 中 将 予以 描述 。 尽 管用 于 本 书 中 例证 性 评价 的 工作 负荷 集 是 非 
常 有 限 的 ， 它 们 却 是 根据 前 述 标准 而 选择 的 。 现 在 ， 让 我 们 假设 一 个 特定 的 并 行程 序 已 经 被 
选 作 工作 负载 ， 我 们 要 看 一 看 如 何 利用 它 来 评价 一 台 真 实 的 机 器 。 首 先 ， 我 们 使 处 理 器 的 数 
量 固定 ， 这 弃 简 化 了 讨论 ， 也 能 更 加 清楚 的 显现 出 关键 的 相互 作用 。 然 后 ， 再 改变 处 理 器 的 
数量 。 


42.3 评价 一 台 固定 规模 的 机 器 


固定 了 工作 负载 和 机 器 的 规模 ， 我 们 只 需要 选择 工作 负载 的 参数 。 我 们 已 经 看 到 ， 对 于 
固定 数量 的 处 理 器 改变 问题 规模 会 显著 地 影响 所 有 重要 的 执行 特征 ， 从 而 影响 评价 的 结果 。 
实际 上 ， 它 甚至 会 改变 主要 瓶颈 的 性 质 ， 即 主要 瓶颈 是 通信 、 负 载 失 衡 或 本 地 数据 访问 。 这 
告诉 了 我 们 非常 重要 但 是 经 常 被 忽视 的 一 点 ， 在 评价 中 仅仅 使 用 惟一 的 问题 规模 往往 是 不 够 
的 ， 即 使 当 处 理 器 的 数量 固定 时 也 是 如 此 。 

我 们 可 以 利用 对 于 应 用 程序 和 体系 结构 的 相互 作用 的 理解 来 选择 待 研 究 问题 的 规模 。 我 
们 的 目标 是 对 于 真实 固有 行为 以 及 体系 结构 方面 的 相互 作用 有 足够 的 覆盖 性 ， 而 同时 又 限制 
所 需要 的 不 同 问题 规模 的 数量 。 我 们 用 一 系列 有 计划 的 步骤 来 实现 这 一 目标 并 显示 在 这 一 过 
程 中 只 选择 单一 规模 是 错误 的 做 法 。 我 们 的 讨论 会 每 次 前 进一步 ， 在 每 一 个 步骤 中 ， 我 们 使 
用 简单 的 方程 求解 器 内 核 来 定量 地 说 明 问 题 。 为 了 得 到 定量 的 说 明 ， 我 们 假设 正在 评价 一 台 
有 人 64 个 单 处 理 器 节点 ， 每 个 节点 有 1 MB 高 速 缓存 和 64 MB 的 主 存 ， 具 有 高 速 缓存 一 致 性 的 
共享 地 址 空间 的 机 器 其 步骤 如 下 : 

第 1 步 ， 确定 问题 规模 的 范围 

适用 于 某 些 幸运 情况 的 一 种 选择 问题 规模 的 方法 是 要 求 更 强 的 能 力 。 我 们 进行 的 研究 的 
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高 层次 目标 有 助 于 我 们 选择 问题 的 规模 。 比 如 ， 我 们 可 能 知道 机 器 的 用 户 只 对 一 些 特定 的 问 
题 规模 感 兴趣 ， 这 就 简化 了 我 们 的 任务 。 但 是 这 种 情况 不 常见 ， 而 且 不 是 一 个 通用 的 方法 。 
它 不 适用 于 方程 求解 器 的 内 核 。 

对 实际 使 用 的 知识 可 以 帮助 我 们 确定 一 个 范围 ， 低 于 此 范围 的 问题 对 机 器 来 说 规模 小 得 
不 实际 ， 高 于 此 范围 的 问题 对 于 机 器 来 说 执行 时 间 又 太 长 或 者 用 户 不 感 兴趣 。 这 对 方程 求解 
器 的 内 核 也 不 是 特别 有 用 ， 一 旦 我 们 确定 了 范围 ， 就 可 以 开始 下 一步 了 。 

第 2 步 : 使 用 固有 的 行为 特征 

固有 行为 特征 〈 比 如 通信 和 与 计算 比 和 负载 平衡 ) 能 帮助 我 们 进一步 限制 范围 并 在 已 经 选 
定 的 范围 中 选择 问题 规模 。 因 为 固有 的 通信 和 与 计算 比 常常 随 数据 集 规模 的 上 升 而 降低 ， 所 以 
大 问题 可 能 没 能 足够 地 强调 通信 体系 结构 ， 至 少 对 于 和 固有 的 通信 和 是 如 此 ; 而 小 问题 对 通信 的 
强调 可 能 不 具 代 表 性 ， 而 且 可 能 掩盖 其 他 的 瓶颈 。 因 为 并 发 性 通常 随 着 数据 集 规模 的 增加 而 
增加 ， 我 们 可 以 至 少 选择 一 些 足 够 大 但 又 不 至 于 大 到 使 得 固有 的 通信 变 的 太 小 的 问题 规模 来 [221 
达到 负载 平衡 ( 见 例 4.3)。 问 题 规模 也 可 以 影响 到 应 用 在 不 同 阶段 所 花费 的 执行 时 间 ， 不 
同 的 阶段 可 能 会 有 完全 不 同 的 负载 平衡 、 同 步 和 通信 的 特征 。 比 如 ， 在 Bames-Hut 应 用 的 实 
例 研究 中 ， 较 小 的 问题 在 树 形成 阶段 花费 了 更 多 的 时 间 ， 它 不 能 很 好 地 并 行 ， 与 在 实际 中 通 
常 占 主导 地 位 的 引力 计算 的 阶段 相 比 缺少 一 些 期 望 的 特性 。 因 此 我 们 应 该 小 心 不 要 选择 没有 
代表 性 的 场景 。 

例 4.3 你 如 何 利用 固有 行为 特性 为 方程 求解 器 的 内 核 选 择 问题 规模 的 范围 ? 

解答 : 对 于 这 种 内 核 ， 足 够 的 工作 量 和 负载 平衡 可 能 要 求 我 们 至 少 有 32 x 32 个 点 的 分 
区 ,对 于 一 台 64 个 (8x8) 处 理 器 的 机 器 ， 这 意味 着 整个 网 格 的 规模 至 少 是 256 x 256, 3K 
个 网 格 规模 对 于 32 x 32 或 者 1 K 个 点 的 计算 ， 需 要 在 每 次 欠 代 中 每 个 进程 有 4x 32 或 者 128 
个 网 格 点 的 通信 。 如 每 个 网 格 点 有 5 次 浮 点 运算 和 8 个 字 节 ， 固 有 的 通信 与 计算 比 是 每 5 次 
浮 点 运算 1 个 字 节 。 假 设 一 个 处 理 器 能 为 该 计算 提供 200 MFLOPS (每 秒 2 亿 次 泽 点 运算 )， 
这 意味 着 需要 40MBps 的 带宽 。 这 对 现代 的 多 处 理 器 网 络 来 讲 是 相当 小 的 ， 即 使 它 是 突 发 形 
式 的 通信 也 不 算 什么 。 我 们 假设 低 于 5 MBps 的 通信 对 我 们 的 系统 来 说 很 小 ， 仅 仅 从 固有 特 
性 的 观点 出 发 ， 不 需要 在 每 个 处 理 器 上 运行 大 于 256 x 256 点 (64 KB x 8 或 者 512 KB 的 数 
据 ) 的 问题 ， 或 者 说 不 需要 整体 上 大 于 2 Kx2K 的 网 格 。 国 

像 负载 平衡 和 通信 这 样 的 固有 特征 随 着 问题 规模 而 平滑 地 变化 ， 所 以 要 单独 处 理 它 们 。 
可 以 选择 少数 几 个 跨越 感 兴趣 范围 的 问题 规模 ， 如 果 它 们 的 变化 速率 非常 低 ， 可 能 不 需要 选 
择 很 多 种 规模 。 实 验 显示 ， 在 大 多 数 情况 下 3 个 左右 是 刚好 的 。 比 如 ， 对 于 方程 求解 器 的 内 
核 ， 我 们 可 以 选择 236x256，1Kx1lK 和 2Kx2K 的 网 格 。 

男 一 方面 ， 和 体系 结构 发 生 相 互 作用 的 时 间 和 空间 局 部 性 展示 了 它们 在 性 能 效果 上 的 阐 
值 ， 包 括 当 问题 规模 变化 时 人 为 通信 的 产生 。 我 们 可 能 需要 扩展 对 于 问题 规模 的 选择 来 获得 
对 这 些 阐 值 的 足够 的 履 盖 。 同 时 ， 阅 值 性 质 能 帮助 我 们 剪裁 参数 空间 。 选 择 问题 规模 的 下 一 
步 又 是 考察 时 间 局 部 性 和 工作 和 集 。 

第 3 步 : 使 用 时 间 局 部 性 和 工作 集 

工作 集 是 否 能 被 本 地 高 速 缓存 或 者 复制 存储 器 所 容纳 会 显著 地 影响 执行 特征 ， 比 如 本 地 
存储 器 流量 和 人 为 的 通信 ， 即 使 在 固有 的 通信 、 计 算 负 载 平衡 变化 不 大 时 也 是 如 此 。 在 像 
Raytrace〈 光 线 跟 踪 ) 这 样 的 应 用 中 ,重要 工作 集 都 很 大 ， 而 且 主 要 是 由 分 配 到 远程 节点 的 “[222 
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数据 构成 ， 所 以 由 于 复制 容量 有 限 所 引起 的 人 为 通信 可 能 在 固有 通信 中 占 主导 地 位 。 这 种 人 
为 通信 和 随 着 问题 规模 的 提高 在 增加 ， 而 不 是 减少 。 在 其 他 应 用 中 (比如 Ocean), PRERA 
于 高 速 缓存 的 工作 集会 显著 地 产生 更 多 的 本 地 存储 器 流量 而 不 是 人 为 的 通信 。 如 果 在 实际 中 
这 样 的 问题 规模 是 现实 的 话 ， 我 们 应 该 包括 代表 了 重要 工作 集 阔 值 的 两 侧 〈 即 能 够 或 不 能 够 
被 高 速 缓存 所 容纳 ) 的 问题 规模 。 实 际 上 ， 只 要 对 应 用 程序 来 说 是 现实 的 ， 我 们 也 应 该 包括 
对 于 机 器 而 言 非常 大 的 问题 规模 ， 比 如 ， 一 个 几乎 填 满 整 个 内 存 的 问题 规模 ， 尽 管 从 负荷 平 
衡 和 固有 通信 的 观点 来 看 它 可 能 是 没有 多 大 意义 的 。 大 的 问题 经 常 导致 体系 结构 和 操作 系统 
之 间 的 相互 作用 ， 比 如 TLB 扑 空 、 缺 页 以 及 由 于 缓存 容量 型 扑 空 而 引起 的 巨大 流量 ， 而 较 
小 的 问题 则 不 会 产生 这 样 的 效果 。 例 4.4 和 例 4.5 有 助 于 说 明 如 何 基于 工作 集 选 择 问题 的 规模 。 

例 4.4 假设 问题 规模 和 处 理 器 的 数量 固定 ， 对 于 我 们 的 机 器 节点 中 最 低层 次 的 高 速 组 
存 〈 即 距离 处 理 器 最 远 、 距 离 存 储 器 最 近 的 高 速 缓存 ) ， 一 个 应 用 具有 如 图 4-4a 所 示 的 扑 空 
率 利 高 速 缓存 尺 十 对照 的 曲线 。 如 果 C 是 高 速 缓存 的 尺寸 ， 这 个 曲线 如 何 影响 我 们 对 用 于 
评价 机 器 的 问题 规模 的 选择 ? 
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高 速 组 存 尺寸 问题 规模 “问题 1 


图 44 基于 能 容纳 于 高 速 缓存 的 工作 集 来 选择 问题 的 规模 。 在 a) 中 的 图 显示 了 对 于 固定 的 问题 规 

模 和 所 选 定 的 处 理 器 数量 ， 扑 空 率 和 高 速 缓存 尺寸 对 照 的 曲线 。C 是 所 考虑 的 高 速 缓存 或 复 

制 存 储 器 的 尺寸 。 这 条 曲线 显示 了 三 个 损 点 或 者 说 工作 集 ， 两 个 定义 得 非常 陡峭 ， 另 一 个 要 

缓和 些 。b) 中 的 图 表明 ， 对 于 每 一 个 工作 集 一 条 曲线 描述 了 当 问 题 规模 提高 时 ， 它 是 否 能 

容纳 于 尺寸 为 的 高 速 缓存 。 曲 线 的 拐点 表示 了 工作 集合 不 再 能 被 容纳 的 问题 规模 。 可 以 

看 出 规模 为 问题 1 的 问题 适合 于 WS, 和 WS, 但 是 不 适合 于 WS, 。 问 题 2 适合 于 WS, ， 部 分 适 

合 于 WS, ， 但 不 适合 于 WS, 。 问 题 3 只 适合 于 WS, 。 问 题 4 不 适合 于 高 速 缓存 中 的 任何 工作 集 
解答 : 从 图 4-4a 中 我 们 可 以 看 到 对 于 所 给 出 的 问题 规模 (和 处 理 器 的 数量 )， 第 一 个 工 
作 集 能 容纳 于 尺寸 为 C 的 高 速 缓存 ， 第 二 个 工作 集 只 能 被 部 分 容纳 ， 第 三 个 则 不 能 被 容纳 。 
每 一 个 工作 和 集 按照 它们 自己 的 方式 随 问 题 规模 而 扩 放 ， 这 种 扩 放 决定 了 在 何 种 问题 规模 下 ， 
该 工作 集 不 再 能 够 被 尺寸 为 C 的 高 速 缓存 所 容纳 ， 因 此 决定 了 应 该 选择 什么 样 的 问题 规模 
才能 覆盖 各 种 有 代表 性 的 情况 。 实 际 上 ， 如 果 曲 线 真 的 包含 陡峭 的 拐点 ， 那 么 可 以 画 一 种 不 
同类 型 的 曲线 ， 此 时 每 个 重要 工作 集 对 应 一 条 曲线 。 图 4-4b 中 的 曲线 描述 了 当 问 题 的 规模 
变化 时 ， 工 作 集 是 否 能 被 尺寸 为 C 的 高 速 缓存 所 容纳 。 如 果 出 现在 曲线 拐点 处 的 问题 规模 
处 于 我 们 所 决定 的 实际 的 问题 规模 范围 之 内 ， 那 么 应 该 保证 把 这 个 拐点 两 侧 的 问题 规模 包括 
在 我 们 的 选择 之 内 。 不 这 么 做 的 结果 是 ， 可 能 会 失去 与 存储 器 或 者 通信 体系 结构 相关 的 重要 
效应 。 在 这 个 例子 中 ， 拐 点 两 侧 的 曲线 是 平滑 的 。 这 一 事实 说 明 ， 如 果 对 高 速 缓存 我 们 关心 
的 只 是 扑 空 率 ， 那么 为 了 这 个 目的 ， 只 需要 在 每 个 拐点 的 每 一 侧 选择 一 种 问题 规模 ， 剪 裁 掉 
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其 他 的 部 分 m 

例 4.5 对 于 方程 求解 器 ， 工 作 集 如 何 影响 我 们 对 问题 规模 的 选择 ? 

解答 : 方程 求解 器 最 重要 的 工作 集 出 现 于 当 一 个 分 区 的 两 个 子 行 能 容纳 于 高 速 缓存 以 及 
当 一 个 处 理 器 的 整个 分 区 能 放 进 高 速 缓存 的 时 候 。 在 这 个 简单 内 核 中 非常 明确 地 定义 了 这 两 
种 情况 。 即 使 对 于 基于 固有 通信 和 与 计算 的 比率 所 选择 的 最 大 网 格 (2 K x 2 K)， 每 个 处 理 器 
的 数据 集 尺 二 仅仅 是 0.3MB， 所 以 这 两 个 工作 集合 都 能 自如 地 容纳 于 高 速 缓存 (如 果 使 用 了 
一 个 四 维 数组 的 表示 ， 基 本 上 就 没有 因 冲 突 而 产生 的 扑 空 )。 因 此 ， 可 能 还 需要 选择 更 大 一 
些 的 问题 规模 。 要 使 两 个 子 行 构成 的 第 一 个 工作 集 超出 一 个 1 MB 的 高 速 缓存 ， 这 意味 着 一 
个 子 行 要 有 64 个 点 ， 所 以 对 于 64 个 处 理 器 的 机 器 ， 整 个 的 网 格 是 64 Kx v 合 或 者 说 512 
K 47 (或 列 )。 在 这 种 情况 下 ， 每 个 处 理 器 的 数据 集 是 32 GB， 大 得 有 点 不 符合 实际 。 但 是 ， 
使 另外 一 个 重要 的 工作 集 〈 即 一 个 处 理 器 的 整个 分 区 ) 不 能 被 一 个 1 MB 的 高 速 缓存 所 容纳 
却 是 现实 的 。 这 就 导致 了 或 者 有 很 多 本 地 存储 器 流量 ,或 者 有 很 多 人 为 通信 (如 果 数 据 没 有 
被 合适 地 存放 )， 我 们 将 表示 这 种 情况 。 可 以 选择 一 个 问题 规模 ， 如 每 个 处 理 器 512 x 512 个 
点 (2 MB) 或 者 说 整体 4Kx4 下 个 点 。 这 样 做 不 会 填 满 机 器 的 存储 器 ， 所 以 可 以 再 选择 一 
种 问题 的 规模 ， 如 整体 16 K x 16 个 点 或 者 说 每 个 处 理 器 32 MB MEA 5 种 问题 规模 ， 
256x 256, 1 Kx1 K, 2Kx2K, 4Kx4KM16Kx16K, W 

第 4 步 : 使 用 空间 局 部 性 

假设 以 共享 地 址 空间 实现 的 方程 求解 器 内 核 中 用 于 表示 网 格 的 数据 结构 是 一 个 二 维 数 
组 。 作 为 它 的 重要 的 工作 集 ， 一 个 处 理 器 的 分 区 在 跨越 不 同 网 格 扫描 时 ， 可 能 已 经 不 在 它 的 
高 速 缓存 中 了 。 即 使 高 速 缓存 的 容量 足够 大 ， 高 速 缓存 冲突 仍 可 能 相当 频繁 ， 因 为 一 个 处 理 
器 分 区 的 子 行 在 地 址 空间 中 是 不 连续 的 。 在 任何 一 种 情况 下 ， 如 果 工 作 集 不 能 被 高 速 缓存 所 
容纳 ， 那 么 将 一 个 处 理 器 分 区 分 配 到 具有 分 布 式 存储 器 机 器 的 本 地 存储 器 中 是 很 重要 的 。 主 
存 分 配 的 粒度 是 页 ， 通 常 为 4~ 16 KB。 如 果 一 个 子 行 的 尺寸 小 于 页 的 尺寸 ， 合 适 的 分 配 是 
非常 困难 的 ， 而 且 可 能 会 导致 很 多 人 为 的 通信 。 但 是 ， 如 果 一 个 子 行 的 尺寸 是 页 尺寸 的 几 
彰 ， 分 配 则 不 成 问题 ， 几 乎 不 会 有 什么 人 为 的 通信 。 这 两 种 情况 都 可 能 是 符合 实际 的 ， 所 以 
我 们 应 该 试 着 来 表示 这 两 种 情况 。 如 果 页 的 尺寸 是 4 KB， 已 经 选择 的 前 三 个 问题 的 规模 具 
有 小 于 4 KB 的 子 行 ， 因 此 它们 不 能 被 合适 地 分 布 ; 后 两 个 问题 有 大 于 或 者 等 于 4 KB 的 子 
行 ， 因 此 只 要 网 格 对 齐 页 的 边界 ， 它 们 就 能 够 被 合适 地 分 布 。 所 以 ， 无 需 为 此 而 扩展 问题 规 
模 的 集合 。 对 于 以 一 个 四 维 数组 表示 的 网 格 ， 处 理 器 的 网 格 分 区 在 地 址 空间 中 是 连续 的 ， 所 
以 当 分 区 大 到 必须 分 配 时 合适 的 分 配 是 容易 的 。 

一 个 更 加 严格 的 空间 局 部 性 相互 作用 的 例子 出 现在 不 同 的 程序 和 体系 结构 的 相互 作用 
中 。 一 个 被 称 为 Radix 的 程序 是 一 个 将 在 本 章 后 面 介绍 的 排序 程序 ， 被 称 为 伪 共 享 的 体系 结 
构 的 相互 作用 已 经 在 第 3 章 定义 了 ， 在 第 5 章 将 要 作 进 一 步 讨 论 。 但是， 在 这 里 先 看 看 其 结 
采 ， 从 而 阐明 我 们 在 选择 问题 规模 时 考虑 空间 相互 作用 的 重要 性 是 有 益 的 。 图 4.5 表明 了 运 
行 在 高 速 缓存 一 致 的 共享 地 址 空间 机 器 上 的 程序 在 使 用 相同 数量 即 p 个 处 理 器 的 情况 下 ， 
对 于 两 种 不 同 的 问题 规模 n (对 256 K 个 整数 和 1 M 个 整数 进行 排序 ) ， 其 扑 空 率 是 如 何 随 





〇 如果 我 们 也 关心 除了 扑 空 率 之 外 同样 受到 尺寸 影响 的 高 速 缓存 的 其 他 行为 方面 的 话 ， 剪 裁 掉 扑 空 率 曲 线 的 扁平 
区 域 则 可 能 是 不 适当 的 。 我 们 在 第 5 章 讨论 高 速 缓存 一 致 性 协议 的 折 中 方案 时 将 会 看 到 一 个 这 样 的 例子 。 
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图 45 问题 规模 和 处 理 器 的 数量 对 基数 排序 的 空间 局 部 性 行为 的 影响 ， 扑 空 率 被 分 成 冷 启动 / 容 
量 型 扑 空 、 真 实 共享 (固有 通信 ) 扑 空 和 由 伪 数 据 共享 引起 的 扑 空 。 对 于 给 定 的 问题 规模 
和 处 理 器 数量 ， 当 块 的 尺寸 增加 时 ， 就 会 出 现 这 么 一 个 点 ， 即 文中 讨论 的 临界 率 比 块 尺寸 
的 多 倍 阔 值 要 小 ， 此 时 就 会 出 现 严重 的 伪 共 享 。 对 于 不 同 问题 规模 ， 这 个 阔 值 效应 在 不 同 
块 尺寸 处 发 生 。 如 果 问 题 规模 保持 不 变 而 处 理 器 的 数量 变化 时 ， 也 可 以 观察 到 类 似 的 效应 
高 速 缓 存 块 的 尺寸 变化 的 。 扑 空 率 中 的 伪 共 享 成 分 随 着 缓存 块 的 尺寸 而 增加 ， 当 它 变 得 显著 
时 ,会 导致 很 多 人 为 的 通信 破坏 该 应 用 的 性 能 。 如 果 给 定 机 器 的 高 速 缓存 块 的 尺寸 ， 伪 共享 
会 不 会 破坏 基数 排序 的 性 能 ， 这 取决 于 问题 的 规模 (比较 具有 64 个 字 节 的 块 的 直方 条 )。 其 
结果 是 对 于 给 定 的 高 速 缓 存 块 尺寸 ， 如 果 问 题 规模 与 处 理 器 数量 的 比值 小 于 某 个 阐 值 时 ， 伪 
共享 成 分 大 ; 反之 ， 当 这 个 比值 较 大 时 ， 伪 共享 不 显著 。 

很 多 应 用 在 空间 局 部 性 与 问题 规模 的 相互 作用 中 显示 了 这 种 阔 值 效应 ; 在 其 他 的 应 用 程 
序 中 ,特别 是 在 很 多 非 规 则 的 应 用 程序 如 Bames-Hut 和 Raytrace 中 ， 其 数据 结构 和 访问 模式 
使 得 空间 局 部 性 不 会 随 着 问题 规模 的 上 升 而 增加 很 多 。 确 认 这 种 阔 值 的 存在 需要 理解 应 用 程 
序 的 局 部 性 以 及 它 和 体系 结构 参数 的 相互 作用 ， 阑 明 评 价 中 的 一 些微 妙 之 处 。 

总 结 一 下 ， 简 单 的 方程 求解 器 说 明了 很 多 执行 特征 对 问题 规模 的 依赖 ， 某 些 特征 在 和 体 
系 结构 参数 的 相互 作用 中 在 阔 值 处 呈现 出 拐点 ， 而 另 一 些 则 没有 呈现 。 对 于 n x n 的 网 格 ， 
p 个 处 理 器 ， 如 果 n/p 的 比率 大 ， 那 么 通信 与 计算 比率 就 低 ， 重 要 工作 集 林 太 可 能 被 处 理 器 
的 高 速 缓存 所 容纳 ， 导 致 容量 型 扑 空 率 高 ; 但 是 即使 是 使 用 一 个 二 维 数组 表示 ， 空 间 局 部 性 
也 很 好 。 当 n/p 小时， 情况 则 相反 : 会 出 现 高 的 通信 与 计算 的 比率 、 差 的 空间 局 部 性 、 伪 
共享 (用 二 维 数组 表示 )， 但 几乎 不 存在 本 地 容量 型 扑 空 。 因 此 主要 的 性 能 瓶颈 从 第 一 种 情 
况 的 本 地 访问 转变 为 后 者 的 通信 。 图 4-6 说 明了 对 于 Ocean 应 用 程序 的 整体 上 的 效应 ，Ocean 
使 用 了 类 似 于 方程 求解 器 的 内 核 。 

其 他 应 用 程序 可 能 会 呈现 出 对 问题 规模 不 同 的 特殊 依赖 性 。 尽 管 为 评价 机 器 而 选择 问题 
的 规模 并 没有 普遍 适用 的 规则 可 循 ， 方 程 求解 器 的 内 核 只 是 一 个 很 小 的 例子 ， 但 本 章 所 给 出 
的 步骤 提供 了 一 个 有 用 的 方法 ， 应 该 能 保证 从 机 器 获得 的 结果 并 不 是 来 自 很 容易 从 程序 中 去 
除 掉 的 人 为 因素 。 如 果 我 们 要 比较 两 台 机 器 ， 选 择 能 在 两 台 机 器 上 进行 上 述 工 作 的 问题 规模 
是 十 分 重要 的 。 尽管 要 考虑 的 问题 很 多 ， 实 验 表 明 、 以 一 个 应 用 程序 评价 规模 固定 的 机 器 所 
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图 4-6 问题 规模 、 处 理 器 的 数目 、 可 被 高 速 缓存 容纳 的 工作 集 的 效应 。 本 图 中 显示 了 在 共享 地 
址 空间 中 ，Ocean 应 用 程序 的 存储 器 行为 的 效应 。 高 速 缓存 扑 空 的 流量 (每 次 浮 点 运算 或 
FLOP 的 字 节 数 ) 被 细 分 为 本 地 的 或 者 说 节点 内 部 的 流量 和 远程 的 或 者 说 经 过 网 络 的 流量 
( 即 通信 )。 由 真实 数据 共享 (固有 通信 ) 所 产生 的 流量 也 单独 给 出 。 远 程 流量 随处 理 器 
的 数目 增加 而 上 升 ， 随 着 问题 从 小 到 大 而 减少 。 对 于 给 定 的 问题 规模 ， 处 理 器 数目 增加 
时 ， 工 作 集 开始 能 被 高 速 缓存 所 容纳 ， 由 本 地 扑 空 占 主导 地 位 转变 为 通信 占 主导 地 位 。 
这 个 变化 发 生 在 较 大 问题 规模 和 较 大 数量 的 处 理 器 的 情况 下 ， 因 为 工作 集 和 n/p 成 比例 。 
如 果 我 们 针对 这 两 种 问题 规模 ， 集 中 观察 8 个 处 理 器 的 情况 ,我 们 可 以 看 到 对 于 小 问题 ， 
流量 主要 是 远程 的 〈 因 为 工作 集 能 装 人 高 速 缓存 ) ， 而 对 于 较 大 的 问题 ， 流 量 主要 是 本 地 的 


需要 的 问题 规模 的 数目 通常 是 相当 小 的 ， 因 为 只 有 几 个 重要 的 立 值 。 
4.2.4 改变 机 器 的 规模 


现在 假设 我 们 想 要 在 处 理 器 的 数量 变化 时 评价 机 器 的 性 能 。 我 们 已 经 看 到 了 在 不 同 的 扩 
放 模 型 中 如 何 扩 放 问 题 的 规模 ， 以 及 对 由 于 并 行 性 带 来 的 性 能 改善 应 采用 什么 样 的 指标 。 和 下 
下 的 问题 是 ， 在 某 种 机 器 规模 条 件 下 ， 如 何 选择 作为 扩 放 开始 点 的 问题 规模 。 一 个 策略 是 从 
以 前 为 固定 数量 的 处 理 器 所 选择 的 问题 规模 开始 ， 根 据 不 同 的 扩 放 模型 向 上 或 向 下 扩 放 它 
们 。 我 们 可 以 将 基本 问题 规模 的 范围 缩小 为 三 类 : 小 、 中 、 大 , 与 三 种 扩 放 类 型 组 合 将 会 产 
生 9 组 性 能 数据 和 加 速 比 曲线 。 但 是 ， 可 能 需要 注意 当 问题 规模 缩小 时 ， 它 要 保证 能 测试 较 
小 机 器 的 能 力 。 

另外 一 种 策略 是 在 一 个 单 处 理 器 上 从 一 些 精心 选择 的 问题 规模 开始 ， 然 后 在 所 有 3 个 模 
型 从 下 向 上 扩展 它们 ， 这 里 ， 选 择 3 种 单 处 理 器 问题 的 规模 也 是 有 道理 的 。 小 的 问题 应 该 是 
它 的 工作 集 能 容纳 于 单 处 理 器 高 速 缓存 的 问题 ， 这 个 问题 在 大 机 器 上 的 问题 约束 (PC) 扩 
放 情 况 下 不 是 很 有 用 ; 但 是 在 存储 器 约束 (MC) 扩 放 下 或 许 甚至 在 时 间 约束 (TC) 扩 放 下 
它 应 该 是 没 问题 的 。 大 问题 应 该 是 其 重要 工作 集 不 能 被 单 处 理 器 的 高 速 缓存 所 容纳 的 问题 ， 
如 果 这 对 于 应 用 来 说 是 切合 实际 的 话 。 在 PC 扩 放 下 ， 工 作 集合 可 能 在 某 些 点 能 够 容纳 于 高 
速 缓 存 〈 如 果 它 随 着 处 理 器 个 数 的 增加 而 收缩 ); 而 在 MC 扩 放 下 ， 工 作 集 不 大 可 能 被 高 速 
缓存 所 容纳 ， 它 可 能 不 断 地 产生 由 容量 型 扑 空 造成 的 流量 。 大 问题 的 一 个 合理 选择 是 使 它 充 
满 单 个 节点 的 几乎 所 有 内 存 或 者 在 节点 上 运行 很 长 时 间 。 因 此 ， 在 MC 扩 放 下 ， 即 使 是 在 大 
系统 中 ， 它 也 会 充满 几乎 整个 内 存 。 中 等 规模 问题 的 选择 是 在 大 小 两 者 之 间 做 出 一 个 明智 的 
选择 ， 如 果 可 能 它 也 要 在 单 处 理 器 上 运行 相当 长 的 时 间 。 一 个 突出 的 问题 是 ， 如 何在 不 产生 
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超 线性 加 速 比 问题 的 前 提 下 ， 对 于 不 能 容纳 于 单个 节点 的 内 存 的 问题 规模 探索 PC 扩 放 。 这 
里 ， 一 种 解决 方案 是 简单 地 选择 这 样 一 个 问题 规模 ， 不 是 相对 于 单 处 理 器 ， 而 是 相对 于 多 个 
处 理 器 测量 加 速 比 对 于 多 个 处 理 嚣 而 言 ， 该 问题 确实 能 被 存储 髓 所 容纳 。 


4.2.5 选择 性 能 指标 


在 评价 和 比较 机 器 时 的 一 个 重要 的 问题 是 应 该 使 用 的 特定 指标 ， 正 如 没有 适当 地 选择 工 
作 负 载 和 参数 很 容易 产生 误导 一 样 ， 没 有 用 有 意义 的 方法 测量 和 表示 结果 也 很 容易 得 出 错误 
的 印象 。 总 之 ， 代 价 和 性 能 都 是 比较 机 器 和 评价 性 能 的 重要 指标 。 在 评价 机 器 随 着 资源 O 
如 ， 处 理 器 和 存储 器 ) 的 增加 是 否 能 很 好 地 扩 放 时 ， 我 们 关心 的 不 仅仅 是 性 能 如 何 提高 ， 而 
上 且 也 关心 代价 如 何 增加 。 即 使 加 速 比 的 提高 比 线性 提高 要 小 得 多 ， 如 果 运 行程 序 所 需要 的 次 
源 的 代价 增加 得 没有 加 速 比 增加 得 那么 快 的 话 ， 那 么 使 用 较 大 的 一 些 机 器 所 花费 的 代价 的 确 
是 值得 的 《Wood and Hill 1995)。 总 的 来 讲 ， 一 些 对 代价 和 性 能 的 综合 测量 比 简单 的 性 能 测 
量 更 合适 。 但 是 ， 我 们 可 以 分 别 测量 代价 和 性 能 ， 代 价 在 相当 程度 上 依赖 于 市 场 ， 因 此 在 这 
里 主要 关心 的 是 性 能 测量 的 指标 。 

绝对 性 能 和 由 于 并 行 性 产生 的 性 能 改善 两 者 都 是 有 用 的 指标 ， 这 里 ， 我 们 考察 一 下 使 用 
这 些 指 标 来 评价 机 器 ， 特 别 是 比较 机 器 时 的 一 些 细致 的 问题 并 考虑 其 他 一 些 基 于 处 理 速率 
(比如 ， 每 秒 百 万 次 浮 点 操作 (megaflop)) 、 资 源 使 用 、 问 题 规模 ， 而 不 是 直接 基于 工作 量 和 
时 间 的 指标 的 作用 。 某 些 指标 显然 是 十 分 重要 的 ， 应 该 总 是 提供 ， 而 另外 一 些 指标 的 使 用 却 
取决 于 我 们 以 后 要 干什么 以 及 我 们 所 工作 的 环境 。 

1. 绝对 性 能 

对 于 系统 的 用 户 来 说 ， 绝 对 性 能 是 他 最 关心 的 性 能 指标 。 假 设 执行 时 间 是 我 们 关于 绝对 
性 能 的 指标 ， 可 以 用 不 同 的 方法 测量 时 间 。 首 先 ， 对 于 一 个 工作 负载 ， 在 用 户 时 间 和 墙 钟 时 
间 之 间 要 做 出 选择 。 用 户 时 间 是 机 器 花 在 执行 工作 负载 上 的 时 间 ， 不 包括 系统 行为 和 其 他 可 
能 分 时 共享 机 器 的 程序 。 墙 钟 时 间 是 指 运行 工作 负载 而 流逝 的 全 部 时 间 ， 包 括 所 有 与 此 相关 
的 行为 。 其 次 ， 存 在 的 另 一 个 问题 是 在 程序 的 全 部 进程 中 使 用 平均 执行 时 间 还 是 最 大 执行 
时 间 。 

因为 用 户 最 终 关心 的 是 墙 钟 时 间 ， 在 比较 系统 的 时 候 ， 我 们 必须 测量 和 表示 它 。 但 是 ， 
如 果 其 他 用 户 程序 (不 只 是 操作 系统 ) 作为 多 道 程序 和 该 程序 的 执行 相互 打扰 的 话 ， 那 么 墙 
钟 时 间 并 不 能 帮助 我 们 理解 性 能 瓶颈 。 注 意 ， 在 这 种 情况 下 ， 那 个 程序 的 用 户 时 间 也 不 会 很 
有 用 ， 因 为 与 不 相关 进程 的 交错 执行 会 破坏 程序 的 存储 器 系统 的 相互 作用 以 及 它 的 同步 和 负 
载 平 衡 行为 。 因 此 ,不管 我 们 是 否 为 了 增强 理解 而 提供 更 详细 的 信息 ， 我 们 总 是 应 该 提交 雯 
钟 时 间 ， 同 时 描述 执行 的 环境 〈 批 处 理 程序 或 多 道 程序 )。 如 果 我 们 想 要 理解 一 个 特殊 应 用 
的 性 能 ， 我 们 应 该 在 只 有 操作 系统 介入 的 情况 下 独立 地 运行 它 。 

同样 ， 因 为 直到 最 后 一 个 进程 结束 时 ， 并 行程 序 才 结 束 ， 正 是 到 达 这 一 点 的 时 间 很 重 
要 ， 而 不 是 进程 的 平均 时 间 。 用 平均 时 间 的 概念 容易 忽略 不 平衡 。 当 然 ， 如 果 我 们 真正 想 理 
解 性 能 瓶颈 ， 我 们 会 愿意 看 一 看 所 有 进程 的 执行 性 态 (或 者 至 少 一 个 采样 ) 分 解 成 不 同 的 时 
间 成 分 的 情况 〈 如 图 3-12)。 执 行 时 间 的 组 成 成 分 说 明了 为 什么 一 个 系统 比 另外 一 个 系统 性 
能 好 ， 工 作 负 载 对 于 研究 是 否 合适 〔 例 如， 未 受到 负载 失衡 的 限制 )。 











BAF LH ÄRIS GH EH 165 





2. 性 能 的 改进 或 者 加 速 

对 任何 一 个 扩 放 模型 测量 加 速 比 时 的 一 个 问题 是 加 速 比 的 分 子 ， 即 单个 处 理 器 的 性 能 ， 
应 该 实际 测量 什么 。 我 们 有 4 种 选择 : 

1) 在 并 行 机 器 的 一 个 处 理 器 上 并 行程 序 的 性 能 。 

2) 在 并 行 机 器 的 一 个 处 理 器 上 同一 算法 的 串 行 实现 的 性 能 。 

3) 在 并 行 机 器 的 一 个 处 理 器 上 对 于 同一 问题 最 优 的 串 行 算法 和 程序 的 性 能 。 

4) 在 公认 的 一 台 标准 机 器 上 最 佳品 行程 序 的 性 能 。 

1) 和 2) 的 区 别 在 于 ， 即 使 是 在 单 处 理 器 上 运行 并 行程 序 也 会 产生 额外 的 开销 ， 因 为 
它 执行 了 同步 操作 、 并 行 性 管理 指令 或 产生 划分 的 代码 或 者 甚至 是 为 了 省 略 这 些 操作 所 做 的 
测试 。 这 个 额外 开销 有 时 候 会 相当 显著 。2) 和 3) 的 区 别 在 于 最 佳 串 行 算法 的 并 行 化 可 能 
无 法 或 难以 有 效 地 实现 ， 所 以 并 行程 序 所 使 用 的 算法 会 有 别 于 最 佳 的 串 行 算法 。 

从 用 户 的 观点 看 ， 使 用 3) 所 定义 的 性 能 显然 会 导致 比 1) 和 2) 更 好 和 更 加 精确 的 加 速 
比 指标 。 但 是 ， 从 体系 结构 设计 者 的 观点 看 ， 在 很 多 情况 下 使 用 定义 2) 是 可 行 的 。 定 义 4) 
将 机 器 的 单 处 理 器 的 性 能 融合 进来 ， 因 此 会 产生 和 绝对 性 能 相 类 似 的 比较 指标 。 

3. 处 理 速率 

一 个 经 常 引用 的 表现 机 器 性 能 特征 的 指标 是 每 单位 时 间 内 执行 的 计算 机 操作 的 数量 
《计算 机 操作 与 在 应 用 层 有 意义 的 操作 ， 比 如 事务 处 理 或 者 化 学 结合 不 同 ) 。 经 典 的 例子 是 用 
于 浮 点 运算 密集 型 程序 的 MFLOPS (每 秒 百 万 次 浮 点 操作 ) 和 用 于 -一般 程序 的 MPS (每 秒 百 
万 条 指令 )。 尽 管 它们 在 厂商 的 市 场 宣传 材料 中 很 是 流行 ， 但 是 已 经 有 很 多 人 写 文章 指出 为 
什么 它们 不 是 好 的 通用 性 能 指标 ， 其 基本 的 原因 是 ， 除 非 我 们 使 用 一 个 明确 的 、 独 立 于 机 器 
的 度量 方法 能 够 测量 解决 一 个 问题 所 需要 的 基本 的 FLOP 或 者 指令 的 数目 ， 而 不 是 测量 实际 
执行 的 FLOP 或 指令 的 数目 ， 否 则 这 些 测 量 可 以 人 为 地 膨胀 ; 执行 更 多 的 FLOP， 花 费 很 长 时 
间 的 低级 蛮 干 型 算法 可 能 反而 会 产生 更 高 的 MFLOPS 速率 。 实 际 上 ， 我 们 甚至 可 以 通过 在 代 
码 中 插入 无 用 但 是 廉价 的 操作 来 提高 这 样 的 指标 。 如 果 需 要 的 操作 数目 是 明确 已 知 的 ， 那 么 
使 用 这 些 基 于 速率 的 指标 和 使 用 执行 时 间 没 有 什么 不 同 。MFLOPS 的 其 他 一 些 问题 包括 ; 不 
同 的 浮 点 操作 有 不 同 的 代价 ; 即使 在 浮 点 操作 密集 型 的 应 用 中 ， 现 代 的 算法 也 要 使 用 有 很 多 
整数 操作 的 精巧 的 数据 结构 ; 这 些 指标 还 受到 和 遗留 的 错误 使 用 方式 〈 比 如 ， 公 布 硬件 的 峰值 
速度 而 不 是 实际 的 应 用 达到 的 速度 ) 的 拖累 。 如 果 使 用 得 合适 ， 像 MFLOPS 和 MIPS 这 样 基 
于 速率 的 指标 对 于 理解 基本 硬件 的 能 力 还 是 有 用 的 ， 但 是 若 把 它们 作为 机 器 性 能 的 主要 标志 
使 用 时 ， 我 们 应 该 非常 谨慎 。 

4. 利用 率 

体系 结构 设计 者 有 时 会 以 能 否 让 处 理 引 擎 保持 忙碌 ， 不 断 地 执行 指令 而 不 因为 各 种 额外 
开销 而 停顿 下 来 ， 作 为 衡量 他 的 设计 是 否 成 功 的 标准 。 但 是 ， 现 在 有 一 点 应 该 很 清楚 ， 处 理 
锥 的 利用 率 不 是 用 户 感 兴趣 的 指标 ， 也 不 是 一 个 良好 的 惟一 性 能 指标 。 它 也 可 以 被 人 为 地 扩 
大 ， 有 利于 较 慢 的 处 理 器 ， 对 于 最 终 性 能 或 者 性 能 瓶颈 也 不 能 提供 多 少 有 用 的 信息 。 但 是 ， 
作为 决定 是 否 要 开始 深入 地 探究 程序 或 机 器 中 的 性 能 问题 的 出 发 点 ， 它 可 能 还 是 有 用 处 的 。 
同样 的 论点 也 适用 于 其 他 资源 的 利用 率 。 利 用 率 对 于 决定 一 台 机 器 的 设计 是 否 在 各 种 资源 间 
平衡 以 及 决定 瓶颈 所 在 是 有 用 的 ， 但 是 对 于 性 能 的 测量 和 比较 没有 多 少 用 处 。 
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5. 问题 规模 

另外 一 个 有 趣 的 指标 是 能 够 获得 特定 的 并 行 效 率 的 给 定 应 用 的 最 小 问题 规模 ， 它 被 定义 
为 加 速 比 除 以 处 理 吕 的 数量 (在 给 定 的 扩 放 模型 下 )。 由 于 并 行 性 产生 的 额外 开销 通常 随 着 
问题 规模 而 相对 减 小 ， 改 进 的 通信 体系 结构 的 一 个 好 处 是 运行 较 小 问题 的 能 力 提高 。 在 某 种 
党 义 上 ， 当 处 理 器 数量 增加 时 保持 并 行 效率 不 变 产 生 了 一 种 新 的 扩 放 模型 我 们 称 之 为 效率 
约束 扩 放 。 当 然 ， 这 个 指标 必须 要 小 心 使 用 ， 因 为 容量 效应 可 能 主导 了 通信 的 差别 ， 而 小 问 
题 可 能 无 法 帘 出 系统 的 重要 方面 。 并 行 效率 是 有 用 的 ， 但 不 是 一 个 通用 的 性 能 指标 。 

6. 性 能 改善 的 百分比 

人 们 有 时 使 用 的 一 个 用 于 评价 因 某 个 体系 结构 特性 带 来 的 性 能 改善 的 指标 是 执行 时 间或 
该 特性 所 提供 的 加 速 比 被 改善 的 百分比 。 如 果 没 有 提 到 原来 的 并 行 性 能 (如 原来 的 加 速 比 )， 
这 种 指标 会 在 并 行 系统 中 起 误导 作用 。 比 如 ， 在 一 个 1 024 个 处 理 器 的 系统 中 把 加 速 比 从 
400 提高 到 800 和 把 加 速 比 从 1.1 提高 到 2.2 两 者 的 改进 百分比 相同 ， 但 是 后 者 对 于 一 个 有 
1 024 个 处 理 器 的 系统 来 讲 ， 是 没有 什么 意义 的 。 如 果 问 题 的 规模 是 导致 加 速 比 差 的 原因 ， 
那么 用 提高 问题 规模 来 产生 很 好 的 加 速 比 却 经 常会 严重 地 降低 由 特性 所 获得 的 改进 。 同 样 ， 
这 个 指标 是 有 价值 的 ， 但 是 必须 由 其 他 指标 予以 补充 以 避免 误导 。 

总 之 ， 代 价 和 性 能 都 是 需要 考虑 的 重要 因素 。 从 用 户 的 观点 来 比较 机 器 ， 最 感 兴趣 的 性 
能 指标 是 墙 钟 执行 时 间 。 但 是 ， 从 系统 设计 师 和 力图 理解 程序 的 性 能 的 编程 人 员 ， 或 者 甚至 
从 那些 对 机 器 性 能 有 更 为 普遍 性 兴趣 的 用 户 的 观点 看 ， 最 好 是 看 一 下 执行 时 间 和 加 速 比 。 这 
两 种 指标 都 应 该 在 任何 研究 的 结果 中 提交 。 理 想 的 做 法 是 ， 应 该 像 在 3.4 节 中 讨论 的 那样 ， 
把 执行 时 间 分 解 成 主要 的 组 成 成 分 。 为 了 理解 性 能 瓶颈 ， 以 每 个 进程 为 基础 观察 这 种 执行 时 
间 的 成 分 分 解 ， 或 将 其 看 作 平 均 及 进程 间 分 散 程 度 的 某 种 度量 (简单 的 平均 是 不 够 的 ) 是 非 
常 有 用 的 。 在 评价 变化 对 于 通信 体系 结构 的 影响 ， 或 者 比较 基于 相同 底层 节点 的 并 行 机 器 
时 ， 诸 如 实现 一 定 目标 所 需 的 最 小 问题 规模 ， 这 样 的 基于 规模 或 者 基于 配置 的 指标 是 有 用 处 
的 。 像 MFLOPS、MIPS 和 处 理 器 利用 率 这 样 的 指标 可 以 用 于 特定 的 目的 ， 但 是 仅 用 它们 来 表示 
性 能 则 需要 关于 表示 者 的 知识 和 完整 性 的 很 多 假设 ， 它 们 也 受到 遗留 的 不 当 使 用 方式 的 拖累 。 


4.3 对 一 个 体系 结构 概念 或 设计 权衡 的 评估 


假设 你 是 一 个 计算 机 公司 的 系统 设计 师 ， 准 备 设计 下 一 代 的 多 处 理 器 系统 。 你 萌发 了 关 
于 体系 结构 的 一 个 新 的 概念 ， 要 决定 是 否 把 它 包含 在 将 要 设计 的 机 器 中 。 对 于 上 一 代 机 器 的 
性 能 和 瓶 项 ， 你 可 能 有 丰富 的 信息 ， 这 实际 上 可 能 是 促使 你 进一步 研究 这 个 概念 的 最 初 动 
因 。 但 是 ， 你 的 概念 和 所 拥有 的 数据 并 不 全 是 新 的 。 从 上 一 代 机 器 问世 以 来 ， 从 集成 的 层次 
到 多 处 理 器 使 用 的 高 速 缓存 的 规模 以 及 组 成 结构 ， 技 术 已 经 发 生 了 变化 。 你 将 要 使 用 的 处 理 
妖 可 能 不 仅仅 是 快 得 多 ， 而 且 也 要 复杂 得 多 比如， 动态 调 度 的 四 路 指令 发 射 和 静态 调度 的 
单 指令 发 射 之 比较 )， 它 的 新 的 能 力 可 能 会 影响 你 现在 的 新 概念 。 操 作 系 统 也 可 能 发 生 了 变 
化 ， 同 样 编译 器 、 甚 至 是 有 意义 的 工作 负载 也 都 会 发 生变 化 ， 而 且 这 些 软 件 成 分 可 能 在 机 器 
实际 建造 和 售 出 之 前 还 会 进一步 变化 。 你 所 感 兴趣 的 特性 要 求 的 硬件 ， 特 别 是 其 设计 时 间 的 
代价 相当 昂贵 ， 而 且 你 还 要 赶 在 截止 期 之 前 完成 它 。 

在 如 此 众多 的 巨大 变化 下 ， 你 所 拥有 的 用 于 做 出 有 关 性 能 和 代价 决定 的 数据 的 有 效 性 是 
令 人 怀疑 的 。 你 最 多 可 以 把 它们 和 你 的 直觉 探 合 在 一 起 使 用 ， 做 出 有 见解 、 有 素养 的 猜测 。 
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但 是 如 果 特 性 的 代价 高 ， 你 可 能 希望 再 多 做 一 些 事 情 。 你 所 能 做 的 是 构造 一 个 能 模拟 你 的 系 
统 的 模拟 器 。 你 还 需要 将 其 他 所 有 的 东西 一 一 编译 器 、 操 作 系统 、 处 理 器 、 技 术 和 体系 结构 
参数 一 一 固定 在 它们 希望 的 配置 上 ， 只 用 你 所 感 兴趣 但 尚 不 具备 的 特性 来 模拟 系统 ， 然 后 提 
交 结 果 ， 判 断 它 对 性 能 的 影响 。 然 后 ， 你 或 许 应 该 检查 一 下 你 已 经 固定 了 的 某 些 方面 的 敏感 
性 , 但 是 这 些 可 能 不 容易 预测 。 

为 并 行 系统 构造 精确 的 模拟 器 是 困难 的 。 很 多 在 扩展 的 存储 器 层次 结构 上 的 复杂 交互 
很 难 被 正确 地 模拟 ， 特 别 是 那些 与 资源 占用 和 竞争 有 关 的 交互 更 是 如 此 。 处 理 器 本 身 变 得 更 
加 复杂 ， 精 确 的 模拟 要 求 它们 也 必须 在 细节 上 被 模拟 。 但 是 ， 即 使 你 能 够 设计 一 个 非常 精确 
的 模拟 器 来 模拟 你 的 设计 ， 你 仍然 有 一 个 大 问题 ， 即 模拟 是 昂贵 的 ， 它 要 占用 大 量 的 存储 器 
和 时 间 ， 特 别 是 当 模拟 大 的 问题 和 机 器 时 。 这 意味 着 你 不 能 模拟 真实 大 小 的 问题 和 机 器 规 
模 ， 你 必须 设法 适度 地 缩小 模拟 的 规模 ， 

甚至 连 你 的 技术 参数 也 可 能 是 不 国定 的 ， 你 从 一 张 白 纸 开 始 ， 想 知道 在 不 同 的 技术 假设 下 
你 的 概念 工作 得 如 何 。 现 在 ， 除 了 前 面 的 工作 负载 、 问 题 规模 、 机 器 规模 几 个 坐标 轴 外 ， 机 器 
参数 也 可 以 变化 。 这 些 参 数 包括 本 地 存储 器 层次 结构 中 各 层 的 规模 和 组 成 结构 ; 分 配 、 通 信和 
一 致 性 的 粒度 ; 时 延 、 占 用 率 和 带宽 等 通信 体系 结构 的 性 能 特征 。 这 些 参数 和 那些 工作 负荷 的 
参数 一 起 产生 了 你 必须 遍历 的 巨大 的 参数 空间 。 模 拟 的 高 代价 和 种 种 限制 使 得 剪裁 这 个 设计 空 
间 而 又 不 失去 太 多 的 覆盖 更 加 的 重要 。 本 节 将 讨论 在 模拟 研究 中 ， 选 择 参 数 和 剪裁 设计 空间 的 
方法 上 的 考虑 ， 使 用 一 个 特别 的 评价 作为 例子 。 首 先 ， 让 我 们 快速 地 看 一 下 多 处 理 器 的 模拟 。 


4.3.1 多 处 理 器 的 模拟 


尽管 是 要 模拟 多 个 进程 和 处 理 节点 ， 模 拟 本 身 却 可 以 在 一 个 单 处 理 器 上 运行 。 一 个 叫做 


访问 生成 器 的 部 件 扮演 了 并 行 机 器 中 处 理 器 的 角色 。 它 模拟 了 处 理 器 的 行为 ， 产 生 对 存储 器 
的 访问 (同时 带 有 表明 访问 是 来 自 哪个 处 理 器 的 进程 标识 ) 或 者 对 模拟 存储 器 系统 和 互连网 
络 的 模拟 器 的 命令 〈 比 如 发 送 或 接收 ， 见 图 4-7) 。 如 果 是 在 单 处 理 器 上 运行 模拟 ， 被 模拟 的 
不 同 进程 分 时 共享 该 单 处 理 器 ， 由 访问 生成 器 进行 调度 。 一 个 调度 的 例子 是 每 当 进 程 发 出 对 





访问 生成 器 存储 器 和 互连网 络 模拟 器 


图 47 执行 驱动 的 多 处 理 器 模拟 。 被 模拟 的 处 理 器 发 出 对 存储 器 系统 模拟 器 
的 访问 ， 存 储 器 系统 模拟 器 模拟 扩展 的 存储 器 层次 结构 并 且 向 被 模拟 
的 处 理 器 (访问 生成 器 ) 反馈 定时 信息 。$ 1，$ 2 等 表示 高 速 缓存 
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存储 器 系统 的 访问 时 就 让 它 退 出 运行 ， 允 许 另 一 个 进程 开始 运行 ， 直 到 那个 进程 产生 了 它 的 
下 一 次 访问 。 另 外 一 个 调度 的 例子 是 在 每 个 模拟 的 时 钟 周期 中 重新 调度 一 次 进程 。 人 存储 人 句 系 
统 模拟 器 模拟 不 同 处 理 节 点 上 所 有 的 高 速 缓存 、 主 在 以 及 互连网 络 本 身 。 它 对 数据 通路 H 
延 和 竞争 的 模拟 可 以 是 任意 复杂 的 。 

访问 生成 器 〈 处 理 器 的 模拟 器 ) 和 存储 器 系统 模拟 器 之 间 的 耦合 可 以 按照 不 同 的 方式 组 
织 ， 这 取决 于 模拟 所 需要 的 精度 和 处 理 器 模型 的 复杂 程度 。 一 个 选择 是 轨迹 驱动 的 模拟 。 在 
这 种 情况 下 ， 首 先 通 过 在 一 个 系统 上 运行 并 行程 序 获得 每 个 进程 所 执行 的 指令 的 轨迹 ， 运 行 
并 行程 序 的 这 个 系统 可 能 与 被 评价 的 系统 不 同 。 这 个 轨迹 替代 了 访问 生成 器 : 来 自 轨迹 的 指 
令 被 送 入 模拟 目标 多 处 理 器 扩展 的 存储 器 层次 结构 的 模拟 器 。 这 里 ， 耦 合 或 者 信息 流 只 是 单 
方向 的 : 从 访问 生成 器 (这 里 只 是 一 个 轨迹 ) 到 存储 器 系统 模拟 器 。 

模拟 的 另 一 个 更 加 流行 的 形式 是 执行 驱动 的 模拟 ， 它 提供 双向 的 耦合 。 在 执行 驱动 的 
模拟 中 ， 当 存储 器 系统 模拟 器 接收 到 来 自 于 访问 生成 器 〈 现 在 是 一 个 程序 ， 而 不 是 一 个 预先 
决定 的 轨迹 ) 的 访问 或 者 命令 时 ， 它 模拟 在 扩展 存储 器 层次 结构 中 所 经 过 的 访问 路 径 ， 包 括 
和 其 他 访问 的 竞争 ， 并 向 访问 生成 器 返回 满足 该 访问 所 花费 的 时 间 。 和 关于 公平 性 及 保持 同 
步 事件 的 语义 的 考虑 一 起 ， 访 问 生成 器 程序 ， 使 用 这 个 信息 来 决定 下 一 次 调度 哪 一 个 被 模拟 
的 进程 以 及 何 时 从 那个 进程 发 出 下 一 条 指令 。 因 此 ， 从 存储 器 系统 模拟 器 到 访问 生成 器 发 生 
了 反馈 ， 像 在 一 台 真实 的 机 器 中 一 样 ; 这 种 反馈 影响 着 后 者 的 行为 提供 比 轨迹 驱动 的 模拟 更 
高 的 精度 。 为 了 允许 在 事件 和 访问 的 模拟 中 最 大 限度 的 并 行 性 ， 存 储 器 系统 和 网 络 的 大 部 分 
组 成 部 件 也 被 模拟 成 由 模拟 器 调度 的 独立 的 相互 通信 的 线程 。 模 拟 器 维护 一 个 全 局 的 模拟 时 


. 间 ， 即 被 模拟 的 机 器 已 经 看 到 的 虚拟 时 间 ， 而 不 是 模拟 器 本 身 已 经 运行 的 真实 时 间 。 这 正 是 


我 们 在 决定 被 模拟 的 体系 结构 中 工作 负载 的 性 能 时 要 查看 的 时 间 和 赖 以 做 出 调度 决策 的 时 
间 。 除 了 时 间 以 外 ， 模 拟 器 通常 保存 大 量 的 关于 各 种 有 意义 的 事件 的 统计 数据 ， 这 就 提供 了 
丰富 的 详尽 的 性 能 信息 ， 这 些 信息 在 真实 的 系统 中 虽 不 是 不 可 能 获得 ， 但 至 少 也 是 难以 得 到 
的 。 但 是 ， 模 拟 的 结果 可 能 会 因为 缺少 可 信和 性 而 遭 到 正 污 ， 因 为 它 毕竟 只 是 一 次 模拟 。 当 必 
须要 模拟 复杂 的 、 动 态 调度 的 、 多 指令 发 射 的 处 理 器 时 ， 精 确 的 执行 驱动 的 模拟 也 是 要 困难 
得 多 。 习题 4,9 讨论 了 模拟 技术 中 的 一 些 折 中 。 


4.3.2 缩小 模拟 的 问题 和 机 器 参数 的 规模 


如 果 知道 了 模拟 是 用 软件 实现 的 ， 涉 及 很 多 被 非常 频繁 地 重新 调度 的 进程 或 者 线程 ( 精 
度 要 求 越 高 ， 重 新 调度 越 频繁 )， 模 拟 非 常 郧 贵 这 一 事实 就 并 不 令 人 感到 惊奇 了 。 对 模拟 本 
身 的 研究 正在 进行 ， 使 其 加 速 ， 使 用 硬件 仿真 而 不 是 软件 模拟 (Reinhardt et al. 1993; Gold- 
schmidt 1993; Barroso et al. 1995) ， 但 是 所 取得 的 进展 并 不 是 那么 显著 ， 不 能 改变 必须 大 大 缩 
小 参数 的 事实 。 

关于 缩小 问题 和 机 器 参数 的 一 个 转手 的 问题 是 ， 我 们 希望 运行 较 小 问题 的 缩小 规模 的 机 
器 能 代表 运行 较 大 问题 的 全 规模 的 机 器 。 不 幸 的 是 ， 没 有 保证 实现 这 一 点 的 规则 可 循 。 不 管 
怎样 它 是 一 个 重要 的 问题 ， 因 为 这 是 大 多 数 对 体系 结构 折 中 的 评价 中 存在 的 现实 。 我 们 至 少 
应 该 理解 这 种 扩 放 的 局 限 性 ， 认 识 哪 些 参 数 能 被 可 信 地 缩小 ， 而 哪些 不 能 ， 发 展 出 一 些 能 帮 
助 我 们 避免 主要 误区 的 指导 方针 。 让 我 们 先 来 考察 一 下 缩减 问题 规模 和 处 理 器 的 数量 ， 然 后 
解释 一 些 和 低层 次 的 机 器 参数 相关 的 难点 。 再 说 一 遍 ， 为 具体 起 见 ， 我 们 仍然 将 注意 力 集中 
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在 高 速 缓存 一 致 的 共享 地 址 空间 的 通信 抽象 上 。 

1. 问题 参数 和 处 理 器 数量 

先 考虑 问题 参数 。 我 们 应 该 先 找到 那些 如 果 存 在 就 会 严重 影响 模拟 时 间 ， 但 是 却 很 少 影 
响 和 并 行 性 能 相关 的 执行 特征 的 问题 参数 。 一 个 例子 是 很 多 科学 计算 ， 比 如 Ocean 或 者 甚至 


Bames-Hut 所 执行 的 时 间 步 的 数量 ,或 者 是 在 简单 的 方程 求解 器 中 的 迭代 次 数 。 在 时 间 步 之 


间 ， 操 作 的 数据 值 会 起 很 大 的 变化 ， 但 是 行为 特征 不 会 变化 太 大 。 在 这 种 情况 下 ， 我 们 的 模 
拟 可 以 只 运行 少数 几 个 时 间 步 2 。 

不 幸 的 是 ， 很 多 应 用 程序 的 参数 要 影响 和 并 行 性 相关 的 执行 特征 。 当 缩小 这 些 参数 时 ， 
我 们 也 必须 减少 处 理 器 的 数量 ， 因 为 不 这 么 做 的 话 ， 我 们 可 能 会 得 到 完全 没有 代表 性 的 行为 
特征 。 但 是 ， 用 具有 代表 性 的 方法 做 到 这 一 点 是 很 困难 的 ， 因 为 我 们 面临 着 很 多 约束 ， 这 些 
单个 的 约束 都 难以 满足 ， 要 让 它们 彼此 协调 或 许 是 根本 不 可 能 的 。 这 些 纳 束 包括 : 

。 保持 程序 各 阶段 中 花费 的 时 间 分 布 。 用 于 执行 不 同类 型 的 计算 ， 比 如 Bames-Hut 中 树 

的 构造 和 力 计算 阶段 ， 所 花费 的 相对 时 间 量 最 可 能 随 着 问题 和 机 器 的 规模 变化 。 

。 保持 关键 的 行为 特征 。 这 包括 通信 与 计算 的 比率 、 负 载 平 衡 、 时 间 和 空间 局 部 性 ， 

它们 全 都 会 以 不 同 的 方式 扩 放 ! 

。 保持 应 用 程序 参数 之 间 的 规模 扩 放 关系 。 

。 保持 竞争 和 通信 的 模式 ， 这 特别 难 ， 因 为 突 发 性 是 很 难 预见 和 控制 的 。 

一 个 更 加 现实 的 目标 是 ， 当 缩小 规模 的 时 候 ， 不 是 保持 真正 的 代表 性 ， 而 是 至 少 覆 盖 与 
研究 最 关心 的 行为 特征 相关 的 实际 运行 点 的 一 个 范围 ， 避 免 不 切实 际 的 场景 。 因此， 不 能 说 
缩小 规模 的 模拟 是 有 定量 代表 性 的 ， 但 是 可 以 用 它们 来 获得 见识 和 粗略 的 估计 。 有 了 这 个 更 
加 适度 的 目标 ， 让 我 们 假设 我 们 已 经 以 某 种 合理 的 方法 缩小 了 应 用 程序 的 参数 和 处 理 器 的 数 
量 ， 现 在 来 看 看 如 何 扩 放 机 器 的 其 他 参数 。 

2. 其 他 的 机 器 参数 

当 问 题 与 机 器 的 规模 缩小 时 ， 它 们 与 低层 次 的 机 器 参数 的 相互 关系 与 全 规模 问题 时 不 
同 。 所 以 必须 小 心地 调整 这 些 参数 。 

考虑 高 速 缓 存 或 者 复制 存储 器 的 尺寸 。 假 定 我 们 为 方程 求解 器 内 核 所 能 模拟 的 最 大 的 问 
题 和 机 器 的 配置 是 512 x 512 的 网 格 ， 在 16 个 处 理 器 ( 即 每 个 处 理 器 128 KB) 上 和 运行。 如果 
不 缩小 每 个 处 理 器 的 1 MB 高 速 缓存 的 话 ， 将 无 法 表示 重要 工作 集 无 法 容纳 于 高 速 缓存 的 情 
况 。 关 于 扩 放 高 速 缓存 的 关键 点 在 于 ， 必 须 理解 在 所 讨论 的 各 个 实际 或 不 实际 的 工作 点 上 ， 
相关 的 工作 集 如 何 扩 放 (如 图 4-4 所 示 )， 在 此 基础 上 对 高 速 缓存 进行 扩 放 。 一 般 来 说 ， 完 
全 不 调整 高 速 缓存 的 大 小 或 简单 地 根据 数据 集 的 尺寸 或 问题 的 尺寸 按 比 例 缩小 高 速 缓存 是 不 
人 台 适 的 ， 因 为 高 速 缓存 的 大 小 是 与 工作 集 的 尺寸 而 不 是 与 数据 集 或 问题 的 尺寸 最 密切 相关 。 
例 4.6 和 图 4-8 说 明了 如 何 根据 给 定 问题 的 规模 和 机 器 的 尺寸 选择 高 速 缓存 的 大 小 。 我 们 还 
应 该 保证 我 们 所 模拟 的 高 速 缓存 不 会 变 得 非常 小 ， 因 为 这 样 做 会 受到 非 代 表 性 的 映射 和 人 为 





O “当然 ,我 们 现在 应 该 从 测量 中 名 略 初始 化 和 冷 启 动 的 阶段 ， 因 为 在 减少 了 时 间 步 之 后 ， 它 们 在 运行 中 的 影响 就 
要 比 在 实际 情况 下 大 得 多 。 如 果 我 们 希望 在 一 段 长 的 时 间 内 行为 会 发 生 显著 的 变化 ， 正 像 在 Bames-Hut 或 者 其 特 
征 变化 剧烈 的 应 用 中 那样 ， 那 么 ， 我 们 就 可 以 从 一 人 台 具 有 我 们 正在 模拟 的 问题 配置 的 真实 机 器 的 执行 中 周期 性 
地 印 出 程序 的 状态 ， 并 且 以 这 些 印 出 的 状态 作为 输入 数据 集 ， 启 动 几 个 样本 模拟 (在 每 个 样本 模拟 中 ， 不 测量 
冷 启动 )。 也 可 以 用 其 他 的 采样 技术 来 降低 模拟 的 代价 。 
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实际 的 (选择 一 点 》 


实际 的 《执行 
敏感 性 分 析 ) 


不 场 实 际 的 





7K 64K 128K 
高 速 缓存 尺寸 
a) 全 规模 的 问题 和 机 器 b) 规模 缩小 的 问题 和 机 器 





图 4-8 为 缩小 的 问题 和 机 器 选择 高 速 缓存 的 尺寸 。a) 基于 我 们 对 工作 集 的 尺寸 及 扩 放 的 理解 ， 我 
们 首先 决定 工作 集 曲 线 的 哪些 部 分 对 于 在 具有 全 规模 高 速 缓存 的 机 器 上 运行 全 规模 问题 是 
实际 的 。b) 然后 我 们 计划 或 测量 在 当前 模拟 的 较 小 规模 的 问题 和 机 器 上 工作 集 曲 线 看 起 来 
是 怎样 的 ， 剪 掉 相 应 的 不 实际 部 分 ， 对 实际 的 部 分 选取 有 代表 性 的 工作 点 (高速 缓存 的 尺 
F), 方法 与 例 4.4 所 讨论 的 类 似 。 对 于 不 能 被 剪除 的 部 分 ,我们 可 以 进行 必要 的 敏感 性 分 析 
碎片 的 影响 。 除 处 理 器 高 速 缓存 之 外 ， 类 似 的 论点 也 适用 于 复制 存储 器 ， 包 括 那些 仅 保存 通 
信和 数据 的 存储 器 。 

例 4.6 在 Bames-Hut 应 用 中 ,假定 运行 n= 1 M 粒子 的 全 规模 问题 时 最 重要 的 工作 集 
的 尺寸 是 150 KB， 又 假定 目标 机 的 每 个 处 理 器 有 1 MB 高 速 缓 存 ， 而 你 只 能 模拟 具有 
n=16 K 个 粒子 的 执行 情况 。 将 高 速 缓存 的 尺寸 按 数据 集 的 大 小 成 比例 地 缩小 是 否 合适 ? 你 
如 何 选择 高 速 缓存 的 尺寸 ? 

解答 : 回忆 在 第 3 章 中 Bames-Hut 问题 的 最 重要 的 工作 集 按 logn PK, Hn 是 粒子 的 
数量 并 与 数据 集 的 尺寸 成 比例 。150 KB 的 工作 集 可 以 很 容易 地 放 入 目标 机 的 1 MB 高 速 缓存 。 
由 于 其 增长 速率 缓慢 ， 在 真实 问题 中 工作 集 总 是 可 以 存放 在 高 速 缓存 中 。 如 果 在 模拟 中 按 数据 
集 的 大 小 成 比例 地 缩小 高 速 缓 存 的 尺寸 ， 我 们 得 到 的 高 速 缓存 的 尺寸 将 是 1 MB x 16 K/1 M, 或 
者 说 16 KB。 而 被 缩小 了 的 问题 的 工作 集 的 尺寸 是 

150 KB x TE M 
或 者 说 70 KB， 这 显然 不 能 放 人 缩小 后 的 16 KB 的 高 速 缓存 。 所 以 ， 这 种 形式 的 高 速 缓存 的 
扩 放 产生 了 不 能 代表 真实 情况 的 工作 点 。 因 为 我 们 希望 在 实际 中 工作 集 能 放 人 高 速 缓存 ， 我 
们 应 该 选择 足够 大 的 高 速 缓存 尺寸 ， 从 而 总 是 能 容纳 工作 集 。 量 

当 我 们 涉及 到 存储 器 层次 结构 的 更 低层 次 的 参数 时 ， 对 它们 进行 有 代表 性 的 扩 放 变 得 愈 
发 困难 。 例 如 ， 扩 放 和 高 速 缓存 的 相 联 度 之 间 的 关系 非常 难以 预测 ， 通 常 我 们 所 能 做 的 是 不 
去 改变 其 相 联 度 。 这 样 做 的 主要 的 危险 在 于 当 高 速 缓存 的 尺寸 缩 到 非常 小 时 ， 仍 保持 一 个 直 
接 映 射 的 相 联 度 非常 容易 受到 映射 冲突 的 影响 ， 这 在 全 规模 的 高 速 缓存 不 会 发 生 。 除 非 存 在 
着 近乎 完美 的 空间 局 部 性 ， 否 则 与 其 他 一 些 存储 器 和 通信 体系 结构 的 组 织 结构 参数 ， 如 数据 
分 配 的 粒度 、 传 输 和 一 致 性 的 粒度 等 的 相互 关系 也 是 复杂 而 且 不 可 预料 的 。 但 是 保持 这 些 参 
数 不 变 在 很 多 情况 下 会 导致 严重 的 、 非 代表 性 的 人 为 效应 。 在 本 章 的 习题 中 我 们 将 看 到 一 些 
例子 。 最 后 ， 当 通信 的 频 度 和 模式 改变 时 ， 在 保持 代表 性 的 前 提 下 对 时 延 、 占 用 率 和 带宽 等 
性 能 参数 的 适当 缩减 也 非常 困难 。 
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总 之 ,模拟 的 最 好 途径 是 尽 可 能 运行 真实 规模 (如果 规 模 不 太 大 的 话 ) 的 问题 。 当 需要 
缩小 规模 时 ， 为 了 保证 能 覆盖 重要 类 型 的 工作 点 ， 我 们 应 该 注意 那些 已 经 讨论 过 的 指导 方针 
和 可 能 存在 的 误区 ， 同 时 在 推广 结论 时 要 小 心 。 降 低 规模 的 可 信和 度 依赖 于 我 们 对 应 用 的 理 
解 。 一 般 来 说 ， 对 仅仅 要 理解 某 些 体系 结构 特性 是 否 有 益 而 言 ， 使 用 缩小 规模 的 方案 还 是 可 
以 的 ， 但 是 如 果 要 力图 用 它们 来 得 出 关于 全 规模 情况 的 精确 的 定量 结论 是 危险 的 。 


4.3.3 处 理 参数 空间 : 评价 举例 


现在 考虑 在 通用 的 场景 下 试图 评价 某 个 概念 时 所 产生 的 巨大 参数 空间 的 问题 。 为 了 使 讨 
论 具体 化 ， 考 察 一 个 在 模拟 时 我 们 可 能 进行 的 实际 的 评价 。 再 次 假定 一 台 具 有 高 速 缓存 一 至 
特性 的 共享 地 址 空间 的 机 器 ， 其 存储 器 在 物理 上 是 分 布 的 。 其 缺 省 的 通信 机 人 制 是 通过 取 和 存 
实现 的 以 高 速 缓存 的 块 为 单位 的 隐 式 的 通信 ， 但 是 我 们 希望 探索 是 否 能 以 尺寸 较 大 的 消息 作 
为 通信 单位 ， 降 低 端点 的 通信 开销 的 影响 以 及 通信 的 延迟 。 所 以 我 们 希望 了 解 对 这 样 的 体系 
结构 增加 显 式 地 发 送 较 大 的 消息 的 能 力 的 效果 ， 这 种 能 力 叫 做 块 传输 ， 程 序 除了 使 用 以 高 速 
缓存 块 为 单位 的 标准 传输 机 制 之 外 还 可 以 使 用 块 传输 〈 从 而 合并 了 共享 地 址 空间 和 消息 传递 
这 两 个 编程 模型 )。 例 如 ， 在 方程 求解 器 中 ， 进 程 可 以 用 单个 块 传输 向 其 相 邻 的 进程 发 送 它 
的 分 区 的 完整 的 边界 子 行 或 子 列 。 

在 为 这 样 的 评价 选择 工作 负载 时 ， 至 少 应 该 选择 一 些 其 通信 可 以 被 组 织 成 较 大 的 消息 的 
负载 ， 例 如 方程 求解 器 。 更 为 困难 的 问题 是 如 何 覆盖 参数 空间 。 我 们 的 目标 是 三 重 的 ; 

1) 避免 不 切实 际 的 执行 特征 。 应 该 避免 那些 能 导致 不 真实 行为 的 特征 ， 即 在 机 器 的 实 
际 使 用 中 不 会 磁 到 的 行为 的 参数 组 合 (或 运行 点 )。 

2) 获得 对 真实 执行 特征 的 良好 窗 盖 。 应 该 尽量 保证 那些 在 实际 应 用 中 会 出 现 的 重要 特 
征 能 被 表示 出 来 。 

3) 剪 载 参数 空间 。 即 使 是 在 参数 值 的 实际 子 空间 内 ， 为 了 在 不 损失 多 少 材 盖 度 的 前 提 
下 节约 时 间 和 资源 ， 同 时 也 为 了 决定 何 时 需要 做 直接 的 敏感 性 分 析 ， 也 应 该 基于 对 应 用 的 理 
解 ， 在 人 允许 的 情况 下 尽量 剪 去 工作 点 。 

我 们 能 根据 研究 的 目标 、 技 术 或 特定 硬件 构造 模块 的 使 用 ) 对 参数 的 限制 和 对 参数 相 
互 作用 的 理解 来 剪裁 参数 空间 。 

让 我 们 用 方程 求解 器 为 例 来 体验 一 次 选择 参数 的 过 程 。 虽 然 应 该 对 参数 逐个 考察 ， 但 在 
较 晚 的 阶段 出 现 的 问题 可 能 迫使 我 们 重新 考虑 较 早 时 所 做 出 的 决定 。 首 先 选 定 问题 的 规模 和 
处 理 器 的 数量 ， 因 为 这 些 是 最 受 模拟 资源 的 限制 的 。 

1. 问题 规模 和 处 理 器 数量 

在 选择 问题 的 规模 和 处 理 器 数量 时 应 该 考虑 程序 的 固有 的 特征 ， 这 些 特 征 在 关于 实际 的 
机 器 的 评价 和 缩减 模拟 的 规模 的 讨论 中 已 经 涉及 。 例 如 ， 如 果 间 题 足够 大 从 而 使 通信 与 计算 
之 比 非常 小 的 话 ， 那 么 块 传输 无 助 于 改善 整体 的 性 能 ; 如 果 问 题 足够 小 ， 从 而 使 负载 失衡 成 
为 主要 的 瓶颈 时 ， 采 用 块 传输 也 无 济 于 事 。 

现在 把 方程 求解 器 的 问题 规模 固定 为 514 x 514 的 网 格 ， 处 理 器 的 数量 为 16， 然 后 考察 
如 何 选择 其 他 参数 。 

2. 高 速 缓存 /复制 的 尺寸 

按照 惯例 ， 我 们 根据 对 工作 集 曲 线 的 了 解 来 选择 高 速 缓存 的 尺寸 。 如 果 给 定 了 工作 集 曲 
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线 以 及 工作 集 如 何 扩 放 的 知识 ， 则 为 给 定 的 问题 选择 高 速 缓存 的 过 程 与 例 4.7 所 讨论 的 根据 
给 定 的 高 速 缓存 尺寸 选择 问题 规模 的 过 程 相 类 似 。 

例 4.7 图 4-9 给 出 了 方程 求解 器 的 良好 定义 的 工作 集 。 在 这 种 情况 下 你 如 何 选 择 高 速 
缓存 的 尺寸 ? 

解答 : 虽然 重要 工作 集 的 尺寸 通常 取决 于 应 用 的 参数 和 处 理 器 的 数量 ， 但 它们 的 性 质 和 
工作 集 曲 线 的 形状 并 不 随 这 些 参数 而 变化 。 因 为 我 们 知道 在 方程 求解 器 中 各 个 重要 工作 集 的 
尺寸 以 及 它们 如 何 随 参数 而 变化 ， 如 果 我 们 也 知道 对 于 目标 机 而 言 真实 的 高 速 缓存 尺寸 的 范 
围 ， 那 么 我 们 就 能 够 了 解 1) 期 望 工作 集 在 实际 情况 下 能 容纳 于 高 速 缓存 是 否 是 不 切实 际 
的 ; 2) 期 望 工作 集 不 能 容纳 于 高 速 缓 存 是 否 是 不 切实 际 的 ;，3) 期 望 工作 集 在 参数 值 的 某 些 
实际 组 合 下 能 容纳 于 高 速 缓 存 ， 而 在 男 一 些 组 合 下 不 能 被 容纳 ? ， 这 种 期 望 是 否 是 切合 实际 
的 。 所 以 我 们 能 分 辨 曲线 的 拐点 之 间 哪 些 区域 代 表 了 实际 的 人 情况， 哪些 不 能 代表 。 对 于 给 定 
的 问题 的 规模 和 处 理 器 的 数量 ， 我 们 可 以 使 用 (固定 的 ) 工作 集 曲线 来 选择 能 避免 非 代 表 性 
区 域 的 高 速 缓存 的 尺寸 ， 覆 盖 代 表 性 的 区 域 并 通过 从 中 选择 单一 高 速 缓存 尺寸 来 剪裁 扁平 的 
KR (如 果 我 们 关心 的 只 是 高 速 缓存 的 扑 空 率 ) 。 国 
Xoo 操作 点 

X 不 切实 际 的 操作 点 


O @ 实际 的 操作 点 
@ 表示 现实 的 操作 点 
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高 速 缓存 尺寸 


图 49 为 使 用 方程 求解 器 内 核 的 评价 来 选择 高 速 缓存 的 尺寸 。 拐 点 1 大 致 对 应 一 对 BR nN pt 
的 子 行 ， 取 决 于 格 的 遍历 是 否 被 阻塞 (对 于 Bx B 的 块 尺寸 )。 损 点 2 对 应 于 一 个 处 理 器 上 的 
矩阵 的 分 区 〈 即 数据 集 n 除 以 p)。 后 者 的 工作 集 根据 n 和 p 能 否 被 高 速 缓存 所 容纳 ， 所 以 
了 和 2Z 两 者 都 是 真实 的 工作 点 ， 必 须 被 表示 。 对 于 第 一 种 情况 的 工作 集 ， 如 果 遍 历 未 被 阻塞 ， 
它 就 不 能 被 高 速 缓存 容纳 ， 但 是 在 实际 中 我 们 知道 有 大 的 二 级 高 速 缓存 ， 这 种 情况 不 大 可 能 
发 生 。 如 果 遍 历 被 阻塞 ， 选择 块 尺寸 B 从 而 使 第 一 种 情况 的 工作 集 总 是 能 被 高 速 缓存 所 容纳 。 
所 以 工作 点 下 代表 了 不 切实 际 的 区 域 ， 因 此 被 名 略 。 分 块 矩阵 计算 的 情况 在 这 方面 与 此 类 似 


一 个 重要 工作 集 是 否 能 被 容纳 于 高 速 缓存 以 一 种 有 意思 的 方式 严重 影响 块 传输 所 带 来 的 
好 处 ， 其 效应 取决 于 工作 集 是 否 包含 本 地 或 非 本 地 分 配 的 数据 。 如 果 它 主要 由 本 地 数据 组 
成 ， 正 如 数据 适当 分 布 的 方程 求解 器 的 情况 ， 但 是 它 又 不 能 被 高 速 缓存 所 容纳 ， 处 理 器 将 由 
于 在 本 地 存储 器 系统 上 受阻 而 花费 更 多 的 时 间 。 其 结果 是 通信 时 间 变 得 相对 地 不 重要 ， 块 传 
输 没 有 多 大 帮助 〈 块 传输 的 数据 对 节点 的 本 地 流量 的 打扰 更 多 ， 产 生 竞 争 ) 。 然 而 ， 如 果 工 
作 集 主 要 包含 非 本 地 数据 ， 我 们 将 获得 正面 的 效应 : 如 果 它 们 不 能 被 高 速 缓存 所 容纳 ， 就 会 
有 更 多 的 通信 ， 因 此 块 传输 就 有 更 大 的 机 会 帮助 性 能 的 改善 。 











O 给 定 尺 十 的 工作 集 能 否 被 高 速 缓存 所 容纳 除了 取决 于 高 速 缓存 的 尺寸 外 ， 还 取决 于 高 速 缓存 的 相 联 度 和 抉 的 尺 
才 ， 但 是 如 果 我 们 假设 至 少 2 路 的 相 联 度 的 话 ， 它 在 实际 中 通常 不 是 主要 的 问题 (我 们 在 较 晚 些 时 候 将 看 到 这 
一 点 ) ， 所 以 我 们 现在 忽略 这 些 效应 。 
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AHA, (Ee Bi ot Fas A A) LE 4-10a) ， 若 知道 哪些 区 域 是 不 切实 际 的 ， 
就 能 像 以 前 那样 前 切 整个 的 区 域 。 但 是 ， 如 果 区 域 是 切合 实际 的 但 不 是 扁平 的 或 在 整个 数据 
集 能 被 高 速 缓存 容纳 之 前 不 存在 任何 拐点 〈 如 图 4-10b) ， 那 么 必须 求助 于 敏感 性 分 析 ， 挑 拒 
出 靠近 极端 的 点 以 及 其 间 的 某 些 点 。 再 强调 一 下 ， 适 当 的 分 析 要 求 我 们 很 好 地 理解 应 用 的 关 
键 特征 。 


it 
扑 空 率 





高 速 缓存 尺寸 高 速 缓存 尺寸 
a) 拐点 左边 部 分 不 是 扁平 的 b) 对 实际 的 高 速 组 存 不 存在 扁平 区 域 


图 4-10 不 含 被 扁平 区 域 所 分 隔 的 陡峭 损 点 的 扑 空 率 和 高 速 缓存 尺寸 对 照 的 曲线 


剩 下 的 问题 是 如 何 决定 拐点 的 尺寸 和 拐点 之 间 工 作 集 曲 线 的 形状 。 在 简单 的 情况 下 ， 我 
们 可 以 解析 地 完成 这 一 任务 。 但 是 ， 算 法 复杂 ， 常 数 因子 难以 预测 ， 高 速 缓存 的 尺寸 和 相 联 
度 的 效应 难以 分 析 。 在 这 样 的 情况 下 ， 可 以 通过 在 给 定 问题 规模 和 处 理 器 数量 的 条 件 下 测量 
(模拟 ) 不 同 的 高 速 缓存 尺寸 来 获得 曲线 。 所 需要 的 模拟 相对 来 说 代价 不 大 ， 因 为 工作 集 的 
尺寸 并 不 依赖 于 详细 的 与 定时 相关 的 因素 ， 例 如 时 延 、 带 宽 、 占 用 率 和 竞争 ， 所 以 这 些 因素 
并 不 需要 仔细 地 加 以 模拟 (或 根本 无 需 模 拟 )。 工 作 集 如 何 随 问 题 的 规模 和 处 理 器 的 数量 而 
变化 也 能 够 被 适当 地 加 以 分 析 或 测量 。 幸 运 的 是 ， 对 增长 速率 的 分 析 通常 比 预见 常数 因子 要 
容易 。 而 且 ， 如 果 高 速 缓存 足够 大 且 结 构 合理 的 话 (不 是 直接 映射 的 高 速 缓存 )， 像 块 尺寸 
和 相 联 度 这 样 低层 次 的 问题 通常 也 不 会 改变 工作 集 (Woo et al. 1995), 

3. 高 速 缓 存 块 的 尺寸 和 相 联 度 

除了 问题 规模 、 处 理 器 数量 和 高 速 缓存 的 尺寸 之 外 ， 高 速 缓存 的 块 尺寸 是 决定 块 传输 收 
益 的 男 一 个 重要 参数 ， 但 是 ， 问 题 要 稍微 复杂 一 些 。 对 于 具有 良好 空间 局 部 性 的 程序 而 言 ， 
大 的 高 速 缓存 块 本 身 的 作用 就 类 似 于 小 的 块 传输 ， 使 得 显 式 的 块 传输 相对 不 那么 有 效 。 另 一 
方面 ， 如 有 果 空间 局 部 性 不 好 ， 那 么 当 使 用 读 和 写 通信 时 ， 由 大 高 速 缓存 块 引起 的 额外 流量 
(由 于 碎片 或 伪 共享 ) 会 消耗 掉 比 必须 消耗 的 多 得 多 的 带宽 。 对 于 块 传输 来 说 ， 差 的 空间 局 
部 性 是 否 也 会 浪费 带宽 则 取决 于 块 传输 的 实现 是 将 整个 高 速 缓存 块 还 是 只 将 所 需要 的 字 经 由 
网 络 流水 传送 。 注 意 ， 块 传输 本 身 增加 了 带宽 的 需求 ， 因 为 它 要 在 较 短 的 时 间 内 完成 相同 量 
的 通信 〈 如 果 能 做 到 的 话 )。 所 以 ， 如 果 块 传输 是 以 高 速 缓存 块 流水 传输 实现 的 ， 而 且 空间 
局 部 性 不 好 的 话 ， 当 可 用 的 带宽 有 限时 ， 使 用 块 传输 可 能 非但 无 益 反 而 有 害 ， 因 为 它 可 能 增 
加 对 可 用 带宽 的 竞争 。 

幸运 的 是 ， 由 于 当前 技术 的 约束 或 可 用 于 构造 系统 的 模块 的 限制 ， 通 常 能 够 限制 高 速 组 
行 块 尺寸 增加 的 范围 。 比 如 ， 几 乎 所 有 的 现代 微 处 理 器 都 支持 32 ~ 128 字 节 的 高 速 缓存 块 ， 
而 我 们 可 能 已 经 选择 了 具有 64 字 节 高 速 缓存 块 的 微 处 理 器 。 当 问题 规模 和 高 速 缓存 块 尺 十 
的 相互 作用 产生 阐 值 时 (比如 ， 前 面 提 到 的 基数 排序 的 例子 )， 我 们 应 该 保证 覆盖 阐 值 的 
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两 侧 。 

高 速 缓存 相 联 度 的 影响 的 程度 却 是 很 难 预 见 的 ， 实 际 的 高 速 缓存 的 相 联 度 一 般 较 小 ( 通 
常 最 多 4 路 )， 所 以 能 考虑 的 选择 的 数量 也 少 。 如 果 必 须 选 择 单一 的 相 联 度 的 话 ， 最 好 避免 
使 用 直接 映射 高 速 缓存 〈 至 少 在 远离 处 理 器 的 高 速 缓存 层次 结构 的 最 底层 是 这 样 ) ， 除 非 知 
道 所 涉及 的 机 器 确实 具有 这 样 的 高 速 缓存 。 

4. 通信 体系 结构 的 性 能 参数 

在 讨论 了 整个 存储 器 层次 结构 的 组 成 结构 参数 之 后 ， 让 我 们 考虑 一 下 通信 体系 结构 的 关 
键 性 能 参数 ， 即 额外 开销 、 网 络 延迟 或 通过 时 间 以 及 它们 如 何 影响 块 传输 的 收益 。 我 们 应 该 
基于 我 们 对 所 涉及 的 真实 系统 的 期 望 来 选择 这 些 参数 的 基础 值 ， 而 这 种 理解 有 助 于 我 们 决定 
哪些 参数 应 该 变化 及 如 何 变 化 。 

一 次 高 速 缓存 块 的 交换 GER) 的 额外 开销 成 分 越 高 ， 以 较 大 的 高 速 缓存 块 传输 来 构 
造 通信 从 而 降低 额外 开销 就 越 重要 。 只 要 开始 一 次 高 速 缓存 块 传输 的 额外 开销 不 会 高 得 抵消 
了 收益 ， 这 样 做 总 是 对 的 ， 因 为 显 式 地 启动 一 次 块 传输 的 额外 开销 可 能 比 隐 式 地 启动 高 速 组 
存 块 传输 的 额外 开销 要 大 。 

出 于 同样 的 考虑 ， 节 点 间 的 网 络 通信 时 间 越 长 ， 通 过 大 块 传输 获得 的 好 处 越 大 (对 这 一 
点 有 限制 ， 我 们 在 第 11 章 详细 考察 块 传输 时 会 讨论 它 ) 。 改 变 时 延 通常 并 不 能 产生 出 现 拐 点 
或 立 值 点 的 效果 ， 所 以 为 了 考察 时 延 的 可 能 的 范围 ， 我 们 必须 通过 在 范围 内 选择 几 个 点 进行 
敏感 性 分 析 。 在 实践 中 ， 我 们 通常 根据 所 涉及 的 机 器 的 目标 时 延 来 选择 时 延 ; 比如 ， 紧 耦合 
的 多 处 理 器 的 时 延 一 般 比 局 域 网 上 的 工作 站 的 时 延 要 小 得 多 。 

可 用 带宽 也 是 我 们 的 块 传输 研究 的 一 个 重要 问题 。 带 宽 也 呈现 很 强 的 拐点 效应 ， 它 实际 
上 是 饱和 效应 ; 或 者 有 足够 的 可 用 带宽 满足 应 用 的 需要 ， 或 者 不 能 满足 。 如 果 能 够 满足 ， 那 
么 可 用 带宽 是 4 倍 还 是 10 倍 于 需要 都 没什么 关系 。 所 以 我 们 能 够 挑选 一 种 小 于 需求 的 带宽 
和 一 种 远 高 于 需求 的 带宽 。 因 为 块 传输 研究 对 带宽 特别 敏感 ， 我 们 也 可 以 选择 靠近 边界 线 的 
带宽 。 在 选择 带宽 的 值 时 ， 我 们 应 该 仔细 地 考虑 应 用 对 带宽 需求 的 突 发 性 ， 员 然 应 用 整体 上 
的 平均 带宽 需求 可 能 不 大 ,但 是 在 它 的 突 发 通信 期 间 仍 然 可 能 使 较 高 的 带宽 饱和 ， 导 致 
竞争 。 

5， 重 新 修 政 选择 

最 后 ， 我 们 可 能 经 常会 根据 较 晚 的 时 候 考虑 的 参数 的 相互 作用 修改 我 们 早期 做 出 的 参数 
值 的 选择 。 比 如 ， 如 果 由 于 缺少 模拟 时 间或 资源 ， 不 得 不 使 用 较 小 的 问题 规模 ， 可 能 试探 使 
用 非常 小 的 高 速 缓存 尺寸 来 表示 重要 工作 集 无 法 被 高 速 缓存 所 容纳 的 真实 场景 。 但 是 ， 选 择 
非常 小 的 高 速 缓 存 可 能 导致 严重 的 人 为 效应 ， 特 别 是 如 果 我 们 使 用 直接 映射 高 速 缓 存 或 大 的 
高 速 缓存 块 尺 十 的话 〈 因 为 这 将 导致 高 速 缓存 中 块 的 数量 很 少 ， 从 而 产生 很 多 碎片 和 映射 冲 
突 )。 所 以 我 们 应 该 重新 考虑 我 们 为 了 表示 这 种 情况 所 做 出 的 问题 规模 和 处 理 器 数量 的 选择 。 


4.3.4 小 结 
前 面 的 讨论 说 明 ， 如 果 我 们 没有 充分 覆盖 参数 选择 空间 的 话 ， 评 价 研究 的 结果 可 能 误 
T: 我 们 可 以 很 容易 地 选择 参数 和 工作 负载 的 一 种 组 合 〈 例 如 ， 相 对 较 小 的 问题 规模 ， 大 的 


高 速 缓存 和 小 的 高 速 缓存 块 尺寸 )， 它 能 证 明 块 传输 这 样 的 特性 可 以 带 来 性 能 上 的 好 处 ; 我 
们 也 可 以 同样 容易 地 选择 另外 的 组 合 证 明 块 传输 没有 优点 。 所 以 ， 在 体系 结构 研究 中 综合 可 
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靠 的 方法 性 的 指导 方针 并 旦 理解 硬件 和 软件 的 有 关 相 互 作用 是 非常 重要 的 。 

尽管 存在 许 许多 多 的 相互 作用 ， 幸 运 的 是 我 们 能 找到 一 些 参 数 和 性 质 ， 它 们 处 于 足够 高 
的 层次 ， 能 够 推理 它们 不 依赖 于 机 器 较 低 层次 的 定时 细节 ， 而 且 应 用 的 关键 行为 特征 又 依赖 
于 这 些 参数 和 性 质 。 我 们 应 该 保证 覆盖 关于 这 些 参数 和 性 质 的 真实 工作 区 域 ， 即 应 用 参数 、 
处 理 器 的 数量 、 工 作 集 和 高 速 缓 存 /复制 尺寸 间 的 关系 (也 就 是 说 ， 重 要 工作 集 是 否 能 容纳 
于 高 速 缓存 )。 基 准 测试 程序 集 应 该 对 它们 的 应 用 提供 基本 的 特征 ， 比 如 并 发 性 、 通 信 计 算 
比 、 数 据 局 部 性 以 及 它们 对 这 些 参数 的 依赖 性 ， 这 样 体系 结构 设计 师 无 需 再 生成 它们 (Woo 
et al. 1995), 

在 应 用 参数 和 体系 结构 参数 的 相互 作用 中 寻找 拐点 和 扁平 区 域 也 是 重要 的 ， 因 为 这 对 覆 
盖 和 剪裁 特别 有 用 。 最 后 ， 研 究 的 高 层次 的 目标 和 约束 也 能 帮助 我 们 剪裁 参数 空间 。 

关于 工作 负载 驱动 的 评价 的 方法 问题 的 讨论 到 此 结束 。 在 本 章 的 剩余 部 分 ， 将 介绍 本 书 
中 最 常 使 用 的 其 余 的 并 行 负载 。 它 也 说 明了 所 有 工作 负载 与 方法 有 关 的 基本 特征 。 


4.4 说 明 工作 负载 的 特征 


本 书 大 量 使 用 工作 负载 来 定量 地 说 明 所 讨论 的 体系 结构 上 的 折 中 ， 并 评价 用 于 开展 案例 
分 析 的 机 器 。 主 要 为 支持 一 致 性 共享 地 址 空间 的 通信 抽象 而 设计 的 系统 在 第 5、6、8 章 中 讨 
论 ， 而 消息 传递 型 和 非 一 致 性 共享 地 址 空间 系统 在 第 7 章 中 讨论 。 我 们 根据 对 应 的 程序 设计 
模型 编写 了 关于 这 些 抽象 的 程序 。 因 为 这 两 种 模型 的 程序 的 编写 有 很 大 不 同 (如 第 2 章 所 
述 )， 而 且 某 些 重要 的 特征 也 是 不 同 的， 我 们 采用 为 一 致 性 共享 地 址 空间 所 编写 的 程序 来 说 
明 工 作 负 载 的 特征 化 。 特 别 要 指出 的 是 ,我们 使 用 了 6 个 以 批 处 理 模式 运行 〈 即 一 次 运行 一 
个 ) 的 不 包含 操作 系统 行为 的 并 行 应 用 和 计算 内 核 以 及 一 个 确实 包含 了 操作 系统 行为 的 多 道 
程序 工作 负荷 。 尽 管 我 们 使 用 的 工作 负载 的 数量 不 多 ， 但 这 些 应 用 代表 了 重要 的 计算 类 型 ， 
具有 变化 范围 大 的 特征 。 


4.4.1 工作 负载 案例 分 析 


我 们 用 于 共享 地 址 空间 体系 结构 的 所 有 并 行程 序 取 自 SPLASH-2 应 用 集 ( 匈 附录 )。 在 前 
面 的 章节 中 ， 作 为 实例 研究 我 们 已 经 描述 和 使 用 了 其 中 的 3 (Ocean, Barnes-Hut and Ray- 
trace) 。 这 一 节 将 简要 地 介绍 一 下 我 们 将 要 使 用 但 尚未 讨论 过 的 工作 负载 : LU、Radix、Radi- 
osity 和 Multiprog。LU 和 Radix 是 计算 内 核 ; Radiosity 是 真正 的 应 用 ; 而 Multiprog 是 一 个 多 道 
程序 工作 负载 。 在 4.4.2 节 中 ， 我 们 将 测量 这 些 工作 负载 与 方法 有 关 的 某 些 执行 特征 ， 包 括 
数据 访问 的 细 目 分 类 、 通 信和 与 计算 的 比 及 其 扩 放 、 重 要 工作 集 的 尺寸 和 扩 放 。 我 们 使 用 这 种 
特征 化 来 为 这 些 应 用 和 后 续 几 章 的 数据 集合 选择 存储 器 系统 的 参数 。 

1. LU 

密集 LU 因子 分 解 是 将 一 个 密集 矩阵 4 PER ON ME LAU 的 过 程 ，L 和 分别 是 
下 三 角 和 矩阵 和 上 三 角 和 矩阵 ， 它 们 的 乘积 等 于 4 ( 即 4 = LU)*。 它 用 于 解 线性 方程 组 ， 在 科 
学 计算 类 应 用 以 及 像 线 性 规划 这 样 的 优化 方法 中 会 碰 到 它 。 它 是 一 个 结构 良好 的 内 核 ， 虽然 





O ” 如 果 一 个 矩阵 的 大 部 分 元 素 非 零 ， 我 们 称 其 为 密集 抢 阵 〈 大 多 数 元 素 都 为 零 的 邱 阵 叫做 称 玖 矩阵 )。 像 工 这 样 的 
下 三 角 和 矩阵 ， 其 主 对 角 线 以 上 的 元 素 均 为 零 ， 而 像 U 这 样 的 上 三 角 算 阵 ， 其 主 对 角 线 以 下 的 元 素 都 为 零 。( 主 对 
角 线 是 从 矩阵 的 左上 角 到 右 下 角 的 对 角 线 。) 
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不 简单 ， 但 是 为 人 们 所 熟悉 且 易 于 理解 (Golub and Van Loan 1997). 

LU 因子 分 解 的 操作 类 似 于 高 斯 消去 法 ,通过 从 一 行 中 减 去 其 他 行 的 标量 乘积 而 一 次 消 
去 一 个 变量 。LU 因子 分 解 的 计算 复杂 度 是 O(n? )， 而 数据 集 的 大 小 是 O(n  )。 我 们 从 第 3 
章 关于 时 间 局 部 性 的 讨论 中 知道 ， 这 是 通过 分 块 发 掘 时 间 局 部 性 的 理想 情况 。 事 实 上 ， 我们 
使 用 分 块 的 LU 因子 分 解 ， 不 论 是 在 串 行 还 是 并 行 的 情况 下 ， 都 远 比 非 分 块 版 本 的 效率 要 
高 。 待 因子 分 解 的 nxn 的 矩阵 被 划分 成 若干 B x 中 大 小 的 块 ， 其 思想 是 在 移 向 下 一 块 之 前 








mM) 应 尽 可 能 多 地 重用 一 个 块 。 我 们 现在 认为 矩阵 是 由 mw/B x nB 个 块 而 不 是 n x n 个 元 素 组 








成 ， 就 像 我 们 对 元 素 所 做 的 那样 ， 一 次 消去 和 更 新 一 块 。 此 时 对 于 小 的 B x B 的 块 使 用 乘 和 
求 反 这 样 的 矩阵 运算 ， 而 不 是 使 用 作用 于 元 素 的 标量 运算 。 图 4- 11 显示 了 这 种 分 块 的 LU A 
子 分 解 的 串 行 伪 代 码 ， 它 也 定义 了 某 些 相 关 的 术语 。 


for k e 0 to N-1 do /*loop over all diagonal blocks*/ 
factorize block A, y; 
for j © k+l to N-1 do /*for all blocks in the row of, and 
to the right of, this diagonal block*/ 
Aj & Aig * (Ang)? /*divide by diagonal block*/ 
for i e k+1 to N-1 do /*for all rows below this diagonal block */ 
for j © k+1 to N-1 do /*for all blocks in the corresponding row*/ 
Ai j 人 Aij - Aik" (Ap) 
endfor 
endfor 周边 行 
endfor 





endfor 
Rt HARI 


周边 记 


fe EG 
动 部 分 





Ben 描述 串 行 分 块 的 密集 LU 因子 分 解 的 伪 代 码 。 是 各 维 的 块 数 (N = w/B) ， 我 们 把 矩阵 看 作 N 
x 六 的 块 矩 阵 而 不 是 nx n ATOR. ABA, A, ARRERA 的 第 i 行 和 第 j 列 的 块 。 在 最 外 

层 循环 的 第 次 先 代 中 ， 我 们 称 在 4 的 主 对 角 线 上 的 志 hi， 上 为 对 角 块 ， 块 的 第 上 行 和 第 

列 分 别 为 周边 行 和 周边 列 。 注 意 第 次 迁 代 并 不 涉及 矩阵 前 -1 行 和 -1 列 中 的 任何 块 ， 也 

就 是 说 ， 在 当前 最 外 层 循环 中 ， 只 有 那些 位 于 对 角 块 右 下 方 的 正方 形 区 域 中 的 矩阵 阴影 部 分 是 

“活动 ”的 。 甜 阵 的 其 余部 分 已 经 在 前 面 的 选 代 中 计算 过 了 ， 并 且 在 后 续 的 因子 分 解 中 也 不 再 

活动 。 在 一 个 非 分 块 的 LU 因子 分 解 中 ， 我 们 将 类 似 地 谈 及 对 角 线 元 素 和 元 素 的 周边 行 和 周边 列 
考虑 一 下 分 块 的 优点 。 如 果 我 们 不 计算 分 块 ， 处 理 器 将 计算 一 个 元 素 ， 然 后 计算 右边 下 
一 个 分 配 的 元 素 ， 如 此 进行 直到 当前 行 的 尾 ， 然 后 处 理 器 将 继续 下 一 行 。 当 它 回 到 下 一 行 的 
第 一 个 活动 的 元 素 时 ， 它 将 重新 访问 一 个 周边 行 元 素 (该 元 素 在 计算 前 一 行 的 对 应 活动 元 素 
245 | 时 已 经 使 用 过 了 ) 。 但 是 ， 在 此 之 前 ， 计 算 已 经 流 经 了 对 应 于 和 抢 阵 整个 行 的 数据 ， 如 果 和 矩阵 
很 大 ， 那 个 周边 行 元 素 可 能 已 经 不 再 存在 于 高 速 缓存 之 中 了 。 在 分 块 的 程序 版 本 中 ， 在 
图 4-11 的 最 内 层 循环 各 次 迭代 块 层次 上 的 计算 中 (即行 计算 A jAy- AN, (Ai )"), 我 
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们 在 回 到 先前 访问 过 的 数据 之 前 在 一 个 方向 上 仅仅 前 进 B 个 元 素 ， 而 那些 先前 访问 过 的 元 
素 仍然 在 高 速 缓 存 中 而 且 可 以 重新 使 用 。 针 对 于 各 个 Bx 8B 个 块 的 操作 (HERA TOD 
解 ) SABA TO BR ) 的 计算 和 数据 访问 ， 每 个 块 元 素 被 访问 B 次。 如 果 我 们 这 样 选择 块 
的 尺寸 ， 使 得 一 个 块 的 B x BRAR 个 元 素 (加 上 某 些 其 他 数据 ) 都 能 被 高 速 缓存 所 容 
纳 ， 那 么 在 给 定 的 块 计算 中 ， 只 有 对 元 素 的 首次 访问 不 会 在 高 速 缓存 中 命中 ， 后 续 的 访问 都 
会 在 高 速 缓存 中 命中 ， 这 样 在 B 次 访问 中 有 B? 次 扑 空 ， 扑 空 率 为 1B。 

在 并 行 版 本 的 程序 中 ， 我 们 把 更 新 一 个 块 的 计算 看 作 一 个 任务 。 图 4- 12 提供 了 在 一 次 
最 外 层 循 环 的 和 迭代 中 块 之 间 信 息 流 的 图 示 描 述 ， 它 显示 了 在 并 行 版 的 程序 中 我 们 如 何 将 块 
CHES) 分 配给 处 理 器 。 因 为 计算 的 本 质 ， 朝 向 矩阵 左上 部 分 的 块 只 在 计算 的 最 早 几 次 最 
外 层 循环 光 代 中 是 活动 的 ， 而 朝向 矩阵 右 下 部 分 的 块 却 与 相当 得 多 的 工作 相关 。 所 以 把 连续 
的 行 或 块 构成 的 正方 形 分 配给 进程 (矩阵 的 简单 的 域 分 解 ) 会 导致 不 好 的 负载 平衡 。 因 此 ， 
我 们 在 两 个 维度 上 让 块 在 进程 间 交 错 ， 产 生 了 一 种 叫做 矩阵 二 维 散 布 分 解 的 划分 ， 可 以 认为 
进程 构成 了 Vp xyp 的 网 格 ， 这 个 进程 的 网 格 就 像 糕 鲜 切割 器 一 样 反 复 地 压 印 在 块 矩 阵 上 。 
进程 负责 对 以 这 种 方式 分 配给 它 的 块 进行 计算 ， 只 有 它 能 对 这 些 块 写 和 人。 这 种 交错 缓解 但 没 
消除 负载 的 不 平衡 ， 而 分 块 保持 了 局 部 性 也 允许 我 们 在 消息 传递 型 的 系统 中 使 用 较 大 的 数据 
传输 。 





一 个 进程 的 伪 代 而 
Hr for all k from 0 to N-1 
= — ] if I own Ay,, factorize Akk 
-B BARRIER; 
A for all my blocks Axj 
in pivot TOW, 
t Ay 6 Ay *A; 
n YG kj kj kk 
a*l HEET ee 
for all my blocks Ay, in 
it R = active interior of matrix 
sos os ss m Aij Aij ~ Aik*Akj 
a0: 1:2:3: endfor 
上 s 
4 i 5 ; 6 73 
8: 9:10:11% 
+ | 
12:13:34: 158 
“ROAR” 
图 aak $5HRS) EH et 


[O] 分 配给 进程 14 的 内 部 大 


图 4-12 并 行 的 分 块 式 LU 因子 分 解 : 信息 的 流 、 划 分 、 并 行 伪 代 码 。 实 线 箭头 显示 了 在 一 次 外 层 
(k) 循环 迭代 中 的 信息 流 。 在 第 一 阶段 ， 信 息 (数据 ) 从 对 角 块 〈 它 首先 因子 分 解 》 流向 
周边 行 中 的 所 有 块 。 在 第 二 阶段 ， 矩 阵 活动 部 分 的 块 需要 来 自 周 边 行 和 周边 列 的 对 应 元 素 

把 计算 分 解 成 块 而 不 是 单个 元 素 的 缺点 在 于 加 大 了 任务 的 粒度 并 损害 负载 的 平衡 ; 因为 

块 的 数量 比 元 素 少 ， 并 发 性 降低 了 ， 每 次 选 代 最 大 的 负载 失衡 是 与 一 个 块 而 不 是 单个 元 素 有 
关 。 在 串 行 LU 因子 分 解 中 ， 对 块 尺寸 的 惟一 约束 是: 在 一 次 块 计算 中 用 到 的 两 个 或 三 个 块 
能 容纳 于 高 速 缓存 。 在 并 行 的 情况 下 ， 理 想 的 块 尺寸 B 是 由 数据 局 部 性 和 通信 额外 开销 
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(特别 是 在 消息 传递 型 的 机 器 上 ) 之 间 的 折 中 而 决定 的 ， 要 降低 通信 开销 倾向 于 较 大 的 块 ; 
而 另 一 方面 ， 负 载 平 衡 则 倾向 于 较 小 的 块 。 所 以 理想 的 块 尺寸 取决 于 问题 的 规模 、 处 理 器 的 
数量 和 其 他 体系 结构 参数 。 在 实践 中 ，16 x 16 或 32 x 32 个 元 素 的 块 尺寸 在 大 型 的 并 行 机 器 
上 工作 得 很 好 。 

分 块 提供 了 块 计算 中 数据 的 重用 。 数 据 也 能 跨越 不 同 的 块 的 计算 而 被 重用 。 为 了 重用 来 
自 远 地 块 的 数据 ， 我 们 可 以 显 式 地 在 主 存 中 复制 块 并 保持 它们 ， 或 者 在 高 速 缓存 一 致 性 的 机 
更 上 ,依赖 于 足够 大 的 高 速 缓 存 自动 地 完成 这 一 点 。 但 是 ， 对 改善 性 能 而 言 ， 跨 越 块 计算 的 
重用 不 像 块 内 的 重用 那样 重要 ( 显 式 的 复制 有 其 代价 )， 所 以 在 我 们 的 程序 中 ， 我 们 并 不 在 
主 存 中 显 式 地 复制 块 。 

至 于 空间 局 部 性 ， 因 为 现在 分 解 的 单位 是 二 维 的 块 ， 问 题 与 3.3.1 节 讨论 简单 方程 求解 
器 内 核 时 的 问题 很 类 似 。 所 以 我 们 用 一 个 四 维 数组 的 数据 结构 来 表示 共享 地 址 空间 的 矩阵 ， 
使 得 一 块 中 的 数据 在 地 址 空间 中 连续 。 前 两 个 维度 说 明 一 个 块 ， 后 两 个 维度 说 明 块 中 的 一 个 
元 素 。 这 种 表示 方法 允许 我 们 以 页 的 粒度 在 存储 器 中 适当 地 分 布 块 。 (如果 块 比 页 小 ， 我 们 
可 以 用 另外 一 个 额外 的 数组 维度 来 保证 分 配给 一 个 进程 的 所 有 块 在 地 址 空间 内 是 连续 的 。) 
然而 ， 分 块 使 得 容量 型 扑 空 率 足够 的 小 ， 从 而 使 LU 因子 分 解 时 主 存 中 的 数据 分 布 不 成 为 主 
要 的 问题 。 使 用 高 维 数 组 保持 一 个 块 的 数据 连续 的 更 重要 的 理由 是 ， 减 少 跨越 一 个 块 的 子 行 
和 跨越 块 时 的 高 速 缓存 的 喘 射 冲突 ， 我 们 将 在 5.6 节 讨 论 这 个 问题 。 高 速 缓存 冲突 对 于 数组 
的 尺寸 和 处 理 器 的 数量 非常 敏感 ， 特 别 是 对 于 直接 映射 的 第 一 级 高 速 缓存 更 是 如 此 ， 它 很 容 
易 抵 消 掉 分 块 所 带 来 的 大 部 分 好 处 。 

并 行 LU 因子 分 解 没 有 使 用 加 锁 操 作 。 使 用 了 顶 太 操作 分 隔 最 外 层 循环 迁 代 以 及 和 迭代 中 
的 不 同 阶段 〈 例 如 ， 保 证 在 使 用 一 个 周边 行 中 的 块 之 前 先 计算 该 行 .-) 可 以 使 用 块 级 别 的 点 
对 点 同步 来 发 掘 更 高 的 并 发 性 ， 但 是 使 用 栅 障 使 得 编程 容易 得 多 。 

2. Radix 

程序 Radix 使 用 流行 的 基数 排序 法 对 一 系列 被 称 为 键 字 的 整数 排序 。 假 定 有 n 个 整数 需 
要 排序 ， 每 个 整数 的 长 度 为 5 比特 。 该 算法 使 用 + 个 比特 的 基数 ， 这 里 r 由 用 户 选 择 。 这 意 
味 着 一 个 b 比特 的 键 字 可 以 被 表示 为 一 个 包含 [br] 个 组 的 集合 ， 每 个 组 为 + 个 比特 ( 见 
图 4-13)。 该 算法 经 历 [5/r] 个 阶段 或 欠 代 。 每 个 阶段 从 最 低位 的 组 开始 ， 根 据 键 字 在 所 
对 应 的 r 比特 组 中 的 值 对 键 字 排 序 ，r 比特 的 组 叫做 一 个 数位 。 在 .[ 5b/r] 个 阶段 的 未 尾 ， 
键 字 被 完全 排序 。 在 每 个 阶段 中 使 用 两 个 一 维 的 大 小 为 n 的 整数 数组 : 其 中 一 个 叫做 输入 
数组 ， 存 储 该 阶段 输入 的 键 字 ; 另 一 个 叫做 输出 数组 ， 存 储 从 该 阶段 输出 的 键 字 。 一 个 阶段 
的 输入 数组 是 下 一 个 阶段 的 输出 数组 ， 反 之 亦 然 。 





bitt 
图 4-13 一 个 5 比特 的 数字 ( 键 字 ) 被 
eo ceccelecccloces 分 成 [br] 个 组 ， 每 组 > 个 比 
itt r 比特 r 比 特 r 比特 特 。radix 排序 的 首次 迭代 使 用 
iter [b/r] - 1) wee (iter 1) (iter 0) 最 低 有 效 的 r 比特 ， 依次 类 推 


考虑 在 一 个 阶段 内 部 的 并 行 计算 ， 它 根据 键 字 在 某 一 特定 数位 上 的 值 对 所 有 的 键 字 排 
序 。 并 行 算法 把 每 个 数组 中 n EFI p 个 进程 做 划分 ， 将 前 n/p 个 键 字 分 配给 进程 0， 接 





O 从 最 低位 而 不 是 最 高 位 的 r 比特 组 开始 排序 的 原因 在 于 它 能 导致 一 个 “稳定 ”的 排序 ， 也 就 是 说 ， 具 有 相同 什 
的 键 字 在 输出 中 的 相对 位 置 与 它们 在 输入 中 的 相对 位 置 一 样 。 
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下 来 的 n/p 个 键 字 分 配给 进程 1， 依 次 类 推 。 分 配给 一 个 进程 的 那 部 分 数组 被 放 人 对 应 的 处 
理 需 的 本 地 存储 器 中 。 在 某 个 阶段 分 配给 一 个 进程 的 输入 数组 中 的 n/p 个 键 字 叫 做 该 阶段 
该 进程 的 本 地 键 字 。 在 一 个 阶段 中 ， 进 程 执 行 下 列 步骤 : 

1) 扫描 n/p 个 本 地 键 字 ， 建 立 一 个 键 字 值 的 局 部 〈 每 进程 一 个 ) 直方 图 。 该 直方 图 有 
2 个 柱 方 项 ， 这 里 > 是 数位 中 的 比特 数 。 如 果 碰 到 的 键 字 在 当前 阶段 的 值 为 ;， 那 么 直方 图 
的 第 i 个 柱 方 项 就 加 1。 

2) 当 所 有 的 进程 都 完成 了 步 又 1) (由 程序 中 的 栅 障 同步 决定 ) 后 ， 把 局 部 直方 图 累计 
到 一 个 全 局 的 直方 图 去 。 如 习题 4.14 所 讨论 的 那样 ， 这 一 操作 通过 一 个 并 行 的 前 序 计算 完 
成 。 全 局 直方 图 记录 了 对 于 当前 数位 的 每 个 取 值 各 存在 多 少 个 键 字 ， 还 记录 了 对 于 每 一 个 进 

EDJ, 有 多 少 个 具有 给 定 值 的 键 字 被 呈 值 小 于 7 的 进程 所 拥有 。 

3) 对 nip 个 本 地 键 字 做 男 一 次 扫描 。 对 于 每 个 键 字 ， 使 用 局 部 和 全 局 直方 图 决定 应 该 
把 该 键 字 放 到 输出 数组 的 哪 一 个 (已 排序 ) 的 部 分 去 ， 并 将 键 字 的 值 写 人 输出 数组 的 项 中 
去 。 注 意 , 要 写 入 的 数组 项 很 可 能 是 非 本 地 的 ， 这 种 可 能 性 的 期 望 值 是 (p - 1) /p CR 
图 4-14)。 这 个 步骤 叫做 置换 步骤 ， 

进程 。 进程 ， 进程 ， 


输入 数组 TIT pg 
A LEY 
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进程 。 进程 ， 进程 ， te 进程 。 


图 4-14 radix 排序 阶段 的 置换 步 又。 在 每 个 输入 和 输出 数组 中 〈 它 在 后 续 的 阶段 中 改变 
位 置 ) ， 分 配给 一 个 进程 的 键 字 (数组 项 ) 被 分 配 到 对 应 处 理 器 的 本 地 存储 器 中 
读者 可 以 在 文献 (Blelloch et al. 1991; Culler et al. 1993) 中 找到 对 radix 排序 算法 及 其 实 
现 的 更 详细 的 说 明 。 在 共享 地 址 空间 型 的 实现 中 ,通信 发 生 在 置换 阶段 写 人 键 字 的 时 刻 (或 
者 ， 如 果 键 字 停留 在 写 入 者 的 高 速 缓存 中 ， 发 生 在 下 一 次 迭代 的 直方 图 生成 阶段 读 出 键 字 的 
时 刻 )， 也 发 生 于 从 局 部 直方 图 构造 全 局 直方 图 的 时 刻 。 与 置换 相关 的 通信 是 全 部 对 全 部 的 
个 人 化 通信 ( 即 每 个 进程 与 各 个 其 他 进程 交换 它 的 键 字 的 不 重 又 的 子 集 )， 但 是 ， 它 是 不 规 
律 和 散布 的 ， 其 精确 的 模式 依赖 于 键 字 的 分 布 。 同 步 包 括 阶段 之 间 的 全 局 概 障 和 阶段 内 建立 
全 局 直方 图 的 较 细 粒 度 的 同步 。 后 者 可 以 采取 互 斥 或 者 点 对 点 的 事件 同步 的 形式 ， 这 取决 于 
该 阶段 的 实现 (见习 题 4.14)。 
3. Radiosity 
Radiosity 方法 用 于 计算 机 图 形 学 ， 用 来 计算 包含 散射 表面 的 场景 的 全 局 照度 。 在 层次 型 
的 radiosity 方法 中 ， 一 个 场景 最 初 被 建 模 成 包含 了 上 个 大 的 输入 多 边 形 ,或 者 说 片 。 例 如 ， 
桌面 或 椅 背 可 以 是 一 个 输入 的 片 。 我 们 要 计算 这 些 片 中 每 对 片 之 间 光 的 传递 相互 作用 。 可 以 
简单 地 认为 这 个 算法 完成 以 下 功能 : 如 果 一 对 片 之 间 光 的 传递 比 阔 值 强 ， 其 中 之 一 〈 比 如 说 
大 的 那个 ) 将 被 进一步 分 割 ， 在 由 此 产生 的 子 片 和 其 他 片 之 间 递 归 地 计算 光 的 相互 作用 。 这 
个 过 程 一 直 持续 到 所 有 片 对 之 间 的 光 传 递 都 很 低 为 止 。 所 以 ， 为 了 改善 照度 计算 的 精度 ， 根 
据 需 要 将 片 层 次 式 地 分 割 成 子 片 。 每 一 次 分 割 产 生 4 个 子 片 ， 使 每 个 片 形成 一 个 四 叉 树 。 如 
果 最 后 不 再 分 割 的 子 片 的 数量 是 n, 那么 对 初始 片 数 为 的 情况 ， 算 法 的 计算 复杂 性 是 
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O(n+h )o FERRERAS RAST EA. Se REA HECK (Hanrahan, Salzman, and Aup- 
perle 1991; Singh 1993) 中 找到 算法 的 细节 。 

构成 场景 的 输入 片 首先 被 插 人 一 个 二 进 制 空 间 分 割 (BSP) 树 (Fuchs, Abram, and Grant 
1983)， 它 是 一 个 便于 片 对 之 间 可 见 性 的 高 效 计算 的 数据 结构 。 初 始 时 给 每 个 输入 片 设立 一 
个 相互 作用 链表 ， 该 链表 记录 从 该 片 能 够 看 到 的 输入 片 ， 对 这 些 片 它 必须 计 算 相互 作用 。 然 
后 ,通过 下 面 的 迭代 算法 计算 照度 : 

D 对 每 一 个 输入 片 ， 计 算 由 它 的 相互 作用 链表 中 所 有 的 其 他 片 而 形成 的 它 的 照度 ， 如 
果 需 要 ， 将 它 或 者 其 他 片 层次 式 地 分 割 ， 递 妇 地 计算 它们 的 相互 作用 ( 见 图 4-15)。 

多 边 形 B 





多 边 形 D 


图 4-15 ” 随 着 照度 计算 的 进展 将 输入 多 边 形 层次 式 地 分 割 成 四 叉 树 。 每 一 个 输 
人 多 边 形 产生 一 个 片 的 四 叉 树 ， 该 四 又 树 与 其 他 四 又 树 的 片 相互 作用 
2) 从 位 于 四 义 树 的 叶片 处 的 片 开 始 ， 把 所 有 片 的 照度 相 加 (由 它们 的 面积 加 权 〉 获得 
场景 的 总 照度 ， 将 它 与 前 一 次 迁 代 形成 的 照度 比较 ， 检 查 是 否 在 确定 的 容 差 范围 内 收敛 。 如 
琳 照 度 示 收敛， 返回 步骤 1) ， 和 否则 的 话 ， 转 向 步骤 3)。 
3) 为 了 显示 对 结果 做 光滑 处 理 。 
一 次 选 代 的 大 部 分 时 间 花 费 在 步骤 1)， 因 此 让 我 们 对 它 进一步 考察 。 假 定 一 个 片 i 正 
在 遍历 其 相互 作用 链表 以 计算 它 与 其 他 片 ( 四 叉 树 节点 ) 的 相互 作用 。 与 男 一 个 片 (比如 说 
J) 的 相互 作用 包含 这 两 个 片 的 相互 可 见 度 计算 以 及 它们 之 间 的 光 的 传递 。 (实际 的 光 传递 
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Fe SE Py FEE UL BES MOR BC ERA AE e r E ERR.) 计算 相互 可 
厚度 包含 从 一 个 片 到 其 他 片 遍历 几 次 BSP 树 ?; 事实 上 ， 可 见 度 计算 占 了 整个 执行 时 间 的 非 
常 大 的 部 分 。 如 果 相 互 作用 的 结果 指出 “ 源 ” 片 守 应 该 被 进一步 分 割 ， 那 么 就 对 片子 生 成 四 
个 孩子 ， 如 果 它 们 并 没有 因为 先前 的 相互 作用 而 已 经 存在 ;从 片 i 的 相互 作用 链表 中 去 掉 片 
7 并 将 7 加 到 i 的 每 一 个 孩子 的 相互 作用 链表 中 去 ， 这 样 这 些 相互 作用 会 在 以 后 计算 。 如 果 结 
REEF j 必须 被 进一步 分 割 ， 那 么 片 了 在 片 ; 的 相互 作用 链表 中 被 /的 孩子 所 替代 。 这 意 
REEK i 和 片 j 的 每 一 个 孩子 之 间 将 计算 相互 作用 。 这 些 相互 作用 本 身 可 能 又 会 引起 进 一 
步 的 分 割 ， 从 而 使 得 这 个 过 程 递归 地 继续 下 去 〈 即 如 果 片 7 的 孩子 在 计算 相互 作用 的 过 程 中 
被 再 划分 ， 片 i 最 终 要 与 片 j 之 下 的 一 棵 片 形成 的 树 计算 相互 作用 )。 因 为 从 一 次 分 割 产生 
的 一 个 片 的 四 个 孩子 在 片 i 的 相互 作用 链表 中 原 地 替换 了 其 父亲 ,对 由 片 7 的 后 代 组 成 的 树 
的 遍历 是 深度 优先 的 。 片 i 的 相互 作用 链表 被 完全 遍历 之 后 才 转 向 处 理 下 一 个 片 的 相互 作用 
链表 (下 一 片 可 能 是 片 i 的 后 代 或 是 另 一 个 不 同 的 片 )。 图 4- 16 显示 了 这 种 层次 式 的 相互 作 
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(1) 在 求 精 之 前 





© 可 网 度 的 计算 是 在 两 个 片 之 间 概 念 性 地 发 射 一 些 射线 并 观察 有 多 少 射线 未 被 场景 中 处 于 其 间 的 其 他 干涉 片 让 本 
而 用 总 昂 所 夫 辣 对 年 要 这样 的 概念 性 射线 ， 次 定 它 是 否 被 这 蔽 的 工作 可 以 通过 遍历 从 源 到 目的 地 片 的 BSP 桂 
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用 的 不 断 求 精 过 程 。 一 轮 迁 代 计算 之 后 ， 所 有 的 相互 作用 和 求 精 都 被 完成 ， 迭 代 算 法 的 下 一 
次 迁 代 又 以 上 一 次 迭代 结尾 形成 的 四 叉 树 和 相互 作用 链表 开始 。 

在 这 个 应 用 中 可 以 找到 三 个 层次 的 并 行 性 : 跨 个 输入 多 边 形 ， 跨 再 分 割 这 些 多 边 形 
而 形成 的 片 ， 跨 对 一 个 片 计算 的 相互 作用 。 所 有 这 三 个 层次 都 包含 处 理 器 之 间 的 通信 和 同 
步 。 根 据 问题 的 规模 、 处 理 器 的 数量 和 机 器 的 特性 ， 我 们 把 一 个 任务 定义 为 一 个 片 及 其 所 有 
相互 作用 或 者 单个 片 对 片 的 相互 作用 ， 从 而 获得 最 佳 的 性 能 。 

因为 计算 和 分 割 高 度 不 可 预见 ， 我 们 必须 使 用 任务 队列 和 任务 窃取 来 平衡 工作 负载 。 并 
行 化 的 实现 为 每 个 处 理 器 提供 了 它 自 己 的 任务 队列 。 一 个 处 理 器 的 任务 队列 被 初始 化 为 初始 
可 用 的 多 边 形 - 多边 形 相互 作用 的 一 个 子 集 。 当 由 于 相互 作用 而 分 割 一 个 片 时 ， 为 这 些 子 片 
而 建立 的 新 的 任务 被 排 人 计算 了 相互 作用 并 进行 再 分 割 的 处 理 器 的 任务 队列 中 。 处 理 器 从 它 
的 队列 执行 任务 直到 队列 中 没有 任务 为 止 。 然 后 ， 它 从 其 他 处 理 器 的 队列 中 窃取 任务 执行 。 
任务 队列 由 加 锁 操 作 保护 ， 当 片 被 分 割 时 ， 加 锁 提供 了 对 片 的 互 斥 访问 。 (注意 ， 分 配给 两 
个 不 同 进程 的 两 个 片 可 能 在 它们 的 相互 作 用 链表 中 有 相同 的 片 ， 所 以 两 个 进程 可 能 会 试图 同 
时 分 割 该 片 。) 在 一 次 迭代 的 两 个 步骤 之 间 使 用 栅 障 同步 。 由 于 任务 窃取 和 相互 作用 及 再 分 
割 计算 的 次 序 ， 并 行 算法 是 非 确定 性 的 ， 它 具有 高 度 非 结构 化 和 不 可 预见 的 通信 及 数据 访问 
的 模式 。 

4. Multiprog 

BY AY LE TTT YE BLA AL — aT — PEE SEE. BE, ZA 
理 带 的 通常 用 法 ， 特 别 是 小 规模 的 共享 地 址 空间 多 处 理 器 ， 是 作为 多 道 程序 工作 负载 的 吞吐 
引擎 。 这 类 机 器 所 支持 的 细 粒 度 资 源 共享 允许 单一 操作 系统 映像 有 效 地 服务 于 多 个 处 理 器 。 
操作 系统 的 活动 通常 是 这 样 的 工作 负载 的 重要 组 成 部 分 ， 而 操作 系统 本 身 构成 了 重要 的 、 复 
杂 的 并 行 应 用 。 最 后 研究 的 一 个 工作 负载 是 一 个 多 道 程序 的 〈 时 分 的 ) 工作 负载 ， 由 一 系列 
串 行 应 用 和 操作 系统 本 身 所 组 成 。 应 用 是 两 个 UNIX 文件 压缩 作业 和 两 个 并 行 编译 ,或 者 说 
pmakes ， 在 并 行 编译 应 用 中 ， 生 成 执行 文件 所 需 的 多 个 文件 被 并 行 地 编译 和 汇编 。 操 作 系 
统 是 由 Silicon Graphics 生产 的 UNIX 版 本 ， 叫 做 IRIX (版 5.2)。 


4.4.2 工作 负载 的 特征 化 


现在 我 们 对 所 有 我 们 提 到 过 的 工作 负载 的 某 些 基本 的 特征 定量 化 ， 包 括 被 区 分 成 读 和 写 
或 共享 和 私有 的 数据 访问、 并 发 性 和 负载 平衡 、 固 有 的 通信 与 计算 的 比率 及 其 扩 放 的 方式 、 
重要 工作 集 的 尺寸 和 扩 放 。 与 空间 局 部 性 相关 的 特征 在 后 续 章 节 中 谈 到 特定 的 体系 结构 风格 
时 再 予以 测量 。 在 本 节 中 ， 将 给 出 并 行 应 用 在 16 个 处 理 器 上 执行 的 定量 特征 数据 和 多 道 程 
序 在 8 个 处 理 器 上 执行 的 定量 特征 数据 。 我 们 还 定性 地 或 解析 地 讨论 所 涉及 的 特征 如 何 随 问 
题 的 规模 而 扩 放 ， 某 些 时 候 对 它们 进行 测量 。 

1. 数据 访问 和 同步 特征 

表 4-1 总 结 了 不 同 的 工作 负荷 中 基本 的 访问 次 数 和 同步 事件 〈 加 锁 和 全 局 顶 障 ) 的 动态 
频 度 。 除 非特 别 说 明 ， 输 入 数据 集合 符合 本 书 中 一 直 使 用 的 缺 省 问题 的 尺寸 。 所 选择 的 问题 
的 规模 足够 大 ， 可 以 对 多 至 64 个 处 理 器 的 机 器 做 实际 评价 ; 但 又 足够 小 ， 可 以 在 合理 的 时 
间 内 被 模拟 。 所 以 它们 是 处 于 在 64 处 理 器 的 机 器 上 实际 运行 的 数据 集 的 小 尺寸 的 一 端 ， 但 
是 也 很 适合 于 较 小 规模 的 系统 。 
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输入 指令 ”总 的 ”访问 读 出 BSA 共享 共享 
应 用 数据 集 总 数 FLOPS 总 数 总数 总数 读 写 栅 障 加 锁 
(M) (M) (M) (M) (M) (M) (M) 
512 x 512 矩阵 489.52 92.20 151.07 103.09 47.99 92.79 44.74 66 0 
LU 
16 x 16 &R 
Ocean 258 x 258 网 格 376.51 101.54 99.70 81.16 18.54 76.95 16.97 364 1 296 
Bz = 1077 
4 个 时 间 步 
Bames-Hut 16K 粒子 2 002.74 239.24 720.13 406.84 313.29 225.04 93.23 7 34516 
0=1.0 
3 个 时 间 步 
Radix 256K 整数 14.02 — 5.27 2.90 2.37 1.34 0.81 11 16 
radix = 1 024 
Raytrace 汽车 场景 833.35 — 290.35 210.03 80.31 161.10 22.35 0 94 456 
Radiosity 室内 场景 2297.19 — 769.56 486.84 282.72 249.67 21.88 10 210485 
Multiprog SGI IRIX 5.2 1296.48 — 500.22 350.42 149.80 一 一 一 一 
用 户 两 个 pmakes + 
Multiprog 两 个 compress 668.10 — 212.58 178.14 34.44 一 一 — 621505 


内 核 


注 : 对 于 并 行程 序 ,共享 的 读 和 写 不 过 是 指 由 应 用 进程 发 出 的 所 有 非 堆 栈 的 访问 。 所 有 这 样 的 访问 并 不 需要 指向 真正 由 
多 个 进程 共享 的 数据 。 工 作 负 载 Multiprog 不 是 并 行 应 用 ,所 以 它 并 不 访问 共享 数据 。 表 项 中 的 短 模 线 代表 该 项 测 
量 不 适用 或 者 对 该 应 用 没有 做 测量 (例如 ,Radix 没有 浮 点 数 操作 )。(M) 表 示 在 该 行 的 测量 是 以 百 万 为 单位 的 。 

我 们 只 是 在 父 节点 生成 了 子 节点 之 后 记录 行为 和 定时 统计 数据 。 先 前 的 访问 (由 主 进 
程 发 出 的 ) 被 模拟 但 并 没有 包括 在 统计 数据 之 中 。 在 大 多 数 应 用 中 ， 精 确 的 测量 在 子 进 程 被 
创建 之 后 开始 。 但 Ocean 和 Barnes-Hut 两 个 程序 是 例外 。 在 这 两 种 情况 下 ， 我 们 能 够 利用 机 
会 ， 大 大 减少 模拟 所 需要 的 时 间 步 数 (如 4.3.2 节 所 讨论 的 那样 ); 但 是 ， 我 们 必须 忽略 冷 
启动 的 扑 空 并 允许 应 用 在 开始 测量 之 前 稳定 下 来 。 我 们 模拟 很 少 几 个 时 间 步 (对 Ocean 来 说 
是 6 步 ， 对 Bames-Hut 来 说 是 5 步 )， 在 最 初 两 个 时 间 步 之 后 就 开始 记录 行为 和 定时 统计 数 
据 。 对 于 工作 负载 Multiprog 来 说 ， 从 靠近 pmake 开始 位 置 的 检查 点 收集 统计 数据 ， 而 对 于 
所 有 其 他 的 应 用 ,仅仅 考虑 应 用 的 数据 访问 ; 但 对 Multiprog， 还 考虑 指令 访问 的 影响 ， 进 一 
步 把 内 核 的 访问 和 用 户 应 用 的 访问 划分 成 独立 的 类 。 该 表 显示 了 不 同 的 工作 负载 在 把 操作 分 
为 整数 操作 和 浮 点 数 操作 、 读 和 写 、 共 享 和 私有 等 方面 有 很 大 的 差别 ， 表 明 它 们 很 好 地 覆盖 
了 这 些 坐 标 。 

2. 并 发 性 和 负载 平衡 

负载 平衡 的 特征 化 是 通过 测量 算法 的 加 速 比 ， 也 就 是 说 ， 测 量 在 PRAM 体系 结构 模型 上 
的 加 速 比 (第 3 章 所 讨论 的 ) 完成 的 ， 它 假定 数据 访问 和 通信 具有 零 时 延 (它们 仅 花 费 发 出 
访问 的 指令 所 需 的 时 间 )。 相 对 于 理想 加 速 比 的 偏离 归咎 于 负载 的 不 平衡 、 临 界 区 的 串 行 性 
以 及 由 元 余 计算 和 并 行 性 管理 所 产生 的 额外 的 工作 。 

图 4-17 显示 了 使 用 缺 省 的 数据 集合 ， 在 多 达 64 个 处 理 器 的 系统 上 6 个 并 行程 序 的 算法 
加 速 比 。 其 中 3 个 程序 (Barns-Hut, Ocean 和 较 小 范围 的 Raytrace) 即使 使 用 相对 较 小 的 数据 
集 ， 在 多 达 64 个 处 理 器 的 情况 下 仍 有 良好 的 加 速 比 。 这 些 程 序 的 主要 阶段 是 在 大 的 数据 集 
A (Bames-Hut 中 所 有 的 粒子 、Ocean 中 的 整个 网 格 和 Raytrace 中 的 图 像 像 素 ) 上 的 数据 并 
行 。 它 们 只 是 在 某 些 全 局 归 约 操作 和 某 些 特 殊 阶 段 中 受到 有 限 的 并 行 性 和 串 行 化 的 影响 ， 而 
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图 417 6 个 并 行 应 用 的 算法 加 速 比 。 理 想 的 加 速 比 曲线 表示 在 p 个 处 理 器 情况 下 加 速 比 为 p 


那些 特殊 阶段 就 所 执行 的 指令 数 而 言 并 不 占 主 导 地 位 〈 例 如 ，Bames 中 树 的 构造 和 靠近 根 的 
向 上 扫描 的 部 分 ，Ocean 的 多 网 格 层 次 结构 的 较 高 的 层次 )。Raytrace 有 一 个 产生 麻烦 的 高 度 
竞争 的 临界 区 ，3 引 起 了 品行 化 (事实 上 ， 这 个 临界 区 对 于 正确 的 执行 并 不 一 定 是 需要 的 ， 是 
为 了 记录 某 些 重要 的 统计 数据 而 使 用 它 )。 

所 有 6 个 程序 在 多 达 16 至 32 个 处 理 器 的 情况 下 都 表现 了 良好 的 加 速 比 。 在 处 理 器 数量 
较 多 的 情况 下 使 用 这 些 数据 集 加 速 比 不 是 非常 好 的 程序 有 LU, Radiosity 和 Radix。 在 这 几 种 
情况 下 ， 其 原因 是 输入 数据 集 的 尺寸 而 不 是 应 用 所 固有 的 负载 非 平衡 的 特性 。 在 LU 中 ， 尽 
管 采 用 了 面向 块 的 分 解 ， 缺 省 的 数据 集 导 致 在 64 个 处 理 器 的 情况 下 负载 显著 的 不 平衡 。 较 
大 的 数据 集 (或 较 少 的 处 理 器 ) 通过 在 分 解 的 每 一 个 步 又 给 每 个 处 理 器 提供 更 多 的 块 而 降低 
不 平衡 性 。 对 于 Radiosity ， 不 平衡 性 也 是 由 于 使 用 了 较 小 的 数据 集 ， 虽 然 分 析 起 来 非常 困 
难 。 最 后 ， 对 于 Radix 在 64 个 处 理 器 时 ， 较 差 的 加 速 比 是 由 将 局 部 直方 图 累加 到 全 局 直方 图 
时 的 前 序 计 算 所 致 ( 见 4.4.1 节 )， 它 不 能 被 完全 并 行 化 。 在 这 个 前 序 计算 上 所 花费 的 时 间 
是 0(logp)， 而 在 其 他 阶段 所 花费 的 时 间 是 0(n/p )， 因 此 当 排序 的 键 字 的 数量 增加 时 ， 不 
平衡 的 阶段 在 整个 工作 中 所 占 的 比重 将 下 降 。 所 以 ， 当 选择 较 大 的 数据 集 时 ， 即 使 是 这 3 个 
程序 也 能 被 用 来 评价 规模 较 大 的 机 器 。 

我 们 已 经 满足 了 标准 ， 这 就 是 不 要 选择 那些 本 质 上 不 适合 于 所 希望 评价 的 机 器 规模 的 并 
行程 序 ， 并 要 懂得 如 何 为 现 有 规模 机 器 上 的 程序 选择 合适 的 数据 集 。 现 在 来 考察 一 下 固有 的 
通信 与 计算 的 比 以 及 程序 的 工作 集 尺 寸 。 

3. 通信 与 计算 的 比 

在 通信 与 计算 的 比 中 ， 我 们 包括 了 固有 的 通信 和 一 个 字 第 一 次 被 处 理 器 访问 时 所 产生 的 
通信 ( 即 在 测量 启动 之 后 发 生 的 冷 启动 扑 空 )。 在 可 能 的 条 件 下 ， 数 据 是 在 物理 分 布 的 存储 
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器 内 适当 地 分 布 的 ， 所 以 能 够 认为 这 种 冷 启动 通信 是 本 质 性 的 而 不 是 附加 造成 的 。 为 了 避免 
由 于 容量 的 限制 或 空间 局 部 性 不 好 所 造成 的 附加 的 通信 ， 我 们 模拟 了 每 个 处 理 器 有 无 限 多 的 
高 速 缓存 和 每 个 高 速 缓存 块 由 单个 字 组 成 的 情况 。 我 们 所 测量 的 通信 与 计算 的 比 是 所 有 的 处 
理 器 平均 来 看 ， 每 条 指令 所 通信 的 应 用 数据 的 字 节 数 。 对 于 浮 点 数 密集 型 的 应 用 (LU 和 
Ocean) ， 我 们 是 使 用 每 个 浮 点 数 操作 (FLOP) 所 通信 的 字 节 而 不 是 每 条 指令 所 通信 的 字 节 ， 
因为 FLOP 的 数量 与 指令 的 总 数 相 比 ， 对 编译 器 的 行为 不 那么 敏感 。 

我 们 将 首先 观察 一 下 对 于 表 4-1 所 示 的 基本 问题 规模 所 测量 到 的 通信 与 计算 的 比 和 所 使 
用 的 处 理 器 的 数量 的 关系 。 这 显示 了 在 问题 规模 不 变 的 前 所 下 ， 该 比值 如 何 随处 理 器 的 数量 
而 上 升 。 然 后 ， 在 任何 可 能 的 情况 下 ， 我 们 将 解析 地 考察 该 比值 是 如 何 依赖 于 数据 集 的 尺寸 
和 处 理 器 的 数量 的 〈 表 4-2)。 其 他 应 用 参数 对 通信 与 计算 的 比 的 影响 将 单独 讨论 ， 并 且 通 常 
只 是 定性 地 讨论 。 

R42 国有 的 通信 和 与 计算 比 的 增长 速率 





应 ”用 增长 速率 
LU VPIV DS 
Ocean V PI DS 
Barnes-Hut 大 约 V P/V DS 
Radiosity 不 可 预见 
Radix (P-1) /P 
Raytrace 不 可 预见 





È: DS 是 数据 集 的 尺寸 〔〈 以 字 节 为 单位 )， 已 是 处 理 器 的 数量 。 


图 4.18 给 出 了 在 基本 的 问题 规模 条 件 下 ， 对 我 们 的 6 个 并 行程 序 的 测量 结果 。 我 们 注 
意 到 的 第 一 件 事 是 平均 的 加 有 的 通信 与 计算 的 比 通常 相当 小 。 对 于 以 400 MIPS (每 秒 的 百 万 
指令 ) 的 速度 工作 的 处 理 器 来 说 ， 每 条 指令 0.1 字 节 的 比率 意味 着 大 约 40 MBps 的 数据 流 
量 ， 对 于 现代 高 性 能 的 多 处 理 器 网 络 而 言 ， 这 是 相当 小 的 。 实 际 的 流量 比 固有 的 流量 要 高 得 
多 ， 这 既是 由 于 附加 造成 的 通信 ， 又 是 由 于 在 每 次 传输 中 都 要 有 控制 信息 与 数据 一 起 传送 。 
它 指出 ， 正 是 通信 的 突 发 性 、 通 信 的 其 他 来 源 和 通信 的 模式 (比如 ， 全 部 对 全 部 或 者 长 距离 
的 通信 ) 可 能 会 引起 通信 带宽 的 问题 。 平 均 比 率 相当 高 的 惟一 的 应 用 是 Radix， 所 以 对 于 这 
个 应 用 ,在 评价 中 仔细 地 模拟 通信 带宽 就 特别 的 重要 。 通 信和 与 计算 的 比 低 的 一 个 原因 在 于 ， [257 
我 们 所 使 用 的 这 些 应 用 在 被 安排 并 行 执行 时 已 经 很 好 地 优化 了 。 在 实际 中 使 用 的 应 用 ， 包 括 
这 些 应 用 的 其 他 版 本 ， 则 可 能 呈现 较 高 的 通信 与 计算 的 比 。 
从 该 图 我 们 观察 到 的 下 一 个 事实 是 不 同 的 应 用 的 通信 与 计算 比 的 增长 速率 很 不 相同 ， 显 
示 了 对 这 一 行为 特性 有 着 的 良好 覆盖 。 表 4-2 以 解析 的 方式 总 结 了 增长 速率 与 处 理 器 数量 和 
数据 集 尺 寸 未 在 图 中 显示 ) 的 关系 。 如 果 我 们 在 某 些 应 用 〈 比 如 Ocean) 中 使 用 不 同 的 数 
据 集 的 尺寸 ， 通 信 与 计算 比 将 会 有 巨大 的 变化 ; 但 是 在 其 他 应 用 中 ， 至 少 固有 的 通信 不 会 有 
多 大 的 变化 。 附 加 产生 的 通信 和 则 完全 不 同 ， 在 后 面 的 章节 中 ， 我 们 将 根据 不 同 的 体系 结构 的 
情况 ， 考 察 由 附加 产生 的 通信 和 所 造成 的 通信 流量 。 
显然 ， 尽 管 增长 速率 是 一 个 基本 的 参数 ， 但 重要 的 是 应 该 认识 到 它 并 未 揭示 通信 和 与 计算 
比 的 表达 式 中 的 常数 因子 ， 在 实践 中 ， 该 因子 比 渐进 线 式 的 增长 速率 更 为 重要 。 例 如 ， 如 果 
一 个 程序 的 通信 与 计算 比 仅 随 处 理 器 的 数量 而 对 数 式 地 增长 ， 那 么 ， 以 渐 近 线 的 增长 的 渐进 ”[258] 
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线 方式 看 ， 它 确实 要 比 其 比率 按 处 理 器 数量 平方 根 而 增长 的 应 用 要 小 ; 但 是 ， 如 果 它 的 常数 
大 得 多 的 话 ， 对 于 所 有 实际 的 机 器 规模 ， 它 的 比率 实际 上 要 大 得 多 。 从 图 418 中 能 够 决定 
应 用 的 常数 因子 。 
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图 418 在 6 个 并 行程 序 中 ， 对 于 基本 的 问题 规模 ， 通 信和 与 计算 之 比 与 处 理 器 数量 的 对 照 


4. 工作 集 的 尺寸 

测量 一 个 程序 的 固有 工作 集 的 尺寸 的 最 好 办 法 是 采用 全 相 联 的 高 速 缓存 和 大 小 为 一 个 字 
的 高 速 缓存 块 ， 以 不 同 尺 寸 的 高 速 缓存 模拟 该 程序 的 运行 ， 发 现 扑 空 率 和 高 速 缓存 尺寸 的 对 
照 曲 线 的 拐点 。 较 小 的 相 联 度 可 能 会 使 保持 工作 集 所 需要 的 高 速 缓存 的 尺寸 大 于 固有 的 工作 
集 的 尺寸 使 用 多 字 组 成 的 高 速 缓 存 块 也 会 产生 这 一 效果 (由 于 高 速 缓存 中 的 碎片 所 致 )。 
在 测量 中 ， 通 过 使 每 个 处 理 器 具有 单 级 全 相 联 高 速 缓存 ， 采 用 最 近 最 少 使 用 (LRU) 的 高 速 
缓存 替换 策略 和 8 字 节 的 高 速 缓存 块 ， 测 量 很 接近 固有 工作 集 的 尺寸 。 一 般 使 用 2 RE 
高 速 缓存 的 尺寸 ， 但 是 为 了 识别 拐点 ， 在 扑 空 率 随 高 速 缓存 尺寸 的 变化 更 为 显著 的 情况 下 ， 
我 们 以 更 小 的 粒度 改变 高 速 缓存 的 尺寸 。 

图 4-19 显示 了 6 个 并 行 应 用 的 扑 空 率 与 高 速 缓存 尺寸 的 对 照 曲线 ， 工 作 集 被 标注 为 1 级 
THER (L WS)、2 级 工作 级 (L, WS) 等 等 。 如 我 们 在 第 3 章 所 讨论 的 那样 ， 像 Ocean 这 样 
的 应 用 有 几 个 工作 集 ， 但 我 们 的 注意 力 集中 在 两 个 定义 最 清楚 和 最 重要 的 工作 集 上 。 除 了 这 
些 工 作 集 以 外 ， 某 些 应 用 还 有 微小 的 、 其 尺寸 不 随 问题 规模 和 处 理 器 数量 而 扩 放 的 工作 集 ; 
因此 它们 总 是 可 以 被 容纳 于 最 靠近 处 理 器 的 高 速 缓存 中 ， 称 这 些 工作 集 为 0 级 工作 集 (1。 
WS)。 典 型 地 ， 这 种 工作 集 是 由 堆栈 数据 所 组 成 ， 这 种 堆栈 数据 被 程序 作为 对 某 一 特定 基本 
计算 (例如 Bames-Hut 中 的 粒子 元 的 相互 作用 ) 的 临时 存储 而 使 用 并 且 在 这 些 计算 中 反复 使 

[259] 用 。 当 这 些 工作 集 可 以 被 观察 到 时 ， 将 它们 在 图 中 标 出 ， 但 是 不 对 它们 作 进一步 的 讨论 。 
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扑 空 率 (%) 
扑 空 率 (%) 





高 速 缓存 尺寸 (K) 高 速 缓存 尺寸 (K) 高 速 缓存 尺寸 (K) 
a) LU b) Ocean c) Barnes-Hut 


ER (%) 
扑 空 率 (%) 
HEE (%) 





高 速 缓存 尺寸 (K) 高 速 缓存 尺寸 (K) 高 速 缓存 尺寸 (K) 


d) Radiosity e) Raytrace f) Radix 


F419 在 16 个 处 理 器 执行 的 情况 下 6 个 并 行 应 用 的 工作 集 曲线 。 这 些 图 显示 了 在 每 个 处 理 器 具 

有 全 相 联 第 一 级 高 速 缓存 和 8 字 节 的 高 速 缓存 块 的 情况 下 ， 扑 空 率 和 高 速 缓存 尺寸 的 对 照 
我 们 看 到 在 大 多 数 情况 下 ， 工 作 和 集 是 非常 明确 地 定义 的 。 表 4-3 总 结 了 对 于 不 同 的 工作 
集 其 尺寸 如 何 随 应 用 参数 和 处 理 器 数量 而 扩 放 ; 对 于 性 能 而 言 它们 是 否 重要 (至 少 在 高 效 的 
高 速 缓存 一 致 的 机 器 上 〉 以 及 对 于 合理 的 问题 尺寸 ， 是 否 能 期 望 这 样 的 工作 集 无 法 被 现代 的 
第 二 级 高 速 缓 存 〈 具 有 合理 的 高 速 缓存 相 联 度 ， 至 少 高 于 直接 映射 ) 所 容纳 。 其 工作 集 在 最 
后 两 列 都 为 “是 ”的 应 用 是 Ocean, Radix 和 Raytrace。 回 忆 一 下 ,在 Ocean 中 ， 所 有 主要 的 
计算 流 过 一 个 或 多 个 网 格 在 一 个 进程 中 的 分 区 。 大 的 工作 集 包含 整个 网 格 在 一 个 进程 中 的 分 
区 ， 它 通过 重用 而 受益 。 所 以 ， 这 个 大 工作 集 是 否 能 为 现代 的 第 二 级 高 速 缓存 所 容纳 取决 于 
网 格 的 八 二 和 处 理 器 的 数量 。 在 Radix 中 ， 一 个 进程 流 过 它 的 所 有 n/p 个 键 字 ， 同 时 大 量 地 
访问 直方 图 数据 结构 〈 与 所 用 的 基数 成 比例 )。 所 以 ， 让 高 速 缓存 容纳 直方 图 是 重要 的 ， 但 
这 个 工作 集 没 有 被 明确 地 定义 ， 因 为 键 字 也 同时 流 过 。 较 大 的 工作 集 包含 键 字数 据 集 在 进程 
的 整个 划分 ， 它 或 许 能 或 许 不 能 被 高 速 缓存 所 容纳 ， 这 取决 于 参数 n 和 p。 最 后 ， 在 Raytrace 
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#43 SPLASH-2 测试 程序 集 的 重要 工作 集 和 它们 的 增长 速率 





实际 中 无 法 容纳 实际 中 是 否 无 法 
程序 工作 集 1 增长 速率 ”重要 ?” 于 高 速 缓存 ? 工作 集 2 增长 速率 重要 吗 容纳 于 高 速 缓存 
LU 一 块 固定 的 (B) Æ 否 DS 的 划分 DS/P 否 是 
Ocean 少数 子 行 J PIS DS 是 F DS 的 划分  DS/P 是 是 
Bames-Hut ”一 个 星体 的 (log DS)/0? Æ F DS 的 划分  DSIP 否 是 
树 状 数据 
Radiosity BSP 树 log( polygons) 是 否 非 结 构 化 IERE 否 是 
Radix 直方 图 Radix r 是 F DS 的 划分  DS/P 是 是 
Raytrace 在 光线 之 人 ” 非 结构 化 是 是 一 一 一 一 
重用 的 场景 
和 网 格 数据 


注 : DS 代表 数据 集 的 尺 寺 ，P 是 处 理 器 的 数量 。 


中 ,已 经 看 到 了 工作 集 发 散 因而 是 不 良 定义 的 ， 所 以 可 能 变 得 很 大 ， 它 取决 于 正在 被 跟踪 的 
场景 的 特征 和 视点 。 对 于 其 他 的 应 用 ， 我 们 期 望 对 于 实际 的 问题 和 机 器 的 规模 ， 重 要 工作 集 
能 够 被 高 速 缓存 所 容纳 。 在 后 续 章 节 评价 体系 结构 折 中 时 ， 根 据 我 们 的 方法 ， 应 该 考虑 这 一 
点 。 特 别 是 对 于 Ocean, Radix 和 Raytrace， 应 该 选择 较 大 的 工作 集 ， 履 盖 能 与 不 能 被 高 速 组 
存 容 纳 的 两 种 场景 ;因为 在 实践 中 ， 这 两 种 情况 都 存在 。 


4.5 结论 


至 此 ， 对 多 处 理 器 工作 负载 驱动 式 评价 的 主要 问题 已 经 有 了 很 好 的 理解 : 选择 工作 负 
载 ， 扩 放 问 题 和 机 融 的 规模 ， 处 理 大 的 参数 空间 ， 选 择 度量 指标 。 对 每 一 个 问题 ， 都 给 出 了 
一 组 应 遵循 的 指导 方针 和 步 又、 对 如 何 避 免 误 区 的 理解 以 及 对 研究 的 局 限 性 的 理解 。 我 们 已 
经 具备 了 在 阅读 本 书 的 剩余 部 分 时 ， 做 出 对 体系 结构 折 中 的 定量 说 明 的 基础 。 本 书 中 的 实验 
是 为 了 说 明 要 点 ， 而 不 是 为 了 全 面 地 评价 那些 折 中 ， 因 为 后 者 要 求 范围 广泛 得 多 的 工作 负载 
和 参数 变化 。 

我 们 已 经 看 到 了 应 该 选择 那些 能 够 代表 宽 范围 的 应 用 、 行 为 模式 和 优化 级 别 的 工作 负 
载 。 尽 管 完整 的 应 用 和 多 道 程序 的 工作 负载 是 不 可 缺少 的 ， 但 像 微 基准 测试 程序 和 内 核 程 序 
这 样 较 简单 的 工作 负载 也 可 以 扮演 重要 的 角色 。 

我 们 也 看 到 了 要 实现 适当 的 工作 负载 驱动 式 评价 ， 要 求 既 要 理解 工作 负载 的 相关 行为 特 
性 ， 也 要 理解 这 些 特 性 和 体系 结构 参数 之 间 的 相互 作用 。 虽 然 这 个 问题 是 复杂 的 ， 但 我 们 已 
经 考察 了 处 理 巨 大 的 参数 空间 的 指导 方针 ， 以 便 对 真实 的 机 器 以 及 体系 结构 上 的 折 中 进行 评 
价 ， 并 且 在 仍然 能 覆盖 各 种 真实 情况 的 前 提 下 对 参数 空间 进行 剪裁 。 

规模 扩 放 的 问题 进一步 强调 了 理解 工作 负载 的 相关 性 质 的 重要 性 ， 它 影响 所 有 重要 的 特 
征 及 相互 作用 。 执 行 时 间 和 存储 器 两 者 都 可 能 成 为 扩 放 的 约束 ， 而 应 用 通常 有 着 一 个 以 上 决 
定 关键 执行 特性 的 参数 。 我 们 基于 对 这 些 参 数 、 它 们 的 相互 作用 、 它 们 对 执行 时 间 和 存储 器 
的 需求 的 理解 而 扩 放 程序 的 规模 。 我 们 看 到 ， 由 应 用 需求 所 驱动 的 实际 的 规模 扩 放 模型 在 评 
价 体系 结构 重要 性 方面 得 出 的 结论 与 仅仅 扩 放 单个 应 用 参数 的 初级 模型 的 结论 完全 不 同 。 事 
实 上 ， 规 模 扩 放 对 于 设计 和 评价 都 是 重要 的 。 在 评价 技术 如 何 适 应 扩 放 〈 比 如 ， 相 对 于 存储 
器 各 网络 速 度 的 处 理 器 速度 ) 的 同时 ， 理 解 应 用 的 扩 放 以 及 它 的 内 涵 ， 对 于 决定 未 来 机 器 合 
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适 的 资源 分 布 是 非常 重要 的 (Rothberg, Singh, and Gupta 1993). 

在 我 们 关于 选择 评价 和 结果 表示 的 指标 的 讨论 中 也 有 很 多 有 意思 的 问题 。 例 如 ， 了 解 执 
行 时 间 (最 好 将 每 个 处 理 器 进一步 细 分 为 主要 组 成 部 件 ) 和 加 速 比 都 是 应 该 加 以 表示 的 很 有 
用 的 指标 ， 而 诸如 MFLOPS 或 MIPS 这 样 基于 速率 的 指标 或 利用 率 指标 对 特定 的 目的 而 言 ， 
可 能 是 有 用 的 ; 但 作为 通用 的 指标 ， 它 们 太 容易 受到 问题 的 影响 。 

在 本 书 的 后 续 部 分 ,将 举例 说 明 对 具有 共享 地 址 空间 的 真实 系统 及 体系 结构 折 中 的 工作 
负载 驱动 式 的 评价 ， 本 章 描述 了 用 于 该 评价 的 主要 工作 负载 ， 定 量 说 明了 它们 的 特征 。( 对 
于 消息 传递 型 的 系统 ， 将 在 第 7 章 简要 地 考察 一 个 标准 的 消息 传递 基准 测试 程序 集 ， 即 NAS 
并 行 基准 测试 程序 I [NPB2] 的 性 能 。) 现在 ,我 们 的 基础 已 经 足够 牢固 ， 可 以 进一步 研究 
核心 的 体系 结构 和 设计 。 


习题 


4.1 1) 假设 为 高 速 缓存 一 致 的 机 器 的 通信 体系 结构 建议 了 一 种 新 的 特性 ， 你 要 对 该 特性 进 
行 评 价 研究 。 你 的 经 理 告诉 你 ， 你 在 评价 中 只 能 使 用 不 超过 3 个 并 行程 序 ， 尽 管 这 
不 符合 你 对 问题 的 更 好 的 判断 ， 但 你 不 得 不 服从 。 从 本 章 和 第 3 章 所 考察 的 7 个 并 
行程 序 (包括 多 道 程 序 的 工作 负载 ) 中 ， 你 将 选择 哪 3 个 ?为 什么 ? 
2) 假如 你 知道 该 特性 是 为 改善 机 器 的 通信 带宽 而 设计 的 ， 你 的 选择 会 受到 什么 影响 ? 
3) 假如 该 特性 是 为 了 增加 用 于 非 本 地 分 配 的 数据 的 有 效 复制 存储 ， 你 将 选择 什么 
程序 ? 
4.2 请 说 明 与 MC 扩 放 相 比较 ，TC 扩 放 的 根本 问题 ， 试 举例 说 明 。 
4.3 ”假定 你 必须 评价 系统 的 可 扩展 性 。 一 种 可 能 的 方法 是 像 本 章 所 定义 的 那样 测量 不 同 规 
模 扩 放 模型 下 的 加 速 。 另 一 个 办 法 是 决定 要 想 达 到 70% 并 行 效率 ,问题 的 规模 应 如 何 
扩 放 。 这 两 个 方法 的 优点 ， 特 别 是 缺点 和 警示 是 什么 ? 你 实际 将 如 何 做 ? 
4.4 你 的 经 理 要 求 你 比较 两 类 基于 相同 的 单 处 理 器 节点 的 系统 ， 但 它们 的 通信 体系 结构 有 
一 些 有 趣 的 差别 。 经 理 告诉 你 ， 她 仅仅 关心 10 个 特定 的 应 用 。 她 指示 你 ， 在 为 每 个 应 
用 指定 固定 数量 的 处 理 器 和 固定 的 问题 规模 (你 的 选择 ) 的 前 提 下 ， 只 需要 产生 能 说 
明 哪 个 系统 更 好 的 单一 数字 形式 的 测量 ;尽管 你 认为 对 这 些 并 行 应 用 求 平均 不 是 一 个 
好 主意 。 在 选 定 问题 的 规模 之 前 你 还 要 问 她 什么 额外 的 问题 ? 你 将 向 她 报告 哪 种 平均 
值 的 测量 ? 为 什么 ? 
4.5 一 个 系统 经 常会 对 某 个 应 用 呈现 好 的 加 速 比 ， 尽 管 它 的 通信 体系 结构 对 该 应 用 并 不 是 
很 合适 。 为 什么 会 发 生 这 样 的 事 ? 除了 加 速 比 之 外 ， 你 能 否 设 计 一 种 指标 ， 它 能 够 测 
量 通 信 体 系 结构 对 于 该 应 用 的 有 效 性 。 讨 论 设计 这 样 一 个 指标 可 能 碰 到 的 问题 和 不 同 
的 方案 。 
4.6 你 读 到 的 一 篇 研究 论文 建议 了 一 种 通信 体系 结构 机 制 ， 并 告诉 你 ， 以 一 台 具 有 32 个 处 
理 器 的 机 器 的 特定 通信 体系 结构 为 基础 ， 该 机 制 对 某 些 你 关心 的 工作 负载 的 性 能 改善 
达 40%。 该 信息 是 否 足以 使 你 决定 将 该 机 制 包括 到 你 将 要 设计 的 下 一 台 机 器 中 去 ”如 
果 不 是 ， 请 列 出 为 什么 不 这 样 做 的 主要 理由 ， 并 说 明 你 还 需要 哪些 其 他 的 信息 。 假 设 
你 将 要 设计 的 机 器 也 具有 32 个 处 理 器 。 
4.7 假设 你 要 设计 一 些 实验 来 比较 在 一 个 共享 地 址 空间 机 器 上 实现 锁 的 不 同方 法 ， 你 想 要 
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4.8 


4.9 


测量 什么 样 的 性 能 特性 ? 你 要 设计 什么 样 的 微 基准 程序 ? 你 需要 的 专门 性 能 测量 是 什 
么 ? 然后 对 于 全 局 栅 障 情况 回答 相同 的 问题 。 

你 已 经 设计 了 一 个 方法 ,在 第 一 章 所 讨论 的 Intel Pentium Pro“quad” 这 样 的 基于 总 线 的 
共享 存储 器 多 处 理 器 上 ， 用 软件 透明 地 支持 共享 地 址 空间 通信 的 抽象 。 在 一 个 4 处 理 
恬 节 点 中 ， 以 硬件 的 高 效 性 支持 一 致 的 共享 存储 器 ;而 跨 节点 时 ， 一 致 的 共享 存储 器 
则 是 用 软件 以 低 得 多 的 效率 支持 的 。 给 定 一 组 应 用 和 感 兴趣 的 问题 规模 ， 你 将 要 写 一 
个 评价 你 的 系统 的 研究 报告 。 你 可 能 希望 进行 什么 样 的 性 能 比较 来 理解 这 个 跨 节 点 体 
系 结构 的 有 效 性 ? 你 会 设计 什么 样 的 实验 ? 每 一 种 类 型 的 实验 将 告诉 你 什么 ?你 将 使 
用 什么 样 的 指标 ? 你 有 16 个 基于 总 线 的 多 处 理 器 节点 ， 每 个 节点 上 有 4 个 处 理 器 ， 总 
共有 64 个 处 理 器 。 假 设 你 使 用 问题 约束 的 扩 放 ， 而 且 你 已 经 选择 了 问题 的 规模 。 

如 本 章 所 讨论 的 ， 在 实际 研究 体系 结构 折 中 时 通常 使 用 两 种 类 型 的 模拟 : 轨迹 驱动 的 
和 执行 豫 动 的 。 在 轨迹 驱动 的 模拟 和 执行 驱动 的 模拟 之 间 的 主要 折 中 是 什么 ? 在 什么 
条 件 下 ， 你 认为 结果 (比如 ， 一 个 程序 的 执行 时 间 ) 会 显著 不 同 。 


4,10 考虑 多 处 理 器 模拟 的 难度 和 精度 。 


4.11 


1) 考虑 处 理 器 、 存 储 系统 、 网 络 、 通 信和 辅助 部 件 、 时 延 、 带 宽 或 者 竞争 ， 你 认为 系 
统 哪个 方面 最 难 被 精确 地 模拟 ?哪个 方面 相对 来 说 容易 模拟 ? 在 每 一 种 情况 下 ， 
主要 的 困难 是 什么 ”在 这 诸多 方面 ， 你 认为 哪 一 些 最 重要 ， 应 该 非常 精确 地 加 以 
模拟 ? 而 哪 一 些 可 以 牺牲 一 些 模拟 的 精度 ? 
当 试图 评价 通信 体系 结构 的 折 中 的 影响 时 ， 考 虑 适当 地 模拟 处 理 器 流水 线 的 重要 
性 。 尽 管 很 多 现代 的 处 理 器 是 超标 量 的 和 动态 调度 的 ， 一 个 单条 指令 发 射 的 静态 
调度 的 处 理 器 的 模拟 却 要 容易 得 多 。 假 设 你 想 要 模拟 的 实际 处 理 器 主 频 为 200 
MHz， 具 有 双 指 令 发 射 能 力 ， 但 实现 了 每 条 指令 1.5 个 周期 (1.5 CPL) 的 完美 存储 
器 。 你 能 和 否 在 一 个 致力 于 理解 网 络 传送 时 延 的 改变 对 端 性 能 的 影响 的 研究 中 ， 把 
它 模拟 成 一 个 具有 300 MH 主 频 、 指 令 单 发 的 处 理 器 蚂 ? 主要 要 考虑 的 问题 是 
什么 ? 
考虑 你 所 熟悉 的 在 一 个 二 维 网 格 上 的 最 近邻 居 网 格 计算 的 迭代 ， 使 用 子 块 分 割 。 假 设 
我 们 使 用 四 维 数组 的 表示 ， 其 中 前 两 维 表示 适当 的 分 区 ， 我 们 要 评价 的 全 规模 问题 是 
一 个 有 双 精 度 元 素 的 8 192 x 8 192 的 网 格 ， 有 256 个 处 理 器 ， 每 个 处 理 器 有 256 KB 的 
直接 映射 高 速 缓存 ， 高 速 缓存 块 的 尺寸 为 128 字 节 。 我 们 不 能 模拟 这 么 大 规模 的 问 
题 ， 但 是 可 以 模拟 一 个 64 个 处 理 器 的 512 x 512 的 网 格 问题 。 
1) 你 要 选择 的 高 速 缓存 的 尺寸 是 什么 ?为 什么 这 样 选择 ? 
2) 列 出 选择 太 小 的 高 速 缓存 会 带 来 的 危险 。 
3) 你 要 选择 什么 样 的 高 速 缓存 的 块 尺寸 和 相 联 性 ?会 涉及 到 什么 样 的 问题 和 禁 有 如 ? 
4) 在 多 大 程度 上 你 认为 结果 对 于 在 更 大 机 器 上 的 全 规模 的 问题 有 代表 性 ? 你 会 用 这 
种 配置 去 评价 对 某 种 通信 体系 结构 的 优化 吗 ? 可 以 评价 该 应 用 在 机 器 上 获得 的 加 
速 比 吗 ? 
在 像 Bames-Hut 这 样 的 星系 模拟 的 科学 应 用 中 ， 影 响 扩 放 的 关键 问题 是 误差 。 这 些 应 
用 经 常 模 拟 发 生 在 自然 界 的 物理 现象 ， 通 过 一 些 近似 ， 用 一 个 离散 的 模型 来 表示 一 个 
连续 的 现象 并 采用 数值 逼近 的 技术 来 解决 问题 。 有 几 个 应 用 参数 代表 了 不 同 的 近似 的 
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4.13 


源 ， 因 此 也 代表 了 模拟 中 的 误差 。 比 如 ， 在 Barnes-Hut 中 ， 粒 子 的 数量 n 代表 了 对 星 

系 采 样 的 精度 (空间 的 离散 化 )， 时 间 步 间隙 Ac 表示 了 时 间 离 散 化 所 做 的 近似 ， 力 计 

算 精度 参数 9 决定 了 该 计算 的 近似 程度 。 运 行 较 大 问题 的 应 用 科学 家 的 目标 通常 是 在 

模拟 中 减少 总 体 误差 ， 并 使 它 更 加 精确 地 反映 被 模拟 的 现象 。 尽 管 科 学 家 调整 不 同 的 

近似 时 没有 通用 的 规则 可 循 ， 但 是 对 一 个 物理 模拟 来 说 ， 既 具有 直觉 上 的 吸引 力 ， 又 

其 广泛 实践 应 用 性 的 原则 是 : 应 该 调整 所 有 的 误差 源 ， 这 样 它们 的 误差 影响 是 相 

等 的 。 

对 于 Barnes-Hut 这 样 的 星系 模拟 ,星体 物理 学 的 研究 (Hernquist 1987; Barnes 和 Hut 

1989) 表明 ， 当 某 些 误差 影响 不 是 完全 独立 时 ， 下 列 规则 在 感 兴趣 的 参数 范围 内 是 有 

效 的 : 

on: n 增 加; 倍 会 导致 模拟 误差 降低 /s 售 。 

e At: 为 了 随时 间 而 归并 粒子 轨道 所 使 用 的 方法 有 一 个 At 数量 级 的 的 全 局 误差 。 
因此 ， 误 差 降低 /* 倍 (为 了 匹配 n 的 * 倍 的 增加 ) BOR Ar 降低 从 倍 。 这 意味 着 要 
想 让 模拟 持续 保持 不 变 的 恒定 量 的 物理 时 间 ， 时 间 步 数 需要 增加 ys 倍 。 

。 0: 在 有 实际 意义 的 范围 内 ， 力 的 计算 误差 和 9? 成 比例 ， 因 此 ， 误 差 降低 /s 倍 会 
要 求 9 降低 / 信 。 

假设 在 本 习题 中 ， 某 个 规模 的 问题 在 p 个 处 理 器 上 的 执行 时 间 是 在 一 个 处 理 器 上 的 执 

行 时 间 的 1/p; 也 就 是 说 ， 在 问题 约束 扩 放 下 ， 那 个 问题 规模 获得 了 完美 的 加 速 比 。 

1) 如 果 n 增加 了 ; 倍 ， 你 要 如 何 调整 其 他 的 参数 A Az? 与 只 调整 粒子 的 数量 n 的 
简单 扩 放 对 照 ， 把 这 个 规则 称 为 真实 扩 放 。 

2) 在 串 行 程序 中 ,数据 集 的 尺寸 和 成 比例 并 和 其 他 的 参数 无 关 。 在 共享 地 址 空间 
中 ， 在 真实 扩 放 和 简单 扩 放下 的 存储 器 需求 的 增长 是 否 不 同 (假定 重要 的 工作 集 
能 容纳 于 高 速 缓存 )? 在 消息 传递 型 系统 中 会 如 何 呢 ? 

3) 串 行 执行 时 间 的 增长 大 约 是 遵循 

+ i ‘nlogn 
(假设 模拟 固定 量 的 物理 时 间 )。 如 果 n 扩大 s 倍 ， 假 设 完美 加 速 比 的 情况 ， 在 真 
实 扩 放 和 简单 扩 放 中 ， 在 p 个 处 理 器 上 的 并 行 执行 时 间 如 何 调整 ? 

4) 当 处 理 器 数量 增长 倍 ， 在 MC 扩 放 模型 下 ,采用 简单 和 真实 两 种 扩 放 时 ， 并 行 
执行 时 间 如 何 增长 ”如 果 在 基本 的 机 器 上 (未 扩大 规模 之 前 ) 运行 该 问题 需要 一 
天 ， 对 于 简单 模型 和 真实 模型 下 ， 在 扩大 的 机 器 上 运行 该 问题 需要 多 长 时 间 ? 

5) 对 于 简单 模型 和 真实 模型 ， 当 处 理 器 数目 增加 丰 倍 ， 在 共享 地 址 空间 中 可 以 模拟 
的 粒子 数量 在 TC 扩 放 下 如 何 增长 ? 

6) 对 于 这 个 应 用 哪 种 扩 放 模型 更 加 实际 ? MC 还 是 TC? 

对 于 Bames-Hut 这 个 例子 ， 在 真实 和 简单 的 MC、TC 和 PC 扩 放 模型 下 ， 如 何 扩 放下 面 

的 执行 特征 ? 

D 通信 与 计算 的 比率 。 首 先 假设 它 仅仅 与 n 和 处 理 器 数量 p AK, HERR DA 变化， 
请 在 不 同 的 模型 下 粗略 的 画 出 这 个 比值 随处 理 器 数量 增长 速率 的 曲线 。 然 后 说 明 
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在 不 同 的 扩 放 模型 下 ， 其 他 参数 可 能 产生 的 影响 。 

2) 在 共享 地 址 空间 的 机 器 上 为 了 获得 好 的 性 能 所 需要 的 不 同 工 作 集 的 规模 和 与 此 相 
适应 的 高 速 缓存 的 尺寸 ， 请 粗略 地 描绘 在 不 同 模型 下 ， 随 着 处 理 器 数量 的 增加 ， 
最 重要 工作 集 的 增长 速率 曲线 。 它 在 扩 放 方面 补充 了 什么 主要 的 方法 上 的 结论 ? 
评价 一 下 这 些 趋势 和 在 消息 传递 型 系统 中 局 部 基本 树 所 需要 的 本 地 复制 量 的 趋势 
有 什么 不 同 。 

3) 同步 的 频率 (比如 说 每 个 单元 计算 一 次 )， 包 括 加 锁 和 要 障 两 者 。 至 少 定量 地 加 以 
描述 。 

4) 输入 /输出 操作 的 平均 频率 和 规模 ， 假 设 每 个 处 理 器 打印 出 所 有 分 配给 它 的 星体 的 
位 置 i) 每 十 个 时 间 步 打印 一 次 ; ii) 每 隔 固定 量 的 模拟 物理 时 间 (比如 ， 在 星系 
演化 中 模拟 时 间 中 的 每 一 年 )。 

5) 在 一 致 共享 地 址 空间 中 的 力 的 计算 中 ， 可 能 同时 共享 (访问 ) 一 个 给 定 的 星体 数 
据 的 处 理 器 的 数量 。( 正 如 我 们 将 在 第 8 章 中 看 到 的 ， 这 个 信息 在 为 可 扩展 的 共享 
地 址 空间 的 机 器 设计 高 速 缓存 一 致 性 协议 时 有 用 处 。) 

6) 在 显 式 的 消息 传递 型 实现 中 消息 的 频率 和 尺寸 。 集 中 在 力 计 算 所 需要 的 通信 ， 假 
设 每 个 处 理 器 向 其 他 每 个 处 理 器 仅仅 发 送 一 条 消息 ， 该 消息 传送 了 后 者 在 该 时 间 
步 计算 它 的 力 需要 从 前 者 获得 的 数据 。 

基数 分 类 应 用 需要 并 行 的 前 序 计算 ， 从 局 部 直方 图 计算 出 全 局 直方 图 。 该 计算 的 一 个 

简化 的 版 本 如 下 。 假 设 p 个 进程 中 的 每 一 个 进程 有 一 个 已 经 计算 好 的 局 部 值 (把 这 看 

作 表 示 那 个 进程 的 直方 图 中 对 应 于 给 定数 位 值 的 键 字 的 数量 )。 我 们 的 目标 是 计算 一 

个 有 p 个 项 的 数组 ,项 i 是 从 进程 0 到 进程 i-1 所 有 局 部 值 的 总 和 。 

1) 描述 并 实现 计算 这 个 输出 数组 的 最 简单 的 线性 方法 。 

2) 现在 设计 一 个 具有 较 短 关 键 路 径 的 并 行 方法 。 GER: 你 可 以 使 用 树 结构 。) 分 析 
每 个 方法 所 需要 的 时 间 。 实 现 这 两 个 方法 ， 比 较 它们 在 你 所 选择 的 机 器 上 的 性 能 。 
在 这 里 可 以 使 用 简化 的 例子 或 者 更 完整 一 些 的 例子 ，“ 本 地 值 ”实际 上 是 一 个 数 
组 ， 每 个 项 是 基数 的 一 个 数位 ， 输 出 数组 是 二 维 的 、 由 进程 标识 符 和 基数 数位 索 
引 的 数组 。 也 就 是 赔 ， 更 完整 一 些 的 例子 对 于 每 个 基数 数位 都 进行 计算 ， 而 不 是 
只 计算 一 个 基数 数位 。 

3) 讨论 在 后 一 个 方法 中 你 能 够 使 用 的 协调 同步 的 不 同方 法 以 及 它们 之 间 的 折 中 。 


第 5 章 共享 存储 的 多 处 理 器 


并 行 体系 结构 最 常见 的 形式 是 中 小 规模 的 多 处 理 器 ， 它 提供 全 局 物理 地 址 空间 ， 可 以 从 
任何 处 理 器 对 等 地 访问 全 部 主 存 。 这 种 体系 结构 通常 称 为 对 称 多 处 理 器 〈SMP)。 每 个 处 理 
器 均 有 自己 的 高 速 缓存 ， 所 有 的 处 理 器 和 存储 模块 均 连 接 在 同一 个 互 连 设 备 上 ， 此 互 连 设备 
通常 是 一 共享 总 线 。SMP 机 器 在 服务 器 市 场 上 占据 着 主导 地 位 ， 在 桌面 计算 机 市 场 上 也 日 益 
流行 ， 同 时 它们 还 是 构成 大 规模 系统 的 重要 组 件 。 由 于 对 存储 器 和 处 理 器 等 资源 的 有 效 共 
享 ， 这 些 SMP 机 器 有 很 强 的 吞吐 能 力 ， 在 同时 处 理 多 个 对 存储 器 与 CPU 需求 各 异 的 串 行 作 
业 时 表现 不 凡 。 这 种 机 器 的 各 个 处 理 器 可 以 使 用 普通 的 装 人 和 存储 命令 高 效 地 访问 共享 数 
据 ， 还 可 以 自动 地 在 各 自 的 高 速 缓存 中 移动 和 复制 共享 数据 。 这 些 特 性 对 并 行程 序 设计 颇具 
吸引 力 。 另 外 ， 这 些 特性 对 操作 系统 也 相当 有 用 ， 使 操作 系统 的 不 同 进程 可 以 共享 数据 结 
构 ， 但 在 不 同 的 处 理 器 上 运行 。 

从 图 5-1 所 示 的 通信 体系 结构 的 层次 观点 来 看 ， 这 种 共享 地 址 空间 的 程序 设计 模型 可 以 
直接 由 硬件 支持 。 用 户 进程 可 以 用 共享 虚拟 地 址 进行 读 写 操作 。 这 些 操作 通过 对 共享 物理 地 
址 的 装 入 和 存储 指令 来 实现 。 事 实 上 ， 这 里 的 程序 设计 模型 和 硬件 操作 之 间 的 关系 是 如 此 密 
切 ， 以 至 于 它们 通常 都 被 简单 地 称 为 “共享 存储 " 。 一 个 消息 传递 的 程序 设计 模型 可 由 一 个 
软件 层 来 实现 一 一 典型 的 例子 是 某 个 运行 库 。 这 一 软件 层 将 共享 地 址 空间 的 大 部 分 划分 给 每 
个 进程 ， 当 作 它 们 的 私有 地 址 空间 来 处 理 ， 而 将 另外 一 些 共 享 地 址 空间 按照 进程 间 的 消息 组 
冲 区 进行 管理 。 通 过 在 这 些 缓冲 区 中 做 数据 拷贝 的 方式 来 实现 发 送 和 接收 操作 。 由 于 共享 组 
冲 区 地 址 的 翻译 和 保护 由 硬件 提供 ， 这 部 分 工作 无 须 涉及 操作 系统 。 出 于 可 移植 性 的 考虑 ， 
大 部 分 消息 传递 程序 设计 接口 均 在 常见 的 SMP 上 得 到 实现 。 事 实 上 ， 只 要 对 共享 总 线 和 存 
储 的 争 用 不 成 为 瓶颈 ， 这 种 实现 对 消息 传递 程序 带 来 的 性 能 往往 优 于 传统 的 分 布 式 存储 消息 
传递 系统 。 这 在 很 大 程度 上 是 由 于 没有 涉及 到 操作 系统 。 操 作 系 统 仍然 用 于 输入 /输出 和 对 
多 道 程序 设计 的 支持 。 








j 编程 模型 
消息 传递 多 道 程序 设计 em 
编译 或 库 通信 抽象 ” 
共享 地 址 空间 | 操作 系统 支持 用 户 / 系统 边界 
硬件 / 软件 边界 
通信 硬件 
物理 通信 介质 


图 5-1 基于 总 线 的 SMP 系统 的 通信 体系 结构 抽象 层次 。 共 
享 地 址 空间 由 硬件 直接 支持 ， 而 消息 传递 由 软件 支持 
由 于 所 有 的 通信 操作 和 本 地 计算 均 产 生 对 共享 地 址 空间 中 的 存储 访问 ， 从 系统 设计 者 的 
观点 来 看 ， 高 层 设计 的 关键 问题 在 于 对 这 种 扩展 存储 层次 的 组 织 。 通 常 多 处 理 器 的 存储 层次 
分 为 4 类 ， 如 图 5-2 所 示 ， 这 4 类 层次 与 可 考虑 到 的 多 处 理 器 规模 大 致 对 应 。 前 3 个 对 应 的 
都 是 对 称 式 多 处 理 器 〈 所 有 处 理 器 到 所 有 主 存 空 间 的 访问 时 间 都 一 样 ) ， 而 第 4 个 不 同 。 
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b) 基于 总 线 的 共享 存储 器 





o) 舞厅 D 分 布 式 存储 器 
图 5-2 多 处 理 器 中 常见 的 扩展 存储 层次 结构 


在 共享 高 速 缓存 方式 下 (如 图 5-2a 所 示 )， 互 连 设 备 位 于 处 理 器 和 共享 的 一 级 高 速 缓存 
之 间 ， 而 此 高 速 缓存 连接 到 共享 主 存 子 系统 上 。 高 速 缓存 和 主 存 系统 都 可 以 是 按 交 叉 方式 组 
织 的 ， 从 而 可 以 增加 有 效 带宽 。 这 种 方法 适用 于 处 理 器 数目 较 少 的 情况 (2~ 8 个 )。 在 20 
世纪 80 年 代 中 期 ， 在 一 块 电路 板 上 安放 一 对 处 理 器 是 常见 的 。 而 现在 ， 这 可 能 在 单 片 多 处 
理 器 上 实现 ， 即 几 个 处 理 器 在 同一 块 世 片上， 共享 芯片 上 的 一 级 高 速 缓存 。 然 而 ， 这 种 策略 
仅 适 于 很 小 的 规模 ， 因 为 处 理 器 和 它们 共享 的 一 级 高 速 缓存 之 间 的 互 连 机 构 是 决定 高 速 缓存 
访问 延迟 的 关键 因素 ， 还 由 于 该 高 速 缓存 必须 为 多 个 处 理 器 的 同时 访问 提供 很 高 的 带宽 。 

在 基于 总 线 的 共享 存储 方式 下 (如 图 5-2b 所 示 ) ， 互 连 设备 是 共享 总 线 ， 它 位 于 处 理 器 
的 私有 高 速 缓存 〈 或 高 速 缓存 的 某 种 层次 结构 ) 和 共享 主 存 子 系统 之 间 。 这 种 方式 广泛 用 于 
中 小 规模 的 多 处 理 器 之 上 ， 典 型 的 中 小 规模 多 处 理 器 通常 包括 20 或 30 个 处 理 器 。 目 前 出 售 
的 并 行 计算 机 主要 是 这 种 形式 。 在 现代 的 多 处 理 器 设计 中 ， 投 入 的 大 量 设计 工作 都 是 为 了 支 
持 “ 高 速 缓存 一 致 性 ”的 共享 存储 系统 。 例 如 ，Intel 的 Pentium Pro 处 理 器 可 以 直接 挂 在 共享 
总 线 上 ， 无 须 任何 “ 粘 接 逻 辑 "。 低 成 本 的 基于 总 线 的 机 器 常常 使 用 这 些 处 理 器 ， 极 大 地 推 
广 了 基于 总 线 的 共享 存储 方式 的 使 用 。 这 种 机 器 的 扩展 限制 主要 来 自 于 共享 总 线 和 存储 系统 
的 带宽 限制 。 

最 后 的 两 种 方式 可 扩展 到 许多 处 理 节 点 。“ 舞 厅 ” (dancehall) 方式 也 将 互 连 设备 放 在 高 
速 缓存 与 主 存 之 间 ， 但 这 时 的 互 连 设备 不 一 定 只 是 总 线 ， 它 可 以 是 可 扩展 的 端 到 端 互连网 
络 ， 回 时 存储 器 划分 为 许多 逻辑 模块 ， 这 些 模块 连接 到 巨 连 设备 中 逻辑 上 不 同 的 位 置 (如 图 
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5-2e 所 示 )， 这 种 方式 是 对 称 的 ， 即 所 有 主 存 模块 到 所 有 处 理 器 的 距离 相同 。 但 这 种 方式 也 
有 局 限 性 ， 即 存储 器 到 所 有 处 理 器 的 更 离 太 远 。 特 别 是 在 规模 较 大 的 系统 中 ， 为 了 使 得 所 有 
的 处 理 器 能 访问 所 有 的 存储 模块 ， 必 须 经 过 互连网 络 中 的 若干 “ 跳 步 "。 第 4 种 方式 是 分 布 
存储 方式 ， 它 不 是 对 称 性 的 。 可 扩展 的 互 连 设 备 位 于 处 理 节 点 之 间 ， 但 每 个 节点 均 在 全 局 存 
储 中 拥有 自己 的 一 部 分 本 地 存储 ， 对 这 部 分 主 存 的 访问 速度 更 快 ( 如 图 5-2d 所 示 )。 通 过 在 
分 布 的 数据 中 发 握 局 部 性 ， 大 部 分 高 速 缓存 失效 可 以 在 本 地 存储 中 满足 ， 无 须 跨越 网 络 。 这 
种 设计 对 可 扩展 的 多 处 理 器 最 具 吸 引力 。 本 书 中 后 面 的 若 于 章节 会 集中 于 这 一 主题 。 当 然 ， 
也 可 以 将 上 述 方式 组 合 在 一 种 机 器 设计 中 一 一 例如 ， 设 计 一 台 分 布 式 存储 的 机 器 ， 其 节点 是 
基于 总 线 的 SMP; 或 设计 一 台 机 器 ， 其 处 理 器 共享 的 高 速 缓存 不 是 一 级 高 速 缓存 。 

在 种 种 情况 下 ， 高 速 缓存 总 是 扮演 着 重要 角色 ， 对 处 理 器 而 言 ， 高 速 缓存 可 以 减少 平均 
数据 访问 时 间 ， 对 共享 的 互 连 设 备 和 存储 系统 而 言 ， 它 可 以 减少 每 个 处 理 器 需要 的 通信 带 
宽 。 带 宽 需求 的 减少 是 因为 某 个 处 理 器 提出 的 数据 访问 要 求 可 在 高 速 缓 在 中 得 到 满足 ， 无 须 
使 用 互 连 没 备 。 除 了 共享 高 速 缓存 方式 之 外 ， 其 他 方式 下 每 个 处 理 器 至 少 有 一 级 私有 的 高 速 
缓 仓 ， 这 带 来 了 一 个 非常 关键 的 问题 一 一 高 速 缓存 一 致 性 问题 。 当 同一 个 存储 块 的 副本 出 现 
在 一 个 或 多 个 处 理 器 的 高 速 缓存 中 时 ， 就 会 产生 这 样 一 个 问题 : 如 果 某 个 处 理 器 写 人 并 因而 
修改 了 此 存储 块 ， 那 么 除非 采用 特殊 的 操作 ， 否 则 其 他 处 理 器 在 访问 此 存储 块 时 ， 实 际 上 访 
问 的 还 是 自己 高 速 缓存 中 保存 的 旧 内 容 。 

当前 ， 大 多 数 小 规模 的 多 处 理 器 使 用 共享 总 线 互 连 设备 ， 每 个 处 理 器 有 自己 的 高 速 组 
存 ， 同 时 这 些 处 理 器 共享 集中 式 主 存 ; 而 舞厅 和 共享 高 速 绥 存 方式 只 是 用 在 特定 的 条 件 下 。 
随 着 技术 的 演化 ， 具 体 的 系统 组 织 方式 可 能 会 发 生变 化 。 然 而 ， 基 于 总 线 的 组 织 方式 和 分 布 
式 存储 组 织 方式 是 当前 最 流行 的 方式 ， 它 们 体现 了 解决 高 速 缓存 一 致 性 问题 的 两 种 基本 方 
法 。 根 据 互 连 设备 本 质 特性 的 不 同 ， 一 种 方法 适用 的 情况 是 ， 互 连 设备 上 的 操作 对 所 有 的 处 
理 器 均 是 可 见 的 〈 类 似 总 线 ); 在 另 一 种 情况 下 ， 互 连 设备 不 是 集中 式 的 ， 端 到 端的 操作 仅 
对 于 其 参与 者 可 见 。 本 章 主要 讨论 协议 的 逻辑 设计 ， 这 种 协议 应 能 充分 利用 总 线 的 基本 属性 
解决 高 速 缓存 一 致 性 的 问题 。 与 这 些 高 速 缓存 一 致 性 技术 的 硬件 实现 相关 的 设计 问题 在 下 一 
章 介绍 。 可 扩展 的 分 布 式 存储 多 处 理 器 的 基本 设计 在 第 7 章 介绍 ， 随 后 的 第 8、9 章 涵盖 了 
特定 于 可 扩展 高 速 缓存 一 致 性 的 问题 。 

5.1 节 详 细 地 描述 了 共享 存储 体系 结构 的 高 速 缓存 一 致 性 问题 ， 并 给 出 一 个 最 简单 的 例 
F, BAAR X (snooping) 高 速 缓存 一 致 性 协议 。 一 致 性 不 仅 是 一 个 关键 性 的 硬件 设计 概 
念 ， 而 且 是 存储 抽象 的 直观 概念 中 不 可 或 缺 的 部 分 。 然 而 在 存储 行为 方面 ， 并 行 软件 常常 需 
要 依赖 比 这 种 一 致 性 更 强 的 假设 。5.2 节 对 第 1 章 提 出 的 序 的 概念 作 进 一 步 讨论 ， 引 入 存储 
同一 性 (consistency) 的 概念 ， 这 一 概念 定义 了 共享 地 址 空间 的 语义 。 在 计算 机 体系 结构 和 
编译 器 设计 中 ， 这 一 问题 越 来 越 重要 ; 近来 大 多 数 指令 集 系统 结构 的 参考 手册 中 ， 有 很 大 篇 
幅 在 介绍 存储 同一 性 模型 。 在 有 了 存储 抽象 和 相关 的 概念 之 后 ，5.3 节 详细 介绍 了 一 些 更 实 
用 的 侦 听 协议 ， 同 时 向 读者 展示 这 些 协议 如 何 满足 高 速 缓存 一 致 性 条 件 和 有 用 的 存储 同一 性 
模型 。 协 议 的 操作 通过 在 逻辑 状态 变迁 层次 得 以 描述 。 对 这 一 层次 上 的 几 个 设计 方面 的 权衡 
考虑 有 一 个 量化 的 评估 ， 使 用 的 评估 技术 在 5.4 节 中 介绍 ， 这 一 技术 涉及 到 第 4 章 中 谈 到 的 
工作 负载 驱动 评估 方法 的 若干 要 素 。 

本 章 后 面 的 部 分 探讨 具有 高 速 缓存 一 致 性 的 共享 存储 系统 对 于 在 其 上 面 运行 的 软件 的 影 
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响 。5.5 节 讨 论 低层 的 同步 操作 如 何 利用 具有 高 速 缓存 一 致 性 的 多 处 理 器 上 可 用 的 硬件 原 语 
以 及 如 何 改造 锁 和 栅 障 算法 ， 使 机 器 能 更 好 地 得 到 利用 。5.6 节 讨 论 并 行程 序 设计 的 影响 ， 
特别 讨论 了 如 何 利 用 数据 的 时 间 和 空间 局 部 性 ， 来 减少 高 速 缓存 扑 空 和 共享 总 线 上 的 通 
信 重 。 


5.1 高 速 缓存 的 一 致 性 


党 上 ， 存 储 行为 的 模型 应 该 是 这 样 的 : 它 提 供 一 组 保存 数值 的 单元 ， 当 读 取 某 个 单元 
时 ， 应 返回 写 人 此 单元 的 最 新 值 。 这 是 存储 系统 抽象 的 基本 属性 。 在 串 行程 序 中 我 们 依赖 于 
这 一 属性 ， 利 用 存储 器 将 从 程序 中 某 个 位 置 产生 的 值 传递 到 其 他 使 用 此 值 的 地 方 。 当 使 用 共 
享 地 址 空间 ， 在 运行 于 一 个 处 理 器 上 的 线程 或 进程 之 间 进 行 数 据 通信 时 ， 我 们 同样 依赖 于 存 
储 系统 的 这 一 属性 。 读 操作 返回 的 是 最 新 写 人 所 读 取 单元 的 值 ， 与 此 值 由 哪个 进程 写 人 无 
关 。 由 于 所 有 的 进程 都 通过 相同 的 高 速 缓存 层次 访问 存储 器 ， 不 会 有 诸如 高 速 缓存 一 致 性 问 
题 的 发 生 。 当 两 个 进程 运行 于 共享 同一 存储 系统 的 不 同 处 理 器 上 时 ， 我 们 也 希望 能 依赖 于 这 
样 的 存储 属性 。 也 就 是 说 ， 含 有 多 个 进程 的 程序 在 物理 上 不 同 的 处 理 器 上 运行 ， 或 者 在 同一 
个 处 理 器 上 〈 以 交叉 方式 或 以 多 道 程序 方式 ) 运行 时 ， 结 果 不 应 该 有 区 别 。 然 而 ， 当 两 个 进 
程 通过 不 同 的 高 速 缓存 访问 存储 器 时 会 存在 这 样 的 危险 : 一 个 进程 在 其 高 速 缓存 中 看 到 的 是 
新 值 ， 而 另 一 个 看 到 的 还 是 旧 值 。 


5.1.1 高 速 缓存 一 致 性 问题 


多 处 理 器 中 的 高 速 缓存 一 致 性 问题 是 普遍 存在 的 ， 而 且 对 机 器 性 能 有 重大 影响 。 例 5.1 
描述 是 这 方面 的 一 个 情况 。 

例 5.1 图 5-3 显示 了 3 个 带 有 高 速 缓存 的 处 理 器 ， 经 总 线 连 接 到 共享 主 存 。 处 理 器 有 
一 个 对 单元 “的 访问 序列 。 首 先 ， 处 理 器 P, 从 主 存 中 读 取 u, Bu 值 的 副本 放 在 其 高 速 组 
存 中。 然后 处 理 器 P, 从 主 存 中 读 取 u, Hu 值 的 副本 放 在 自己 的 高 速 缓存 中 ; 然后 P X u 








图 5-3 高 速 缓存 一 致 性 例子 。 此 图 显示 3 个 带 有 高 速 缓存 的 处 理 器 ， 经 总 线 连 接 到 共享 主 存 。 
u 是 存储 器 中 的 一 个 单元 ， 这 些 处 理 器 对 其 进行 读 写 操作 。 读 写 操 作 的 顺序 由 表现 操作 
HTL SORE. ABBE, MP H u 的 值 由 5 改 为 7 时 ， 如 果 不 采 用 什么 特 
别 的 措施 ，P, 从 自己 的 高 速 缓 存 中 读 的 4 值 是 过 时 的 ， 而 P 从 主 存 中 读 的 值 也 是 旧 的 
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写 人 ， 将 其 中 的 值 由 5 改 为 7。 在 直 写 式 高 速 缓存 中 ， 这 会 导致 主 存 中 相应 位 置 的 更 新 ; 然 
而 ， 当 Pi 再 次 读 取 w 时 (第 4 个 操作 )， 不 幸 的 是 ， 它 从 自己 高 速 缓存 中 读 得 旧 值 5， 而 不 
是 从 主 存 中 读 得 新 值 7。 这 就 是 高 速 缓存 一 致 性 的 问题 。 在 回 写 式 高 速 缓存 中 情况 又 如 
何 呢 ? 

BS: 在 回 写 式 高 速 缓 存 中 情况 更 糟糕 。P, 的 写 操作 仅仅 在 保存 单元 u 的 高 速 缓存 块 
的 相关 标志 位 作 了 标记 ， 而 不 会 立即 修改 主 存 。 仅 在 此 高 速 缓存 块 从 P 的 高 速 缓存 中 替换 
出 来 时 ， 其 内 容 才 会 写 回 主 存 中 。 因 此 ， 不 仅 P, 读 的 是 旧 值 ， 而 且 当 P, i£ unt (第 5 个 操 
作 )， 由 于 在 高 速 缓 存 扑 空 它 会 从 主 存 中 读 取 ， 但 这 时 读 取 的 也 是 旧 值 5， 而 不 是 新 值 7。 最 
后 ， 如 果 多 个 处 理 器 在 其 回 写 式 高 速 缓存 中 将 不 同 的 值 写 信 单元“ 时， 最 终 到 达 主 存 的 值 
由 包含 u 的 高 速 缓存 块 的 替换 顺序 决定 ， 而 与 各 处 理 器 对 w 进行 写 操作 的 顺序 无 关 。 国 

PR, W 5.1 描述 的 行为 与 我 们 对 存储 系统 应 有 行为 的 认识 相抵 触 。 事 实 上 ， 即 使 在 单 
处 理 器 上 ， 当 执行 VO 操作 时 也 会 产生 高 速 缓 存 一 致 性 问题 。 大 部 分 IO 传输 由 直接 存储 访 
间 (DMA) 设备 完成 ，DMA 设备 在 存储 器 与 外 设 之 间 移 动 数据 不 会 涉及 处 理 器 。 当 DMA 设 
备 写 人 主 存 的 某 个 单元 时 ， 除 非 采取 特殊 的 操作 ， 否 则 ， 如 果 此 单元 先前 在 某 个 处 理 器 的 高 
速 缓存 中 ， 则 此 处 理 器 看 到 的 仍然 是 旧 值 。 在 回 写 式 高 速 缓存 中 ，DMA 设备 可 能 会 从 主 存 
中 读 取 某 个 单元 的 旧 值 ， 因 为 最 新 的 值 可 能 还 在 处 理 器 的 高 速 缓存 中 。 由 于 VO 操作 远 不 如 
存储 操作 频繁 ， 在 单 处 理 器 系统 中 采用 了 某 些 粗 粒度 的 解决 方案 。 例 如 ， 存 储 空间 中 用 于 
0 的 段 可 以 标记 为 “不 可 用 于 高 速 缓存 ”( 即 这 段 存储 空间 的 内 容 不 能 进入 处 理 器 的 高 速 组 
存 )， 或 者 在 访问 用 于 与 WO 设备 通信 的 存储 段 时 ， 处 理 器 总 使 用 不 通过 高 速 缓存 的 载 人 和 
存储 操作 。 对 于 每 次 传输 较 大 数据 块 的 70 设备， 例如 硬盘 ， 操 作 系 统 会 提供 支持 以 确保 数 
据 的 一 致 性 。 在 许多 系统 中 ， 在 yO 操作 进行 之 前 ， 数 据 传输 涉及 到 的 存储 页 会 由 操作 系统 
根据 处 理 器 的 高 速 缓存 内 容 进行 刷新 。 在 另 一 些 系统 中 ， 所 有 的 WO 操作 均 会 经 过 处 理 器 的 
高 速 缓存 层次 ， 由 此 来 维护 一 致 性 。 当 然 ， 这 种 策略 有 其 消极 影响 ， 因 为 处 理 器 不 会 马上 用 
到 的 数据 也 可 能 被 记录 在 高 速 缓存 中 了 。 幸 运 的 是 ， 用 于 解决 多 处 理 器 高 速 缓存 一 致 性 的 技 
术 和 支持 同样 可 以 解决 WO 一致 性 问题 。 现 在 ， 几 乎 所 有 的 多 处 理 器 均 提 供 对 高 速 缓存 一 臻 
性 支持 。 

在 多 处 理 器 中 ， 不 同 进程 读 取 和 写 人 共享 变量 是 经 常 性 事件 ， 因 为 这 是 并 行 应 用 程序 的 
多 个 进程 之 间 通 信 的 基本 方法 。 因 此 ， 我 们 不 希望 禁止 在 高 速 缓存 中 存 有 共享 数据 ， 也 不 希 
望 在 引用 所 有 共享 变量 时 必须 调用 操作 系统 的 相应 操作 。 这 时 ， 高 速 缓存 一 致 性 需要 作为 一 
项 基本 的 硬件 设计 任务 来 完成 ;， 例 如， 当 某 个 共享 单元 被 修改 时 ， 此 位 置 在 高 速 缓存 中 的 旧 
剧本 (如 例 5.1 中 P 高 速 绥 存 里 的 副本 ) 必须 淘汰 ， 要么 使 此 值 无 效 ， 要 么 用 新 值 更 新 。 
事实 上 ， 操 作 系 统 自 身 也 会 从 这 种 透明 的 、 硬 件 支 持 的 数据 结构 一 致 性 中 获 益 腓 浅 。 

在 探索 可 提供 一 致 性 的 技术 之 前 ， 有 必要 更 精确 地 定义 一 致 性 的 概念 。 我 们 的 直观 概念 
“每 个 读 操 作 必 须 返 回 最 后 写 人 此 位 置 的 值 ”在 并 行 体系 结构 中 有 些 问题 ， 因 为 “最 后 ”一 
词 没 有 很 好 地 定义 。 两 个 不 同 的 处 理 器 可 能 在 同一 时 刻 对 同一 存储 单元 进行 写 操 作 ; 或 者 对 
于 同一 个 存储 单元 ， 一 个 处 理 器 可 能 在 另 一 个 处 理 器 刚刚 发 出 写 操作 后 马上 发 出 读 操作 ， 但 
由 于 光速 或 其 他 什么 因素 的 影响 ， 写 者 的 更 新 根本 来 不 及 传播 到 读者 .e 即 使 在 顺序 程序 的 


O ”这 里 强调 从 处 理 器 看 到 的 操作 的 发 出 时 间 ， 而 不 是 完成 时 间 ， 见 后 面 关 于 操作 发 出 的 定义 。- 译 者 注 
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情况 下 , “最 后 ”一 词 也 不 是 时 序 或 物理 概念 ， 它 指 的 是 程序 定义 的 操作 次 序 中 的 “最 后 "。 
现在 ， 我 们 可 以 暂时 将 进程 所 对 应 的 程序 操作 次 序 看 作 是 在 机 器 语言 程序 中 存储 操作 发 生 的 
次 序 。 在 5.2 节 中 ， 关 于 程序 操作 序 这 一 概念 有 进一步 的 详尽 痪 述 。 在 并 行情 况 下 ， 问 题 在 
于 程序 操作 序 是 由 每 个 独立 进程 中 的 操作 定义 的 ， 要 定义 一 致 性 存储 系统 的 语义 ， 我 们 需要 
先 形成 关于 一 组 程序 操作 序 的 概念 。 

我 们 首先 回顾 一 下 单 处 理 器 存储 系统 环境 中 某 些 术语 的 定义 。 对 于 存储 操作 ， 我 们 指 的 
是 一 次 单独 的 读 取 ( 载 人 )、 写 入 (存储 ), 或 对 存储 单元 的 “ 读 - 改 - 写 ” 访 问 。 对 于 完成 多 
个 读 取 和 写 人 操作 的 指令 ， 例 如 那些 出 现在 许多 复杂 指令 集中 的 复杂 指令 ， 可 以 将 其 分 解 为 
多 个 存储 操作 。 指 令 中 的 这 些 存储 操作 的 执行 次 序 由 此 指令 确定 。 指 令 中 的 这 些 存储 操作 可 
看 作 以 彼此 相关 的 指定 次 序 自动 执行 ， 也 就 是 说 ， 一 -个 操作 的 各 种 影响 应 发 生 在 下 一 操作 的 
任何 影响 之 前 。 称 一 个 存储 操作 被 发 出 ， 指 的 是 它 离开 了 处 理 器 的 内 部 环境 并 呈现 给 存储 系 
统 之 时 ， 这 里 提 到 的 存储 系统 包括 高 速 缓存 、 写 缓冲 区 、 总 线 和 存储 模块 。 关 于 序 的 一 个 十 
分 重要 的 问题 是 ， 处 理 器 观察 存储 系统 状态 的 惟一 方法 是 通过 发 出 存储 操作 (Ol, ERE 

0275) HE); 这 样 ， 我 们 称 一 个 存储 操作 相对 于 这 个 处 理 器 执行 了 ， 只 要 它 能 够 感受 到 所 发 出 的 存 

储 操作 的 效果 。 特 别 地 ， 我 们 车 称 “ 一 个 写 操作 相对 于 这 个 处 理 器 执行 了 ”， 则 意味 着 该 处 
理 器 后 续 的 读 操作 能 够 返回 由 此 写 操作 产生 的 值 ， 或 者 返回 由 此 写 操作 之 后 的 另 一 个 写 操作 
产生 的 值 。 称 “一 个 读 操 作 相对 于 这 个 处 理 器 执行 了 *， 意 味 着 该 处 理 器 后 续 的 写 人 操作 不 
会 影响 此 读 操作 的 返回 值 。 注 意 ， 在 这 两 种 情况 下 我 们 都 没有 指明 要 访问 存储 芯片 上 的 具体 
物理 单元 ， 也 没有 具体 要 求 硬件 上 的 哪些 部 分 改变 它们 的 状态 。 此 外 我 们 注意 到 ， 在 串 行情 
况 下 “后 续 ” 一 词 的 含义 是 明确 的 ， 因 为 读 和 写 操作 的 次 序 是 由 程序 中 语句 的 次 序 决 定 的 。 

关于 存储 操作 “发 出 ”和 “相对 于 一 个 处 理 器 执行 了 ”的 定义 也 可 应 用 于 并 行情 况 ; 我 
们 只 需 将 定义 中 的 “这 个 处 理 器 ”替换 为 “ 某 个 处 理 器 "。 问 题 在 于 ,“ 后 续 ” 和 “最 后 ”这 
两 个 术语 的 含义 出 了 一 些 问 题 ， 因 为 我 们 此 时 没有 一 个 程序 操作 序 ， 每 个 进程 有 自已 的 程序 
操作 序 ， 在 访问 存储 系统 时 这 些 程序 操作 序 会 交织 在 一 起 。 要 泣 清 我 们 对 一 致 性 存储 系统 的 
概念 ， 一 种 方法 是 设想 在 没有 高 速 缓 存 的 单一 共享 存储 环境 下 会 发 生 什么 情况 。 对 存储 单元 
的 每 个 写 人 和 读 取 操作 均 会 访问 主 存 中 的 物理 位 置 。 这 时 的 操作 “相对 于 所 有 的 处 理 器 都 执 
行 了 "， 于 是 被 称 为 完成 了 。 因 此 ， 存 储 器 就 可 以 在 所 有 处 理 器 对 一 个 单元 发 出 的 读 写 操作 
上 强加 一 个 序 。 进 一 步 ， 在 这 个 整体 序 中 , 来 自 某 个 处 理 器 的 读 写 操作 应 该 遵从 自己 的 程序 
操作 序 。 那 么 ， 在 这 种 情况 下 ， 主 存单 元 就 是 一 个 硬件 上 的 自然 参照 点 ， 可 确定 跨 处 理 器 访 
问 此 单元 的 操作 顺序 。 没 有 理由 认为 不 同 处 理 器 必须 按照 特定 的 方式 交替 访问 存储 系统 ， 因 
此 任何 交替 访问 均 是 合理 的 ， 只 要 此 访问 序列 能 够 体现 每 个 处 理 器 的 程序 操作 序 即 可 。 不 过 
我 们 要 假定 一 些 基本 的 公平 性 原则 ， 即 最 终 每 个 处 理 器 的 操作 都 应 该 完成 。 我 们 的 直观 概念 
“最 后 的 ”可 看 作 是 在 保持 这 些 性 质 的 一 个 假想 串 行 序 中 最 近 的 元 素 ,“ 后 续 的 ”可 以 类 似 地 
定义 。 由 于 这 一 串 行 序 必 须 保持 一 致 性 ， 所 有 处 理 器 看 到 对 某 个 单元 的 写 操作 应 该 是 相同 序 
的 (如果 它 们 愿意 看 的 话 ， 即 读 这 一 单元 的 值 );， 这 一 点 很 重要 。 

对 每 个 单元 的 操作 都 有 一 个 总 体 的 、 串 行 的 操作 序 是 我 们 希望 在 任何 一 致 性 存储 系统 中 
见 到 的 。 当 然 ， 总 体 的 序 无 须 在 执行 程序 时 真正 建立 。 特 别 是 在 具有 高 速 缓存 的 系统 中 ,我 
们 不 希望 主 存 看 到 所 有 的 存储 操作 ， 和 希望 尽量 避免 品行 化 。 我 们 仅 希 望 程序 行为 就 好 像 某 种 
序 存在 一 样 。 
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使 用 更 加 形式 化 的 方法 ， 我 们 说 多 处 理 器 存储 系统 是 一 致 的 ， 如 果 某 个 程序 的 任何 执行 
结果 都 满足 下 列 条 件 ; 对 于 任何 单元 ， 有 可 能 建立 一 个 假想 的 操作 序列 (也 就 是 说 ,将 所 有 
进程 发 出 的 读 写 操作 排 成 一 个 全 序 )， 此 序列 与 执行 结果 一 致 ， 并 且 在 此 序列 中 : 

1) 任何 特定 进程 发 出 的 操作 所 表现 出 来 的 序 和 该 进程 向 存储 系统 发 出 它们 的 序 相同 ， 
并 且 

2) 每 个 读 操作 返回 的 值 是 对 相应 单元 按 串 行 顺序 写 人 的 最 后 一 个 值 。 

关于 一 致 性 的 这 一 定义 中 隐 含 了 两 个 性 质 : 写 传播 意味 着 写 操作 的 效果 对 其 他 进程 可 
见 ; 写 串 行 化 意味 着 对 于 某 个 单元 的 所 有 写 操 作 (来 自 相 同 的 或 不 同 的 进程 ) 而 言 ， 所 有 进 
程 都 是 以 相同 顺序 看 到 这 些 操作 。 例 如 ， 写 串 行 化 意味 着 ， 如 果 P, 进程 对 某 个 单元 的 读 操 
作 先 看 到 由 写 操作 wl (HP, 完成 ) 产生 的 值 ， 再 看 到 由 w2 (P 中 的 操作 ) 产生 的 值 ， 那 
ŽP, GEA IJE P, BRP) 的 读 操 作 看 到 的 应 该 是 同样 的 顺序 。 没 有 必要 将 写 串 行 化 的 概念 
推广 到 读 操作 上 ， 因 为 读 操作 的 结果 只 有 发 出 此 操作 的 进程 可 见 。 

程序 的 结果 可 以 看 作 是 程序 中 读 操 作 的 返回 值 ， 也 许可 能 增 广 到 程序 结束 时 对 所 有 单元 
的 一 组 隐 含 的 读 操作 。 从 程序 结果 中 ， 我 们 无 法 确定 机 器 执行 这 些 操作 的 真正 次 序 ， 也 无 法 
精确 获知 数据 位 是 何 时 更 改 的 ， 只 能 知道 程序 外 在 的 执行 序 。 幸 运 的 是 ， 这 也 就 够 了 ， 因 为 
这 就 是 处 理 器 能 够 得 到 的 所 有 信息 。 当 讨论 存储 同一 性 模型 时 ， 这 一 概念 会 显得 更 加 重要 。 


5.1.2 通过 总 线 侦 听 的 高 速 缓存 一 致 性 


定义 过 存储 一 致 性 的 性 质 后 ， 让 我 们 来 考察 解决 高 速 缓存 一 致 性 问题 的 技术 。 例 如 在 图 
5-3 中 ， 我 们 如 何 保证 P 和 P, 能 够 看 到 P, SYA? 实际 上 ， 高 速 缓存 一 致 性 的 一 种 非常 简 
单 而 漂亮 的 解决 方法 可 以 从 总 线 的 根本 性 质 中 得 到 。 总 线 是 连接 几 台 设备 的 单独 一 组 导线 ， 
其 中 每 一 设备 都 可 以 观察 到 每 一 个 总 线 事务 ， 诸 如 在 共享 总 线 上 的 每 一 次 读 或 写 操 作 。 当 一 
个 处 理 器 向 它 的 高 速 缓存 发 出 请 求 时 ， 高 速 缓存 控制 器 检 查 其 高 速 缓存 的 当前 状态 并 采取 适 
当 的 措施 ， 这 可 以 包括 产生 总 线 事务 以 访问 存储 器 。 通 过 让 所 有 的 高 速 缓存 控制 器 “ 侦 听 ” 
总 线 并 监管 其 上 发 生 的 事务 、 一 致 性 得 到 维持 ， 如 图 5-4 所 示 (Goodman 1983)。 如 果 一 个 总 
线 事务 和 某 个 高 速 缓存 控制 器 相关 的 话 ， 例 如 在 该 高 速 缓存 中 含有 与 该 总 线 事务 相 关 的 一 个 





图 54 一 个 侦 听 高 速 缓存 一 致 性 的 多 处 理 器 。 带 有 各 自私 有 高 速 缓存 的 多 个 处 理 器 连接 到 
一 个 共享 总 线 上 。 每 个 处 理 器 的 高 速 缓存 控制 器 时 刻 在 总 线 上 “ 侦 听 "， 观 察 和 它 相 
关 的 总 线 事务 并 相应 地 更 新 其 状态 以 保持 高 速 缓存 的 一 致 性 。 灰 色 箭头 表示 总 线 上 
出 现 的 一 个 事务 并 被 主 存 接受 ， 这 和 单 处 理 器 系统 一 样 。 黑 色 箭头 指示 的 是 “ 侦 昕 ” 
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存储 块 的 拷贝 ， 该 控制 器 可 能 采取 行动 。 这 样 的 话 ， 如 果 P, 看 到 了 P 的 写 操作 ， 它 可 能 采 
取 行 动 ， 比 如 使 这 个 拷贝 无 效 或 使 它 更 新 。 实 际 上 ， 由 于 高 速 缓存 中 数据 的 分 放 和 替换 是 以 
高 速 缓存 块 〈 通 常 为 几 个 字 长 ) 的 粒度 进行 管理 的 ， 并 且 访 问 高 速 缓存 扑 空 时 要 从 存储 器 获 
取 一 整个 高 速 缓存 块 的 数据 ， 因 此 通常 高 速 缓存 一 致 性 也 是 以 高 速 缓存 块 的 粒度 来 维持 的 。 
换 旬 话说， 在 高 速 缓存 中 ， 要 么 整个 高 速 缓存 块 处 于 有 效 态 ， 或 者 整个 高 速 缓存 块 都 处 于 无 
效 态 。 因 此 ， 高 速 缓存 块 是 高 速 缓存 中 数据 分 配 的 粒度 ， 是 高 速 缓存 间 数 据 传输 的 粒度 ， 也 
是 缓存 一 致 性 管理 的 粒度 。 

下 面 我 们 看 支持 一 致 性 的 总 线 的 最 关键 性 质 。 首 先 ， 总 线 上 出 现 的 所 有 事务 对 高 速 缓存 
控制 器 来 说 是 可 见 的 。 其 次 ， 它 们 对 所 有 控制 器 以 同样 的 顺序 〈 也 就 是 它们 出 现在 总 线 上 的 
顺序 ) 可 见 。 一 个 一 致 性 协议 必须 保证 为 响应 存储 操作 的 所 有 “必要 的 ”事务 都 真正 出 现在 
总 线 上 ， 并 且 当 控制 器 发 现 一 个 相关 的 事务 时 将 做 出 适当 的 动作 。 

保持 一 致 性 最 简单 的 例子 是 一 个 含有 单 级 直 写 高 速 缓存 的 系统 。 这 基本 上 就 是 在 20 tH 
纪 80 年 代 中 期 那些 最 初 的 基于 总 线 的 商用 SMP 所 遵从 的 方法 。 在 那样 的 系统 中 ， 每 一 个 写 
操作 引发 总 线 上 的 一 个 写 事务 ， 于 是 每 一 个 高 速 缓存 控制 器 将 观察 到 每 一 次 写 操作 (FEX 
现 了 写 传播 )。 如 果 某 个 侦 听 高 速 缓存 有 这 个 块 的 一 个 拷贝 ， 它 或 者 使 这 个 拷贝 无 效 ， 或 者 
更 新 该 拷贝 。 前 者 被 称 为 基于 作废 的 协议 ， 后 者 被 称 为 基于 更 新 的 协议 。 不 管 何 种 情况 ， 任 
何 处 理 器 随后 访问 这 一 块 数据 时 它 将 看 到 最 新 的 值 ， 或 者 通过 一 次 缓存 扑 空 转 而 从 主 存 得 
H, 或 者 因为 被 更 新 的 值 在 它 自己 的 高 速 缓存 中 。 主 存 中 含有 的 总 是 有 效 的 数据 ， 于 是 当 发 
现 总 线 上 的 一 个 读 操作 时 ， 高 速 缓存 不 需要 采取 任何 行动 。 例 5.2 显示 了 图 5-3 中 的 一 致 性 
问题 是 如 何 被 直 写 缓存 解决 的 。 

例 5.2 考虑 图 5-3 中 的 情形 。 假 设 为 直 写 缓存 ， 试 说 明 使 用 基于 作废 的 协议 时 ， 总 线 
怎样 可 以 被 用 来 提供 一 致 性 。 

解答 : 当 处 理 器 P 把 7 写 到 u 单元 时 ，P, 的 高 速 缓存 控制 器 生成 一 个 总 线 过 程 以 更 新 
存储 器 的 内 容 。P 的 高 速 缓存 控制 器 发 现 此 总 线 事 务 是 和 它 相关 的 并 且 是 一 个 写 事务 ， 于 
是 就 作废 它 其 中 含有 u 的 数据 块 。 主 存 控制 器 将 u 的 值 更 新 为 7。 以 后 从 处 理 器 已 和 已 发 
出 的 读 u 的 请 求 (动作 4 和 5) 均 将 在 它们 私有 的 高 速 缓存 中 扑 空 ， 并 将 从 主 存 获 得 正确 的 
E7. E 

确定 一 个 总 线 事务 是 否 与 某 个 高 速 缓存 相关 从 本 质 上 说 和 对 从 处 理 器 发 出 的 一 个 请 求 进 
行 标识 匹配 是 完全 一 样 的 。 采 取 的 动作 可 以 是 作废 或 更 新 那 块 高 速 缓存 块 的 内 容 或 状态 并 旦 
(或 者 ) 将 那个 高 速 缓 存 抉 的 最 新 值 从 高 速 缓存 中 传送 到 总 线 上 。 

侦 听 式 高 速 缓 存 一 致 性 协议 将 在 单 处 理 嚣 中 也 有 体现 的 计算 机 体系 结构 的 两 个 基本 方面 
结合 到 了 一 起 : 总 线 事务 和 与 高 速 缓 存 块 相关 的 状态 转换 图 。 前 面 提 过 ， 一 个 总 线 事务 由 三 
个 阶段 组 成 : 仲裁、 命令 /地 址 、 数 据 。 在 仲裁 阶段 ， 想 发 起 一 次 事务 的 设备 发 出 它们 的 总 
线 请 求 ， 总 线 仲裁 器 从 中 选择 一 个 并 且 给 出 相应 的 准许 信号 作为 响应 。 收 到 准许 信号 后 ， 被 
选中 的 设备 将 命令 ， 比 如 读 或 写 以 及 相关 的 信号 放 到 总 线 的 命令 和 地 址 线 上 ， 所 有 的 设备 都 
会 看 到 这 个 地 址 。 在 一 个 单 处 理 器 中 ， 其 中 一 个 设备 知道 由 它 对 这 个 特别 的 地 址 负责 。 对 一 
个 读 事 务 ， 地 址 阶段 接 下 来 就 是 数据 传输 。 根 据 数 据 是 在 地 址 阶段 期 间 传输 的 还 是 在 地 址 阶 
段 之 后 传输 的 ， 写 事务 对 不 同 的 总 线 将 有 所 不 同 。 对 大 多 数 总 线 来 党， 一 个 响应 设备 能 够 发 
出 并 维持 一 个 等 待 信号 直到 数据 就 绪 为 止 。 这 个 等 待 信和 号 不 同 于 其 他 的 总 线 信 号 ， 因 为 它 是 
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在 各 个 处 理 器 之 间 线 “或 ”(wired-OR) 的 ， 即 任何 设备 发 出 该 信号 都 得 到 逻辑 1。 发 起 者 不 
需要 知道 哪 一 个 响应 设备 正在 参与 数据 传输 ， 而 只 需 知道 有 这 样 一 个 设备 并 且 它 是 否 就 绪 
即 可 。 

计算 机 体系 结构 的 第 二 个 基本 方面 是 ， 每 一 个 单 处理 器 高 速 缓存 中 的 数据 块 ， 除 了 标记 
和 数据 外 ， 还 有 一 个 状态 和 它 联系 ， 用 来 表明 该 数据 块 的 特征 (例如 ， 无 效 、 有 效 、 脏 )。 
高 速 缓存 的 策略 由 高 速 缓存 块 的 状态 转换 图 来 定义 ， 它 是 一 个 指示 数据 块 的 特征 如 何 改变 的 
有 限 状 态 自动 机 。 高 速 缓存 块 的 转变 发 生 在 访问 该 数据 块 或 者 访问 一 个 映射 到 和 此 数据 块 相 
同 的 高 速 缓存 线 的 一 个 地 址 上 。 (我 们 用 高 速 缓存 块 来 表示 实际 数据 ， 用 缓存 线 来 表示 在 高 
速 缓存 硬件 中 国定 的 存储 位 置 ， 这 和 主 存 中 的 页 和 页 帧 区 别 是 类 似 的 。) 虽然 只 有 实际 存在 
于 高 速 缓存 线 中 的 数据 块 才 具有 硬件 状态 信息 ， 逻 辑 上 ， 所 有 不 在 缓存 中 的 数据 块 均 可 以 被 
看 作 或 者 处 于 一 个 特殊 的 “不 存在 ”状态 ,或 者 处 于 “无 效 态 ”。 在 一 个 单 处 理 器 系统 中 ， 
对 一 个 直 写 、 写 不 分 配 的 高 速 缓存 (Hennessy and Patterson 1996) 仅仅 需要 两 个 状态 ， 有 效 态 
和 无 效 态 。 起 初 ， 所 有 的 数据 块 都 是 无 效 的 。 当 一 个 处 理 器 对 高 速 缓存 的 读 操 作 扑 空 时 ， 系 
统 要 生成 一 个 总 线 事务 来 从 存储 器 中 调和 人 该 块 ， 该 块 被 标记 为 有 效 。 写 操作 生成 一 个 总 线 事 
务 来 更 新 存储 器 ， 如 果 高 速 缓存 块 处 于 有 效 态 ， 它 们 也 更 新 该 块 。 写 操作 不 改变 数据 块 的 状 
态 。 如 果 一 个 数据 块 被 替换 了 ， 它 可 以 被 标记 为 无 效 直到 存储 器 提供 新 的 数据 块 使 它 成 为 有 
效 的 。 一 个 回 写 缓存 的 每 一 条 缓存 线 需要 一 个 额外 的 状态 ， 用 来 标记 一 个 “ 脏 ” 的 或 者 说 已 
被 修改 的 数据 块 。 

在 一 个 多 处 理 器 系统 中 ， 一 个 数据 抉 在 每 个 高 速 缓 存 中 都 有 一 个 状态 ， 这 些 高 速 缓存 状 
态 根据 状态 转换 图 而 改变 。 这 样 ， 我 们 可 以 把 一 个 数据 块 的 缓存 状态 看 作 一 个 由 p 个 状态 
而 不 是 单独 一 个 状态 组 成 的 向 量 ， 这 里 p 是 高 速 缓存 的 个 数 。 高 速 缓存 状态 由 p 个 分 离 的 
自动 状态 机 来 控制 ， 由 高 速 缓存 控制 器 来 实施 。 控 制 状 态 转 换 的 状态 机 或 状态 转换 图 对 所 有 
的 数据 块 和 所 有 的 高 速 缓存 是 完全 相同 的 ， 但 不 同 高 速 缓存 中 数据 块 的 当前 状态 是 不 同 的 。 
像 以 前 一 样 ， 如 果 一 个 数据 块 在 高 速 缓存 中 不 存在 ， 我 们 可 以 假设 它 处 于 一 个 特殊 的 “不 存 
在 ”状态 或 无 效 态 。 

在 一 个 侦 听 式 高 速 缓存 一 致 性 模式 中 ， 每 个 高 速 缓存 控制 器 接收 两 套 输 入 ; 由 处 理 器 发 
出 的 存储 器 请 求 以 及 由 总 线 侦 听 器 通知 关于 从 其 他 高 速 缓 存 发 起 的 总 线 事务 。 不 管 对 应 哪 一 
种 ， 根 据 当 前 状态 和 状态 转换 图 ， 控 制 器 都 可 以 更 新 高 速 缓存 中 相关 块 的 状态 。 控 制 器 也 可 
能 采取 一 个 行动 。 例 如 ， 它 以 被 请 求 的 数据 来 响应 处 理 器 的 要 求 ， 潜 在 地 生成 新 的 总 线 事 务 
以 获得 数据 。 它 通过 更 新 自己 的 状态 来 响应 总 线 事 务 ， 有 时 候 也 干预 事务 的 完成 。 这 样 来 
说 ， 侦 听 式 协议 是 一 种 分 布 式 算法 ， 由 一 组 相互 作用 的 有 限 状 态 自动 机 来 表示 。 它 由 下 面 的 
部 分 确定 ， 

。 和 存在 于 局 部 高 速 缓存 的 存储 块 相 联系 的 一 组 状态 。 

。 状态 转换 图 ， 它 以 当前 状态 和 处 理 器 请 求 或 观察 到 的 总 线 事务 为 输入 ， 并 产生 缓存 

块 的 下 一 状态 作为 输出 。 
。 和 每 一 次 状态 转换 相关 的 动作 ， 它 们 部 分 是 由 总 线 、 高 速 缓存 和 处 理 器 的 设计 所 定 
义 的 一 组 动作 决定 的 。 
一 个 数据 块 的 不 同 状态 自动 机 由 总 线 事务 来 协调 。 
在 图 5-5 中 ,状态 转换 图 描述 了 一 个 简单 的 基于 作废 的 协议 ， 它 针 对 是 一 致 的 直 写 、 写 


279 


202 HAF tt PK RAH 





不 分 配 的 高 速 缓存 。 像 在 单 处 理 器 的 例子 中 一 样 ， 每 一 个 缓存 块 仅 有 两 个 状态 : 无 效 态 (1) 
AARD (V) (假设 “不 存在 ” 态 和 无 效 态 是 一 样 的 )。 转 换 由 引起 转换 的 输入 各 由 转换 产 
生 的 输出 来 标记 。 例 如 ， 当 一 个 控制 器 看 到 处 理 器 传 来 的 一 个 读 操 作 在 缓存 中 扑 空 时 ， 就 生 
成 一 个 BusRd 事务 ， 在 此 事务 完成 时 ， 该 数据 块 转换 为 有 效 态 。 每 当 控制 器 看 到 处 理 器 对 基 
单元 的 一 个 写 操作 时 ， 就 生成 一 个 总 线 事务 来 更 新 主 存 中 的 那个 单元 ， 但 并 不 改变 状态 。 对 
单 处 理 器 状态 图 的 关键 扩充 在 于 ， 当 一 个 总 线 侦 听 器 看 到 总 线 上 有 一 个 对 自己 局 部 高 速 缓存 
的 存储 块 的 写 过 程 时 ， 控 制 器 将 那个 数据 块 的 状态 置 为 无 效 ， 从 而 有 效 的 废除 了 它 的 拷贝 。 
《图 5-5 中 用 虚线 显示 此 总 线 引起 的 事务 )。 以 此 扩展 ， 如 果 任 何 处 理 器 生成 一 个 对 缓存 在 其 
他 所 有 处 理 器 的 数据 块 的 写 操作 ， 那 些 处 理 器 将 使 它们 的 拷贝 无 效 。 这 样 来 说 ， 一 个 数据 块 
的 多 个 同时 出 现 的 读 操 作 可 以 共存 而 不 会 生成 总 线 事务 或 无 效 ， 但 写 操作 将 废除 所 有 其 他 被 
缓存 的 拷贝 。 


PrRd/— PrWr/Bus¥r 


PrRd/BusRd | Bus¥r/— 


Pr¥r/BusWr 一 一 9> 处 理 器 启动 的 事务 
-~ ~ 和 总 线 侦 听 启 动 的 事务 


图 5-5 带 有 直 写 、 写 不 分 配 高 速 缓存 的 多 处 理 器 的 侦 听 一 致 性 。 直 观 上 看 ， 有 两 种 状态 ， 

ARD (V) 和 无 效 态 (1). A/B (WA, PrRd/BusRd) 表示 如 果 A 被 观察 到 ， 那 么 

将 生成 事务 B。 从 处 理 器 的 角度 看 ， 请 求 可 以 是 读 (Rd) 或 写 (AW). ABRE 

角度 来 看 ， 高 速 缓存 控制 器 可 以 观察 /生成 总 线 污 (BusRd) 或 总 线 写 (BusWr) 的 事务 
为 看 到 这 种 简单 的 直 写 作废 协议 是 如 何 提供 一 致 性 的 ， 我 们 需要 说 明 在 此 协议 下 程序 的 
任何 一 次 执行 所 含 对 一 个 单元 的 存储 操作 ， 都 可 以 构造 一 个 满足 程序 语句 序 和 写 串 行 化 条 件 
的 完全 序列 。 就 目前 的 讨论 ， 让 我 们 假设 总 线 事务 和 存储 器 操作 都 是 原子 的 。 也 就 是 说 ， 总 
线 上 一 次 只 有 一 个 事务 在 进行 : 一 旦 一 个 请 求 被 放 到 总 线 上 ， 此 总 线 过 程 的 所 有 阶段 (包括 
数据 响应 )， 都 在 任何 从 其 他 处 理 器 发 出 的 请 求 被 允许 放 到 总 线 上 之 前 完成 (这 种 过 程 具有 
原子 性 的 总 线 被 称 为 原子 总 线 )。 同 样 ， 处 理 器 要 等 待 前 面 的 存储 操作 完成 才能 发 出 下 一 个 
存储 操作 。 对 单 级 高 速 缓存 来 说 ， 我 们 也 很 自然 的 假设 作废 被 应 用 于 高 速 缓存 ， 从 而 写 操作 
本 身 在 总 线 事务 期 间 完 成 。( 本 章 将 保持 这 些 假设 ， 但 在 第 6 章 ， 当 我 们 更 细致 地 来 看 协议 
的 实现 和 用 更 高 的 并 行 性 来 研究 高 性 能 设计 时 ， 这 些 假设 将 被 放宽 。) 最 后 ， 我 们 可 以 假设 

存储 器 处 理 写 和 读 操作 的 顺序 和 它们 被 提交 到 总 线 上 的 顺序 一 致 。 
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在 直 写 协议 中 ， 所 有 的 写 操作 都 在 总 线 上 出 现 。 因 为 一 次 只 进行 一 个 总 线 事务 ; 不 管 在 
哪 次 执行 中 ， 所 有 的 对 某 一 单元 的 写 操作 都 按 它 们 出 现在 共享 总 线 上 的 顺序 串 行 化 〈 一 到 
地 ) ， 该 顺序 被 称 为 总 线 顺序 。 因 为 每 个 侦 听 高 速 缓存 控制 器 是 在 总 线 事 务 期 间 执行 作废 操 
作 ， 于 是 作废 操作 是 按 总 线 顺 序 由 高 速 缓存 控制 器 来 执行 的 。 

处 理 器 通过 读 操 作 “ 看 到 ” 写 操作 ， 于 是 对 写 串 行 化 我 们 必须 保证 从 所 有 处 理 器 传 来 的 


“ 读 操 作 以 串 行 化 的 顺序 看 到 这 些 写 操作 。 然 而 ， 对 一 个 单元 的 读 并 不 是 完全 串 行 化 的 ， 因 为 


命中 的 读 操 作 可 以 在 它们 的 高 速 缓存 中 被 独立 地 、 并 行 地 执行 而 不 会 生成 总 线 事 务 。 为 了 显 
示 读 操作 如 何 可 以 被 插入 写 操作 的 串 行 序列 ， 考 虑 下 面 的 情况 。 一 个 到 达 总 线 上 的 读 操 作 
( 读 扑 空 ) 由 总 线 和 写 操作 一 起 来 进行 串 行 化 ; 因此 它 将 获得 按 总 线 顺序 最 近 写 到 相应 单元 
的 值 。 不 出 现在 总 线 上 的 仅 有 的 存储 器 操作 是 读 命中 操作 。 在 这 个 例子 中 ， 所 读 的 值 是 由 同 
一 处 理 器 上 对 此 单元 最 近 的 一 次 写 操作 或 者 通过 它 的 最 近 的 读 扑 空 〈 以 程序 顺序 ) 放 到 高 速 
缓存 中 的 。 因 为 这 两 种 值 的 来 源 都 出 现在 总 线 上 ， 读 命中 操作 同样 也 看 到 在 一 致 的 总 线 顺 序 
中 产生 的 值 。 这 样 看 来 ， 在 此 协议 下 ， 总 线 顺 序 和 程序 顺序 一 起 提供 了 足够 的 约 东 以 满足 一 
致 性 要 求 。 
更 一 般 地 ， 我 们 可 以 通过 观察 下 面 的 由 协议 强加 的 偏 序 来 构造 一 个 (假想 的 ) 满足 一 至 
。 如 果 操 作 是 由 同一 个 处 理 器 发 出 的 并 且 在 程序 顺序 中 存储 器 操作 M, 在 存储 器 操作 
M Zia, WM, 是 M, 的 后 继 。 
。 如 果 读 操作 生成 一 个 过 程 在 写 操 作 WW 生成 的 事务 之 后 ， 则 该 读 操 作 是 下 的 后 继 。 
。 如 果 一 个 读 或 写 操作 M 生成 一 个 总 线 事务 并 且 一 个 写 操作 的 总 线 事务 在 ji 的 总 线 事 
务 之 后 ， 则 该 写 操作 是 M 的 后 继 。 
。 如 果 一 个 读 操作 并 不 生成 总 线 事务 (是 一 次 命中 ) 且 并 没有 被 另 一 个 总 线 事务 将 其 
与 写 操作 分 离 ， 该 写 操作 是 该 读 操作 的 后 继 。 
任何 保持 这 种 偏 序 的 串 行 顺序 都 是 一 致 的 。 “后 继 ” 序 关系 是 可 传递 的 。 在 图 5-6 Py 
画 了 这 种 偏 序 的 一 个 例子 ， 其 中 和 写 操作 相关 的 总 线 事务 分 隔 各 自 的 程序 顺序 。 虽 然 总 线 可 
能 建立 一 个 特别 的 顺序 ， 但 偏 序 并 不 限制 从 不 同 处 理 器 发 出 的 、 发 生 在 两 个 写 过 程 之 间 的 读 
操作 总 线 事务 的 次 序 。 实 际 上 ， 只 要 遵循 程序 的 顺序 ， 此 分 隔 中 两 个 写 操 作 之 间 的 任何 交错 
的 读 操作 都 是 一 个 有 效 的 串 行 顺序 。 





图 5-6 按照 直 写作 废 协 议 的 一 次 执行 的 存储 操作 偏 序 图 。 写 总 线 事务 定义 了 一 个 全 
局 事件 序列 ， 其 间 各 个 处 理 器 按照 程序 操作 序 执行 读 操作 。 在 保证 各 自 的 序 
的 前 担 下 ， 处 理 咒 之 间 操 作 的 交织 得 到 的 任何 全 序 是 和 该 执行 结果 一 致 的 


当然 ， 这 种 简单 的 直 写 方法 的 问题 在 于 每 一 个 存放 指令 都 要 发 到 存储 器 ， 这 就 是 大 多 数 
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微 处 理 器 使 用 回 写 高 速 缓存 的 原因 (至 少 在 接近 总 线 的 这 一 层 )。 此 问题 在 多 处 理 器 的 环境 
下 被 加 重 了 ， 因 为 从 每 一 个 处 理 器 发 出 的 每 一 个 存储 命令 消耗 了 珍贵 的 共享 总 线 的 带宽 ， 从 
而 造成 可 扩展 性 不 高 ， 正 如 例 5.3 所 示 。 

例 5.3 考虑 一 个 以 200 MHz 运行 的 超标 量 RISC 处 理 器 每 一 个 时 钟 周 期 发 出 两 条 指令 。 
假设 此 处 理 器 的 平均 CPL (每 条 指令 的 时 钟 数 ) 为 1，15% 的 指令 是 存储 指令 ， 并 且 每 一 次 
存储 写 8 字 节 的 数据 。 在 没有 达到 饱和 状态 时 ， 一 个 1 GBps 的 总 线 可 以 支持 多 少 个 处 理 器 ? 

解答 : 单个 处 理 器 每 秒 钟 将 产生 3 000 万 次 存储 指令 (每 条 指令 0.15 个 存储 x 每 周期 1 
条 指令 x 每 秒 钟 1 000 000/200 个 周期 ) ， 因 此 总 的 直 写 带宽 是 每 秒 每 处 理 器 240 MB 数据 。 即 
使 名 略 地 址 和 其 他 信息 并 忽略 读 扑 空 ， 一 条 每 秒 1 OB 的 总 线 只 能 支持 4 个 左右 处 理 器 。 国 

对 大 多 数 应 用 来 说 ， 一 个 回 写 高 速 缓存 将 吸收 绝 大 多 数 写 操作 。 不 过 ， 如 果 写 操作 不 达 
到 存储 器 ， 它 们 就 不 会 产生 总 线 事 务 ， 从 而 就 不 清楚 其 他 高 速 缓存 怎么 能 够 观察 到 这 些 修改 
并 且 保 证 写 的 传播 。 同时， 如 果 允 许 对 不 同 高 速 缓存 的 写 操作 并 发 ， 对 那些 写 操作 的 一 种 定 
序 机 制 也 不 是 一 目 了 然 的 。 我 们 需要 某 种 更 复杂 的 高 速 缓存 一 致 性 协议 来 使 得 “关键 的 ” 事 
件 为 其 他 高 速 缓存 可 见 并 且 保 证 写 的 串 行 化 。 

针对 回 写 高 速 缓存 协议 的 设计 空间 是 相当 大 的 。 在 研究 它 之 前 ， 让 我 们 先 回 到 在 本 章 引 
言 部 分 提 到 的 更 一 般 的 定 序 问 题 ， 考 察 由 存储 同一 性 模型 确定 的 共享 地 址 空间 的 语义 。 


5.2 存储 同一 性 


如 果 信 息 是 由 一 个 处 理 器 对 某 个 单元 写 人 ， 而 另 一 个 处 理 器 从 中 读 出 这 样 的 方式 来 得 以 
传递 的 话 ， 那 么 我 们 前 面 所 关注 的 一 致 性 将 是 非常 重要 的 。 最 终 ， 写 在 一 个 单元 的 数据 将 对 
所 有 的 读 取 者 都 会 是 可 见 的 ;但 这 种 一 致 性 并 没有 指明 所 写 入 的 数据 何 时 成 为 可 见 的 。 通 
常 ， 在 编写 一 个 并 行程 序 时 ， 我 们 希望 确保 一 个 读 操作 能 够 返回 -- 个 特定 的 写 操作 的 值 ; 也 
就 是 说 ， 我 们 希望 在 写 和 读 之 间 建 立 一 种 序 。 典 型 地 ， 我 们 使 用 某 种 形式 的 事件 同步 来 表达 
这 种 依赖 关系 ， 并 且 为 此 用 到 的 存储 地 址 不 止 一 个 。 

比如 ， 考 虑 图 5-7 中 的 代码 段 被 处 理 器 P 和 处 理 器 P, 执行 ， 我 们 在 第 2 章 讨论 在 一 个 
共享 地 址 空间 中 的 点 对 点 事件 同步 时 见 过 。 很 明显 ， 在 这 个 程序 中 ， 当 共享 变量 flag 值 为 
1 时 ， 一 直 处 于 空闲 状态 的 处 理 器 P, 才能 跳出 循环 ， 并 接着 输出 变量 A 的 值 。 因 为 变量 A 
的 值 先 于 flag 已 经 被 处 理 器 P 更 新 了 ， 所 以 输出 的 值 为 1。 在 这 种 情形 下 ， 我 们 通过 对 另 
一 个 地 址 空间 (如 Sag ) 的 访问 来 维持 不 同 处 理 器 访问 同一 地 址 空间 (如 A ) 的 某 种 期 望 
顺序 。 特 别 是 ， 假 定 了 P 对 变量 A 的 写 操作 在 它 对 flag 的 写 操作 之 前 就 可 见 了 ， 并 且 P 
对 变量 flag 的 读 操作 使 它 跳出 while 循环 ， 在 它 对 A 的 读 操 作 之 前 就 完成 了 (一 个 输出 操 
作 就 是 一 个 读 操 作 )。 前 述 一 致 性 概念 在 此 并 没有 隐 含 着 处 理 器 P 和 P, 对 不 同 地 址 单元 的 








P; P> 
/*Assume initial value of A and flag is 0*/ 
A= 1; while (flag == 0); /*spinidly*/ 
flag = 1; print A; 


图 5-7 通过 标记 变量 做 事件 同步 的 需求 。 此 图 显示 两 个 处 理 器 并 发 执行 两 个 
不 同 的 代码 段 。 从 程序 员 的 直觉 来 看 ， 输 出 的 A 值 必须 是 1， 因 为 根 
据 程序 语句 序 ， 如 果 进 程 己 看 到 flag = 1， 那 么 它 必须 也 能 看 到 A =1 
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访问 顺序 ， 一 致 性 在 此 仅仅 要 求 A 的 当前 值 最 终 对 处 理 器 已 是 可 见 的 ， 而 不 一 定 是 在 flag 
的 新 值 被 观察 到 之 前 。 
程序 员 可 能 试图 通过 使 用 栅 障 或 者 其 他 显 式 的 事件 同步 方式 (如 图 5-8 所 示 ) 来 避免 这 
个 问题 。 我 们 期 望 上 例 中 的 变量 A 的 值 在 李 障 前 被 设 定 为 1!， 其 后 的 输出 也 为 !。 但 是 这 个 
解决 方案 存在 两 个 潜在 的 问题 。 首 先 ， 我 们 给 栅 障 的 语义 增加 了 一 个 假设 ， 即 不 仅 进 程 在 运 
行 到 李 障 时 必须 等 待 所 有 其 他 进程 的 到 来 ， 而 且 进 程 在 运行 到 棚 障 前 发 出 的 所 有 写 操 作 在 运 
行 到 栅 障 时 要 对 其 他 所 有 进程 可 见 。 第 二 个 问题 是 ， 一 个 棚 障 常常 是 通过 对 普通 的 共享 变量 
(比如 ,图 5-8 中 的 b1) 的 读 写 操作 来 实现 的 ， 而 并 不 需要 专门 的 硬件 支持 。 既 然 这 样 ， 那 
么 从 机 器 的 角度 看 ， 上 述 方法 仅仅 是 对 经 过 编译 的 代码 中 不 同 的 共享 变量 的 访问 ， 而 并 不 是 
专门 的 栅 障 操作 。 但 是 ,存储 同 一 性 却 根本 没有 涉及 到 这 些 访问 的 顺序 问题 。 
P, P3 
/*Assume initial value of A is 0*/ 
A = 1; soe 
- - ~ BARRIER(b1l)- - - - - - BARRIER(bl)- - - - - - - 
print A; 


图 5-8 用 栅 障 来 显 式 同步 ， 保 证 对 同一 个 单元 不 同 访问 的 一 定 顺 序 。 类 似 于 图 7， 程序 员 期 
望 输出 A 的 值 为 1， 由 于 通过 了 栅 障 意味 着 P 对 A 的 写 操作 已 经 完成 ， 从 而 为 PB 可 见 


显然 ， 我 们 希望 一 个 存储 系统 能 提供 更 深刻 的 东西 ， 而 不 仅仅 只 是 对 每 个 单元 都 能 “ 返 
困 最 后 一 次 写 操作 的 值 "。 为 了 建立 不 同 的 进程 对 相同 单元 (例如 A ) 的 访问 顺序 ， 我 们 有 
时 希望 一 个 存储 系统 遵从 同一 进程 对 不 同 的 存储 单元 (A 和 flag 或 者 A 和 b1) MORE 
操作 的 顺序 。 一 致 性 也 没有 涉及 到 对 不 同 存储 单元 的 写 操作 成 为 可 见 的 顺序 问题 。 同 样 地 ， 
一 致 性 也 没有 涉及 P, 对 不 同 存储 单元 的 读 操作 相对 于 P 所 见 到 的 顺序 。 由 此 ， 存 储 同一 性 
本 身 并 没有 防止 在 以 上 每 个 例子 中 输出 结果 为 0， 当然 这 不 是 程序 员 所 期 望 的 。 

在 其 他 情况 下 ， 程 序 员 的 主观 意图 可 能 并 不 是 很 明确 。 考 虑 图 5-9 中 的 例子 ， 进 程 P 
执行 的 存储 访问 是 通常 的 写 操作 ， 而 且 A 和 B 并 没有 作为 标记 变量 或 者 是 同步 变量 来 使 用 。 
如 果 变 量 B 输 出 值 为 2， 那么 ， 从 直觉 上 我 们 会 认为 变量 A 的 输出 值 为 1 吗 ? 不 管 答 案 如 
何 ， 这 两 条 输出 语句 都 对 不 同 的 存储 地 址 执行 了 读 操 作 ， 并 且 一 致 性 概念 也 没有 讲 P 的 不 
同 写 操作 对 巴 是 可 见 的 顺序 。 这 个 例子 实际 上 是 Dekker 算 法 (Tanenbaum and Woodhull 1997) 
中 的 一 个 程序 段 ， 用 来 决定 两 个 进程 谁 先 到 达 一 个 临界 点 ， 成 为 互 斥 得 到 保证 的 一 个 步骤 。 
这 个 算法 依赖 于 这 样 的 假设 : 一 个 进程 对 不 同 存储 地 址 的 写 操作 为 其 他 进程 可 见 的 顺序 和 那 
些 写 操作 在 程序 中 出 现 的 顺序 相同 。 很 明显 ， 我 们 需要 某 些 规则 ， 而 不 仅仅 是 前 面 讨论 过 的 
一 致 性 来 给 共享 存储 地 址 空间 一 个 明确 的 语义 ， 也 就 是 定义 一 个 序 模型 ， 依 照 该 模型 ， 程 序 
员 能 推断 他 们 程序 的 执行 结果 及 其 正确 性 。 


P1 P> 
/*Assume initial values of A and B are 0*/ 
(la) A = 1; (2a) print B; 
(1b) B = 2; (2b) print A; 


图 5-9 没有 同步 的 访问 序 。 这 里 ， 由 于 既 没 有 用 标记 ， 也 没有 用 显 式 事件 同步 ， 程 序 员 的 意图 不 太 清 楚 
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在 共享 存储 空间 上 ， 多 个 进程 对 存储 器 的 不 同 单元 做 并 发 的 读 写 操作 ， 每 个 进程 都 会 看 
到 一 个 这 些 操 作 被 完成 的 序 。 一 个 存储 同一 性 模型 规定 了 对 这 种 序 的 若干 约束 。 值 得 一 提 的 
是 ， 这 里 涉及 的 并 发 存储 操作 既 包括 对 相同 单元 的 ， 也 包括 对 不 同 单元 的 ; 既 可 以 来 自 同一 
进程 ， 也 可 以 来 自 不 同 进 程 。 在 这 个 意义 上 ， 存 储 同 一 性 包含 了 一 致 性 。 


5.2.1 顺序 同一 性 


在 第 1 章 关于 通信 体系 结构 基本 设计 的 讨论 中 ，1.4 节 描 述 了 关于 共享 地 址 空间 的 一 个 
序 模型 : 对 于 一 个 多 线程 程序 在 单 处 理 器 环境 中 任意 交织 执行 的 性 质 所 做 的 任何 推断 ， 在 多 
处 理 器 环境 下 ， 线 程 分 到 不 同 处 理 器 上 并 行 运行 时 应 该 继续 有 效 。 所 以 ， 在 一 个 进程 中 的 数 
据 访 问 顺 序 也 就 是 这 个 程序 的 执行 顺序 ， 并 且 在 不 同 进程 间 的 数据 访问 顺序 也 就 是 某 种 程序 
执行 顺序 的 交织 。 也 就 是 说 ， 在 多 处 理 器 的 情形 不 应 该 使 进程 在 共享 地 址 空间 中 看 到 任何 交 
织 执行 都 不 可 能 产生 的 值 。 这 种 直观 模型 被 Lampor 形式 化 为 顺序 同一 性 模型 (Sequential 
Consistency，SC) ， 其 精确 定义 如 下 (Lamport 1979)° : 


称 一 个 多 处 理 器 是 顺序 同一 的 ， 如 果 程 序 在 它 上 面 的 任何 一 次 执行 的 结果 都 和 
其 中 所 有 操作 按 某 种 顺序 执行 的 结果 一 致 ， 并 且 在 这 种 顺序 执行 中 每 个 处 理 器 所 完 
成 的 操作 的 顺序 和 它 的 程序 执行 顺序 一 致 
图 5-10 描述 了 一 种 由 顺序 同一 性 系统 呈现 给 程序 员 的 存储 抽象 (Adve and Gharachorloo 
1996)。 除 了 现在 是 针对 多 存储 单元 外 ， 它 同 我 们 曾 用 来 介绍 存储 同一 性 的 机 器 模型 是 相似 
的 。 尽 管 在 真实 机 器 里 ， 主 存 可 能 被 分 布 在 多 个 处 理 器 中 ， 并 且 每 个 处 理 器 有 它 自 己 的 高 速 
缓存 和 缓冲 区 ， 多 个 进程 在 这 里 看 起 来 是 共享 一 个 单一 的 逻辑 存储 空间 。 每 个 进程 依照 程序 
原 序 执行 并 完成 一 次 次 存储 操作 ; 即 一 个 存储 操作 要 待 相同 进程 内 的 前 一 操作 完成 后 才 开 始 
执行 。 另 外 ， 公 共存 储 区 按照 某 种 任意 〈 但 希望 是 公平 ) 的 调度 方式 ， 交 叉 响 应 来 自 不 同 进 
程 的 操作 请 求 。 存 储 操作 是 这 个 交叉 顺序 中 的 原子 操作 ， 即 每 个 存储 操作 应 该 是 全 局 性 的 


处 理 器 发 出 存储 
器 访问 作为 每 个 
程序 的 顺序 








在 每 个 存储 器 访问 
后 “交换 机 "被 随 
机 地 设置 





图 5-10 在 顺序 同一 性 模型 下 程序 员 所 看 到 的 存储 子 系统 的 抽象 。 这 个 模型 对 程序 员 完全 隐藏 了 
背后 存储 系统 硬件 的 并 发 性 (例如 ， 可 能 的 分 布 式 主 存储 器 、 高 速 缓存 和 写 缓 串 区 等 ) 





〇 ”在 软件 系统 中 有 两 个 相关 的 概念 ， 一 是 对 于 数据 库 并 发 更 新 的 可 串 行 性 (Papadimitriou 1979); 二 是 关于 并 发 对 象 
的 可 线性 (Herlihy and Wing 1987). 
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(对 于 所 有 的 进程 )， 一 个 操作 完成 后 下 一 个 操作 才 开 始 执行 。 

如 同一 致 性 ,在 这 里 存储 操作 具体 以 何 种 顺序 来 执行 甚至 完成 是 不 重要 的 。 对 于 顺序 同 
一 性 来 说 ， 真 正 重要 的 是 存储 操作 的 完成 满足 上 述 约束 条 件 。 在 图 5-9 的 例子 中 ， 按 照 SC 
模型 ，(A，B ) 结果 值 为 (0，2) 是 不 允许 的 ， 这 和 我 们 直观 上 的 认识 一 致 ， 否 则 处 理 器 
P, 对 和 A 和 B 执行 的 写 操作 就 不 符合 程序 执行 序 了 。 然 而 ,这些 存 储 操作 可 能 确实 以 1b、 
la, 2b, 2a 这 样 的 顺序 来 执行 并 完成 。 它 们 实际 完成 的 顺序 不 同 于 程序 执行 序 是 没有 关系 
的 ， 因 为 执行 结果 (1，2) 与 存储 操作 按照 程序 执行 序 来 执行 并 完成 的 结果 是 相同 的 。 另 
一 方面 ， 因 为 产生 了 在 SC 模型 下 不 允许 的 结果 (0，2)， 所 以 实际 的 执行 顺序 1b, 2a, 
2b, 1a 不 是 顺序 同一 性 的 。 在 习题 5.6 中 ， 还 有 一 些 说 明 顺序 同一 性 的 例子 。 值 得 注意 的 
是 SC 模型 并 不 意味 着 可 以 不 同步 了 。 其 原因 是 SC 模型 只 是 允许 任意 交错 的 不 同 进程 的 操作 
在 单个 指令 的 粒度 上 执行 。 如 果 我 们 想 要 在 一 个 进程 中 的 多 个 存储 操作 之 间 维护 原子 性 (E 
斥 ) ， 或 者 如 果 我 们 想 要 在 交错 进程 间 强 加 某 种 约束 ， 那 么 同步 是 必需 的 。 

术语 “程序 执行 序 ”( 也 称 程序 原 序 ) 也 具有 某 些 需要 其 酌 的 细节 。 从 直观 上 看 ， 某 个 
进程 的 程序 执行 序 仅仅 是 源 程序 中 语句 执行 的 顺序 ; 更 明确 地 说 ， 它 是 编译 器 按照 直截了当 
的 方式 所 产生 的 汇编 代码 中 存储 操作 的 发 生 顺 序 。 但 这 不 一 定 是 优化 编译 器 产生 的 硬件 存储 
操作 顺序 ， 因 为 这 个 编译 器 可 能 对 存储 操作 重新 排序 (遵循 特定 的 约束 条 件 ， 比 如 对 相同 存 
储 地 址 的 存储 依赖 性 )。 程 序 员 的 头脑 中 有 的 是 源 程序 中 语句 执行 的 顺序 ， 但 是 处 理 器 只 关 
注 机 器 指令 的 执行 顺序 。 事 实 上 ， 在 并 行 计算 机 体系 结构 的 每 一 个 接口 上 都 有 一 个 “程序 执 
行 序 "， 特 别 是 在 程序 员 可 见 的 程序 设计 模型 接口 上 和 硬件 /软件 接口 上 ， 并 且 这 个 序 模型 是 
可 以 分 别 定义 的 。 因 为 程序 员 总 以 源 程序 来 推断 程序 执行 的 行为 ， 所 以 在 讨论 存储 同一 性 模 
型 时 ， 使 用 源 程序 来 定义 程序 执行 序 是 有 意义 的 ;也 就 是 说 ， 我 们 所 关心 的 同一 性 模型 由 程 
序 设计 语言 和 执行 系统 呈现 给 程序 员 。 

实现 SC 模型 要求 系统 (包括 软件 和 硬件 ) 体现 先前 定义 的 直观 上 约束 条 件 。 这 里 实 
际 上 是 两 个 条 件 。 一 个 是 程序 执行 序 的 要 求 : 一 个 进程 的 存储 操作 为 自己 以 及 别 的 进程 成 为 
可 见 的 顺序 必须 符合 程序 执行 序 。 另 一 个 约束 是 基于 操作 的 原子 性 假设 来 确保 所 有 操作 的 全 
F, 或 者 说 在 进程 间 交 又 执 行 的 情况 ， 对 所 有 进程 都 是 一 样 的 。 也 就 是 说 ， 一 个 所 有 进程 都 
能 看 到 的 操作 的 完成 应 该 在 总 体 顺 序 中 的 下 一 个 操作 开始 执行 前 (不 管 是 由 哪个 进程 来 执 
行 )。 对 第 二 个 约束 值得 注意 的 是 要 使 写 操作 表现 出 原子 性 ， 尤 其 是 在 一 个 多 副本 的 存储 系 
统 中 ， 一 个 写 操作 需要 影响 到 相关 的 所 有 副本 。 在 先前 定义 的 顺序 同一 性 中 ， 写 操作 原子 性 
的 要 求 ， 意 味 着 一 个 写 操作 在 所 有 操作 全 序 中 的 执行 位 置 应 该 对 所 有 处 理 器 都 是 一 样 的 。 这 
就 保证 了 当 一 个 处 理 器 看 到 自己 执行 的 一 个 写 操作 的 效果 后 ， 在 别 的 处 理 器 见 到 这 个 写 操作 
产生 的 新 值 前 ， 这 个 处 理 器 所 做 的 任何 事情 〈 例 如 另 一 个 写 操作 ) 对 其 他 处 理 器 都 是 不 可 见 
的 。 从 效果 上 看 ，SC 模型 要 求 的 写 操作 原子 性 扩展 了 一 致 性 要 求 的 写 操作 的 串 行 化 ; 即 写 
操作 的 串 行 化 要 求 同 一 个 存储 单元 的 一 系列 写 操作 在 所 有 处 理 器 看 来 都 以 相同 的 顺序 发 生 ， 
而 号 操作 的 原子 性 要 求 所 有 的 写 操作 (对 于 任何 存储 地 址 ) 在 所 有 处 理 器 看 来 是 以 相同 的 顺 
序 发 生 的 。 例 5.4 表明 了 写 操 作 原 子 性 的 重要 性 。 

例 5.4 考虑 图 5-11 中 的 三 个 进程 。 指 出 如 果 写 操作 的 原子 性 得 不 到 保证 ， 顺 序 同一 性 
就 做 不 到 。 

解答 : 因为 处 理 器 P, 直 到 变量 A 值 为 1 时 才 开 始 运行 ， 并 接着 置 B 的 值 为 1， 而 处 理 
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P, P2 P3 
A=1; = ————"® while (A==0); 
B=1; while (B==0); 


print A; 





图 5-11 写 操作 原子 性 对 顺序 同一 性 的 重要 性 的 示例 


器 P 直到 变量 B 值 为 1 时 才 开 始 运 行 ， 并 接着 读 出 变量 A 的 值 ， 由 传递 性 我 们 可 以 推断 出 
处 理 器 P, 应 该 发 现 变量 A 的 值 为 1。 如 果 处 理 器 已 被 允许 越过 对 变量 A 的 读 操作 ， 在 确保 
处 理 器 P, 已 经 可 见 变 量 A 的 新 值 前 对 变量 B 执行 写 操作 ， 那 么 处 理 器 P 就 可 能 读 出 变量 B 
的 新 值 和 变量 A 的 旧 值 (比如 ， 从 它 的 高 速 缓存 中 ) ， 这 样 也 就 和 我 们 对 顺序 同一 性 的 认识 
不 相符 。 国 
更 形式 化 地 说 ， 每 个 进程 的 程序 执行 序 在 所 有 操作 集 上 强加 了 一 个 偏 序 ， 也 就 是 说 ， 它 
在 自己 所 执行 的 操作 (所 有 操作 的 一 个 子 集 ) 上 强加 了 一 个 序 。 不 同 进程 操作 的 交织 执行 就 
定义 了 一 个 全 序 。 因 为 SC 模型 并 没有 定义 具体 的 交织 方式 ， 满足 每 个 进程 操作 偏 序 的 总 体 
程序 执行 序 可 能 会 很 多 。 因 此 我 们 有 下 列 定义 ; 
。 顺序 同 一 性 的 执行 。 如 果 程序 的 一 次 执行 产生 的 结果 与 前 面 定义 的 任意 一 种 可 能 的 
总 体 顺序 《交织 产生 的 ) 产生 的 结果 一 样 ， 那 么 程序 的 这 次 执行 就 称 为 是 顺序 同一 
的 。 也 就 是 说 ， 存 在 这 么 一 个 总 体 顺序 ， 或 者 说 是 程序 的 一 种 交叉 执行 ， 能 产生 与 
实际 执行 相同 的 结果 。 
。 顺序 同一 性 的 系统 。 如 果 在 一 个 系统 上 的 任何 可 能 的 执行 都 是 顺序 同一 的 ， 那 么 这 
个 系统 就 是 顺序 同一 的 。 


5.2.2 保证 顺序 同一 性 的 充分 条 件 


讨论 了 定义 和 高 层 需 求 ， 让 我 们 来 看 看 多 处 理 器 的 实现 怎么 能 够 满足 Sc。 我 们 可 能 定 
义 一 组 充分 条 件 ， 通 过 它们 使 得 顺序 同一 性 在 多 处 理 器 中 得 到 保证 ， 无 论 是 基于 总 线 还 是 分 
布 存储 的 ， 也 不 管 是 否 有 高 速 缓存 的 一 致 性 。 下 面 这 些 条件 ， 最 初 源 于 (Dubois, Scheurich, 
and Briggs 1986; Scheurich and Dubois 1987) 是 相对 简单 的 ; 

1) 每 个 进程 按照 程序 执行 序 发 出 存储 操作 。 

2) 发 出 写 操作 后 ， 进 程 要 等 待 写 的 完成 ， 才 能 发 出 它 的 下 一 个 操作 。 

3) 发 出 读 操作 后 ， 进 程 不 仅 要 等 待 读 的 完成 ， 还 要 等 待产 生 所 读 的 数据 的 那个 写 操 作 
的 完成 ， 才 能 发 出 它 的 下 一 个 操作 。 也 就 是 说 ， 如 果 该 写 操作 对 这 个 处 理 器 来 说 是 完成 了 
( 即 返 回 了 所 写 的 值 )， 那 么 这 个 处 理 器 应 该 等 待 该 写 操作 对 于 所 有 处 理 器 都 完成 了 。 

第 三 个 条 件 保证 了 写 操作 的 原子 性 ， 要 求 是 相当 高 的 。 由 于 读 操 作 必须 等 待 软 辑 上 先前 
的 写 操作 变 得 全 局 可 见 ， 它 不 是 一 个 简单 的 局 部 限制 。 我 们 注意 到 这 些 是 充分 的 、 但 不 是 必 
要 的 条 件 。 在 许多 情形 ， 顺 序 同一 性 可 以 在 较 低 的 串 行 化 要 求 下 也 能 得 到 保证 ， 后 面 将 会 
看 到 。 

源 程序 定义 了 一 种 程序 的 执行 顺序 ， 重 要 的 是 编译 器 不 应 该 改变 程序 呈现 给 硬件 (处 理 
an) 存储 器 操作 的 次 序 。 和 否则， 从 程序 员 所 看 到 的 顺序 同一 性 就 可 能 被 破坏 ， 即 使 还 不 一 定 
涉及 到 硬件 层次 。 但 是 ， 在 编译 和 处 理 器 中 广 为 采 用 的 许多 优化 技术 违反 这 个 充分 条 件 。 例 
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如 ， 在 一 个 进程 内 对 不 同 存储 单元 的 访问 重新 排序 是 编译 器 一 贯 做 的 事情 ， 因 此 处 理 器 就 可 
能 给 出 和 程序 员 所 看 到 的 不 同 的 访问 顺序 。 显 式 并 行程 序 用 的 是 单 处 理 器 的 编译 器 ， 它 只 关 
心 保持 对 相同 单元 的 相关 性 。 那 些 极 大 改善 性 能 的 高 级 编译 优化 技术 ， 诸 如 公共 子 表达 式 的 
删除 、 常 数 传播 、 寄 存 器 分 配 和 循环 变换 ， 如 循环 拆 分 、 循 环 反 序 和 循环 封锁 (Wolfe 1989) 
等 等 ， 能 改变 对 不 同 单元 访问 的 次 序 ， 甚 至 消除 一 些 存 储 操 作 8 。 在 实践 上 ， 为 了 限制 这 些 
编译 优化 ， 多 线程 和 并 行程 序 对 那些 用 来 维持 某 种 序 要 求 的 变量 或 存储 引用 进行 注释 。 一 种 
特别 严格 的 例子 是 在 变量 声明 时 赋予 其 volatile 属性 ， 它 告诉 编译 器 不 要 对 该 变量 进行 寄 
存 器 分 配 ， 也 不 要 改变 在 该 变量 上 的 存储 操作 相对 于 它 前 后 操作 的 次 序 。 例 5.5 是 关于 这 些 
要 点 的 一 个 解释 。 

例 5.5 在 图 5-7 中 ,， 不同 的 存储 操作 的 序 会 如 何 影 响 串 行程 序 的 语义 (只 一 个 进程 运 
行 )、 在 多 处 理 器 上 并 行程 序 的 语义 以 及 在 一 个 多 线程 程序 上 的 语义 〈 其 中 两 个 线程 在 同一 
个 处 理 器 上 交叉 执行 )? 你 怎样 解决 这 个 问题 ? 

解答 : 编译 可 以 改变 对 A 和 flag 写 操作 次 序 ， 并 对 串 行 程序 没有 影响 。 然 而 ， 这 可 能 
违反 我 们 对 于 并 行程 序 和 并 发 (或 多 线程 的 ) 单 处 理 器 程序 行为 的 直观 认识 。 对 后 者 ， 上 下 
文 切 换 可 能 在 两 个 重 排序 的 写 之 间 发 生 ， 于 是 切换 进来 的 进程 可 能 看 见 对 flag 的 更 新 但 看 
不 到 对 A 的 更 新 。 如 果 编 译 器 改变 了 读 flag MA 的 次 序 ， 类似 违背 直觉 的 情况 也 会 出 现 。 
对 许多 编译 来 说 ， 通 过 声明 变量 flag 为 volatile integer ， 而 不 是 简单 的 声明 为 inte 
ger ， 就 可 以 避免 变 序 的 情形 。 还 有 一 些 其 他 的 解决 方案 ， 将 在 第 9 章 讨论 。 国 

即使 编译 器 保持 了 程序 指令 的 执行 顺序 ， 现 代 处 理 器 所 用 的 一 些 复杂 的 机 制 ， 诸 如 写 组 
冲 、 交 叉 存 储 、 流 水 线 和 乱 序 执行 技术 (Hennessy and Patterson 1996) 等 ， 也 会 使 得 从 进程 看 
到 的 存储 操作 的 发 出 、 执 行 和 /或 完成 不 同 于 程序 中 所 描述 的 次 序 。 和 编译 优化 类 似 ， 这 些 
系统 结构 方面 的 优化 对 于 串 行程 序 是 能 正常 工作 的 ， 这 是 因为 在 那些 程序 中 序 的 表现 只 要 求 
对 相同 存储 单元 的 访问 的 相关 性 得 到 保证 ， 如 图 5-12 所 示 。 在 并 行程 序 中 的 问题 是 ， 一 个 
进程 对 不 同 共享 变量 操作 的 乱 序 处 理 能 被 其 他 进程 检测 到 。 


Write A 
Ç wres 
Read A >` 图 5-12 维持 一 个 串 行 程序 在 单 处 理 器 上 执行 的 操作 
Read B 序 。 只 是 对 应 于 两 个 相关 弧 的 序 必 须 被 维持 。 
前 面 两 个 、 后 面 两 个 和 中 间 两 个 操作 可 以 换 序 





执行 在 多 处 理 器 中 ， 上 述 保持 SC 的 充分 条 件 是 一 个 相当 强 的 要 求 ， 它 使 编译 器 变 序 和 
乱 序 执行 技术 的 使 用 受到 了 限制 。 若 干 弱化 一 些 的 同一 性 模型 和 技术 提 了 出 来 ,满足 SC 的 
要 求 ， 但 放松 了 充分 条 件 。 在 第 9 章 讨 论 可 扩展 共享 存储 系统 时 将 会 考察 这 些 方法 。 对 于 本 
章 来 说 ， 假 定编 译 器 不 改变 存储 操作 的 顺序 ， 从 而 处 理 器 所 看 到 的 程序 的 顺序 和 程序 员 所 看 
到 的 是 相同 的 。 在 硬件 方面 ， 假 设 必须 满足 充分 条 件 。 为 此 ， 我 们 需要 有 一 个 处 理 器 能 检测 





O 我们 注意 到 ， 现 代 编 译 器 用 来 消除 一 些 存储 操作 的 寄存 器 分 配 ， 不 仅 会 影响 存储 同一 性 ， 还 会 影响 一 致 性 。 对 
于 图 5-7 中 的 标记 同步 例子 来 说 ， 如 果 编译 器 在 P 中 将 变量 flag 分 到 了 寄存 器 中 ， 可 能 会 导致 进程 永远 踏步 等 
待 下 去 ; 高速 缓存 一 致 性 硬件 只 是 更 新 或 者 作废 存储 器 和 高 速 缓存 中 的 内 容 ， 而 不 涉及 到 寄存 器 ， 于 是 违反 了 
一 致 性 所 要 求 的 写 传播 性 质 。 
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它 的 写 操 作 完 成 ， 从 而 可 以 继续 向 下 执行 的 机 制 〈 读 操作 完成 的 检测 是 容易 的 ; 当 数 据 返 回 
到 处 理 器 时 ， 读 就 完成 了 )， 还 需要 机 制 来 保证 写 操作 的 原子 性 。 对 于 本 章 所 考虑 的 所 有 协 
议和 系统 来 说 ， 我 们 将 看 到 它们 如 何 满足 一 致 性 〈 包 括 写 操作 的 串 行 化 )， 如 何 满足 顺序 同 
一 性 (特别 地 ， 如 何 检 测 写 操作 的 完成 、 写 原子 性 的 保证 ) 以 及 在 仍然 满足 这 些 充分 条 件 
下 ,可 以 进行 什么 样 的 简化 处 理 。 

对 基于 总 线 的 机 器 来 说 ， 共 享 总 线 所 带 来 的 必然 的 操作 串 行 化 对 存储 器 操作 的 定 序 是 很 
有 用 的 。 容 易 验 证 ， 前 面 讨论 过 的 两 状态 直 写 作废 协议 实际 上 相当 容易 地 提供 了 顺序 同一 性 
不 仅 是 一 致 性 。 将 关于 一 致 性 的 论点 扩充 的 关键 是 注意 到 对 所 有 存储 单元 的 读 和 写 扑 空 
(不 仅 是 对 个 别 单元 )， 都 在 总 线 上 串 行 化 了 。 当 读 操作 得 到 了 一 个 写 操作 的 值 ， 那 个 写 操作 
肯定 已 经 就 完成 了 (由 于 它 引 起 了 一 个 前 面 的 总 线 事务 )， 这 样 就 保证 了 写 操 作 的 原子 性 。 
当 对 任何 处 理 器 进行 一 个 写 操作 的 时 候 ， 所 有 先前 的 写 操作 已 经 以 它们 访问 总 线 的 次 序 完 
成 了 。 


5.3 总 线 侦 听 协议 的 设计 空间 


基于 侦 听 的 高 速 缓 存 一 致 性 的 精彩 之 处 在 于 ， 解 决 一 个 困难 问题 的 整个 机 制 可 以 归结 到 
对 在 系统 中 自然 发 生 的 若干 事件 进行 少量 的 额外 解释 。 处 理 器 完全 不 需 改 变 。 在 程序 中 不 需 
要 插入 显 式 的 一 致 性 操作 。 通 过 扩充 高 速 缓存 控制 器 的 功能 ， 利 用 总 线 的 性 质 ， 程 序 中 固有 
的 读 和 写 隐 含 地 保持 了 高 速 缓 存 的 一 致 性 ， 由 总 线 提供 的 串 行 化 维护 了 同一 性 。 每 个 高 速 组 
存 控制 恬 观 察 并 解释 由 其 他 高 速 缓存 产生 的 总 线 事务 ， 并 相应 维护 自己 的 内 部 状态 。 我 们 最 
初 的 针对 直 写 缓存 的 设计 不 是 很 高 效 的 ， 但 我 们 现在 可 以 来 研究 侦 听 式 协议 的 设计 空间 ， 高 
效 利 用 有 限 的 共享 总 线 带 宽 。 所 有 这 些 都 用 回 写 高 速 缓存 ， 允 许多 个 处 理 器 并 发 地 在 它们 的 
局 部 缓存 中 写 不 同 的 存储 块 ， 不 用 任何 总 线 事务 。 这 样 ， 为 保证 足够 的 信息 在 总 线 上 传送 ， 
需要 引信 额外 的 措施 来 维护 一 致 性 。 

回顾 单 处 理 器 的 回 写 高 速 缓存 ， 处 理 器 写 扑 空 引起 缓存 从 存储 器 读 进 一 个 存储 块 ， 更 新 
其 中 的 一 个 字 ， 将 这 一 块 置 成 已 修改 (BRA) 状态 ， 以 便 在 替换 时 写 回 存储 器 。 在 多 处 理 
器 的 情形 ， 这 个 已 修改 状态 也 由 协议 用 来 指出 一 个 缓存 对 某 一 存储 块 的 单独 拥有 权 。_ 一 般 来 
说 ， 我 们 称 某 个 高 速 缓存 是 一 存储 块 的 拥有 者 ， 如 果 当 对 该 块 有 请 求 时 必须 由 它 提供 数据 
(Sweazey and Smith 1986) 。 称 一 个 高 速 缓存 独立 地 拥有 某 一 存储 块 的 一 个 拷贝 ， 如 果 它 是 含 
有 该 块 有 效 拷贝 的 惟一 高 速 缓存 ( 主 存 可 能 有 也 可 能 没有 一 个 有 效 的 拷贝 )， 这 种 排 它 性 隐 
含 着 该 高 速 缓存 可 以 修改 这 一 存储 块 而 不 需要 通知 其 他 高 速 缓 在。 如果 -个 高 速 缓存 对 一 存 
储 块 的 拥有 没有 排他 性 ， 那 么 它 就 应 该 首先 产生 一 个 通知 其 他 高 速 缓存 的 总 线 事务 ， 才 能 向 
该 块 写 人 新 值 。 试 图 做 写 操作 的 这 个 高 速 缓存 可 能 有 一 份 有 效 的 块 ， 但 由 于 要 产生 -个 总 线 
事务 ， 它 也 称 为 写 扑 空 ， 就 好 像 要 写 人 一 个 不 存在 或 者 无 效 的 块 -一 样 。 如 果 高 速 缓存 里 的 这 
一 块 处 于 修改 状态 ， 那 么 显然 它 是 拥有 者 ， 并 且 有 排他 性 。 (区 别 拥 有 权 和 排他 性 的 必要 性 
很 快 就 会 很 清楚 了 。) 

在 作废 协议 中 发 生 一 次 写 扑 空 时 ， 一 种 特殊 形式 的 总 线 事务 ， 称 为 排他 读 ， 用 来 告诉 其 
他 高 速 缓存 将 发 生 一 次 写 操作 ， 并 且 获 得 对 于 该 块 的 单独 拥有 权 。 这 就 是 将 该 块 以 修改 状态 
放 人 高 速 缓存 ， 然 后 就 可 以 写 了 。 多 个 处 理 器 不 可 能 并 发 写 同 一 个 存储 块 ， 不 然 会 引起 非 _ 
致 的 值 。 由 这 样 的 写 操作 产生 的 排他 读 总 线 事务 将 由 总 线 来 串 行 化 ， 因 此 一 次 只 有 -一个 能 获 
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得 对 该 块 的 单独 拥有 权 。 高 速 缓存 一 致 性 的 动作 由 这 两 种 类 型 的 过 程 驱动 : 读 和 排他 读 。 最 
终 ， 当 一 个 已 修改 块 从 高 速 缓存 中 被 蔡 换 时 ， 数 据 被 写 回 存储 器 ， 但 这 个 事件 不 是 由 一 个 对 
该 块 的 存储 操作 引起 的 ， 对 协议 几乎 是 随机 性 的 。 不 处 于 修改 状态 的 块 在 替换 时 不 需要 回 
写 ， 简 单 地 丢掉 即 可 ， 这 是 因为 存储 器 有 最 新 的 拷贝 。 许 多 协议 都 是 针对 回 写 高 速 缓存 设计 
的 ， 我 们 来 考察 一 些 基 本 的 可 选 方案 。 

我 们 也 考虑 基于 更 新 的 协议 。 回 忆 在 基于 更 新 的 协议 中 ， 只 要 一 个 共享 单元 被 一 个 处 理 
融 写 ， 它 的 值 就 在 所 有 含有 该 存储 块 的 处 理 器 的 高 速 缓 存 中 更 新 ? 。 这 样 ， 当 这 些 处 理 器 接 
着 访问 这 一 存储 块 时 ， 它 们 就 可 直接 从 它们 的 低 时 延 高 速 缓存 中 得 到 。 所 有 其 他 处 理 器 的 高 
速 缓存 的 更 新 由 一 次 总 线 过 程 完成 ， 这 样 当 有 多 个 共享 者 时 就 节省 了 带宽 。 相 比 之 下 ， 对 于 
基于 作废 的 协议 ,一 个 处 理 器 在 执行 写 操作 时 ， 所 有 含有 相应 存储 块 的 处 理 器 高 速 缓存 的 状 
态 被 置 成 无 效 的 ， 于 是 这 些 处 理 器 在 下 一 次 读 的 时 候 必 须 通过 一 次 扑 空 ， 从 而 也 是 -一 次 总 线 
事务 来 获得 那 一 块 。 不 过 对 执行 该 写 操作 的 处 理 器 来 说 ， 在 其 他 处 理 器 访问 之 前 ， 对 那 一 存 
储 块 后 继 的 写 操作 不 会 引起 总 线 事务 (在 更 新 协议 时 是 会 引起 的 )。 在 一 个 处 理 器 连续 向 一 
个 存储 块 做 写 操作 ， 中 间 没 有 其 他 处 理 器 访问 该 块 的 情形 ， 这 是 有 吸引 力 的 。 具 体 的 折 中 要 
复杂 许多 ,它们 取决 于 机 器 的 工作 负载 情况 。 对 此 ， 在 5.4 节 有 量化 的 讨论 。 一 般 来 说 ， 基 
于 作废 的 策略 要 更 健 强 ， 因 此 许多 厂家 都 提供 作为 缺 省 协议 。 有 些 厂家 提供 更 新 协议 作为 备 
选 ， 用 于 某 些 对 应 于 特定 数据 结构 或 页 的 存储 块 。 

对 于 协议 (更 新 或 作废 ) 和 高 速 缓存 策略 所 作 的 选择 直接 影响 状态 的 选择 、 状 态 转换 图 
和 相关 动作 的 选择 。 对 于 计算 机 体系 结构 设计 师 来 说 ， 在 这 一 层次 的 设计 任务 有 很 大 的 灵活 
性 。 我 们 这 里 不 一 一 列举 所 有 的 可 能 性 ， 下 面 通过 考虑 三 种 常见 的 一 致 性 协议 来 体会 有 关 的 
设计 思路 。 


5.3.1 一 种 三 态 (MSD 回 写作 废 式 协议 


我 们 这 里 考虑 的 第 一 个 协议 是 针对 回 写 缓存 、 基于 作废 的 协议 。 它 和 在 Silicon Graphics 
AD 系列 多 处 理 器 中 所 用 的 很 相似 (Baskett, Jermoluk, and Solomon 1988) 。 这 个 协议 利用 任何 
回 写 协议 部 要 有 的 三 个 状态 ,来 区别 有效 存储 块 的 未 修改 (干净) MEEK (AE), BL 
说 ， 三 个 状态 分 别 为 已 修改 的 (M), FA (S) 和 无 效 的 《1)。 无 效 的 意义 是 明显 的 。 共 
享 意味 着 该 存储 块 在 这 个 高 速 缓存 中 存在 但 未 修改 ， 主 存 中 有 最 新 的 值 ， 其 他 高 速 缓存 有 可 
能 有 最 新 的 拷贝 (共享)。 已 修改 的 ， 也 称 脏 的 ， 意味 着 只 有 这 个 缓存 有 -个 该 存储 块 的 有 
效 拷贝 ， 主 存 中 的 拷贝 是 过 时 的 。 在 对 一 个 共享 或 者 无 效 块 做 写 操作 ， 并 将 其 置 成 已 修改 状 
态 之 前 ， 所 有 其 他 拷贝 必须 通过 一 个 排他 读 总 线 事务 作废 。 除 了 引起 作废 外 ， 这 个 总 线 事务 
还 用 来 为 写 操作 定 序 ， 从 而 保证 写 操作 对 其 他 高 速 缓存 是 可 见 的 ( 写 传播 )。 

处 理 器 发 出 两 种 类 型 的 请 求 : 读 (PrRd) 和 写 (PrWr)。 所 读 和 所 写 的 ， 可 能 是 存在 于 
高 速 缓存 中 的 一 个 存储 块 ， 也 可 能 是 高 速 缓存 中 不 存在 的 。 对 于 后 者 的 情形 ， 高 速 缓存 中 的 
茶 一 块 就 要 被 新 请 求 的 块 所 替换 ， 如 果 所 存在 的 块 处 于 已 修改 状态 ， 它 的 内 容 就 要 被 写 回 
主 存 。 





O ”这 是 一 种 写 广播 的 情形 。 人 们 也 研究 过 读 广播 的 设计 ， 其 中 一 个 高 速 缓存 在 总 线 上 看 到 -一 个 读 操作 后 将 自己 仿 
有 的 一 个 已 修改 存储 块 送 上 总 线 ， 所 有 其 他 高 速 缓存 中 的 拷贝 也 得 到 更 新 。 
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我 们 假定 总 线 允 许 下 面 的 过 程 : 
。 总 线 读 〈BusRd): 这 个 过 程 由 引起 高 速 缓存 扑 空 的 PrRd 产生 ， 处 理 器 指望 一 个 数据 
返回 作为 结果 。 高 速 缓存 控制 器 将 地 址 放 在 总 线 上 ， 请 求 一 个 它 不 想 修 改 的 拷贝 。 
存储 系统 〈 可 能 是 另外 的 高 速 缓存 ) 提供 数据 。 
总 线 排他 读 (BusRdX): 这 个 过 程 由 PrWr 产生 ， 这 个 PrWr 要 读 的 一 个 存储 块 ， 要 人 么 
293 不 在 高 速 缓存 或 者 在 高 速 缓存 但 不 处 于 已 修改 状态 。 高 速 缓存 控制 器 将 地 址 放 到 总 
线 上 ， 请 求 一 个 它 要 修改 的 排他 拷贝 。 存 储 系统 (可 能 是 从 另 一 个 高 速 缓存 ) 提供 
数据 。 所 有 其 他 高 速 缓存 被 作废 。 一 旦 高 速 缓存 得 到 了 这 个 排他 拷贝 ， 写 就 可 以 在 
高 速 缓存 里 完成 。 处 理 器 可 能 要 求 一 个 认可 来 作为 这 个 过 程 的 结果 。 
总 线 回 写 (BusWB): 这 个 过 程 由 高 速 缓存 控制 器 在 回 写 时 产生 ; 处 理 器 不 知道 它 的 
发 生 也 不 指望 有 一 个 响应 。 高 速 缓存 控制 器 将 地 址 和 存储 块 的 内 容 放 到 总 线 上 。 主 
存 被 更 新 。 

总 线 排他 读 〈 有 时 称 为 读 后 拥 有 ) 是 仅 有 的 特别 和 高 速 缓存 一 致 性 有 关 的 过 程 。 为 支持 
回 写 协议 所 需要 的 新 动作 是 ， 除 了 改变 高 速 缓存 块 的 状态 外 ， 一 个 高 速 缓存 控制 器 能 够 根据 
一 个 观察 到 的 总 线 事务 ， 从 它 的 高 速 缓 存 中 将 一 个 被 引用 的 存储 块 提 出 来 ， 放 在 总 线 上 ， 而 
不 是 让 主 存 来 提供 数据 。 当 然 ， 高 速 缓存 控制 器 也 能 启动 如 上 所 述 的 总 线 事务 ， 提 供 回 写 数 
据 ， 或 者 拾取 由 存储 系统 提供 的 数据 。 . 

1， 状 态 转换 

图 5-13 中 的 状态 转换 图 表达 了 在 这 种 侦 听 式 协 议 中 一 个 存储 块 的 各 种 情况 。 其 中 的 状 
态 是 这 样 组 织 的 ， 越 是 接近 顶部 的 状态 ， 表 示 对 应 的 存储 块 和 处 理 器 绑 定 得 越 紧 。 处 理 器 读 
一 个 无 效 的 (或 者 不 存在 的 ) 存储 块 ， 引 起 一 个 BusRd 事务 来 解决 这 次 扑 空 。 新 装 人 的 存储 
块 在 发 出 请 求 的 缓存 中 被 提升 ， 在 这 个 状态 图 中 ， 即 从 无 效 到 共享 状态 ， 无 论 其 他 高 速 缓存 
是 否 也 有 一 个 拷贝 。 任 何 有 着 这 一 存储 块 〈 处 于 共享 状态 ) 的 高 速 缓存 观察 到 这 一 BusRd， 
但 是 不 采取 任何 行动 ， 而 让 主 存储 器 提供 数据 响应 。 然 而 ， 如 果 一 个 高 速 缓 存 有 着 处 于 已 修 


PrRd/— aw 


‘ON 图 5-13 基本 三 态 作废 式 协议 。M、$S 和 [分 别 表 
BusRd/Flush `, 示 已 修改 ， 共 享 和 无 效 状态 。 记 号 A/B 
表示 如 果 控 制 器 从 处 理 器 或 总 线 方 观察 到 

/ i TEHA, BART RAKES, CE 
fk 生 一 个 总 线 事务 或 者 动作 BWA K 
BusRdX/Flush 示 空 动作 。 由 所 观察 到 的 总 线 事务 所 
\ | 引起 的 转移 用 虚线 弧 表 示 ， 由 于 本 地 处 
BosRdX , 理 器 动作 所 引起 的 转移 用 实 线 弧 表示 。 如 
! 果 有 多 个 AIB 和 一 个 弧 相 联 ， 指 的 是 多 
PrRd/— / 种 输入 能 引起 相同 的 状态 转换 。 为 完整 性 










PrWr/BusRdX 


PrRd/BusRd 





Petr /Buskan BusRd/— | y 起 见 ， 我 们 应 该 对 每 个 状态 和 每 个 可 观察 
/ ， 到 的 事件 说 明 相应 的 动作 。 如 果 有 些 转移 
没有 显示 出 来 ， 这 里 表示 要 么 不 关心 ， 要 


么 没有 什么 动作 需要 实施 。 为 简单 起 见 ， 
替换 和 它们 可 能 引起 的 回 写 在 图 中 没有 示 出 
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改 状态 的 存储 块 (只 可 能 有 一 个 )， 当 它 观察 到 总 线 上 一 个 BusRd 事务 ， 它 就 必须 参加 这 个 
事务 (因为 主 存 的 块 是 过 时 的 )。 这 个 高 速 缓存 将 数据 送 到 总 线 上 替代 存储 器 ， 并 且 将 它 的 
拷贝 降级 为 共享 状态 ( 见 图 5-13)。 存 储 器 和 高 速 缓存 都 接受 这 个 存储 块 。 这 个 操作 的 完成 
可 以 通过 在 BusRd 期 间 直 接 跨 总 线 的 高 速 缓存 一 一 高 速 缓存 传送 或 者 通过 在 BusRd 事务 中 给 
出 一 个 出 错 信号 ， 产 生 一 个 写 过 程 来 更 新 存储 器 。 在 后 者 的 情形 ， 发 起 的 高 速 缓存 将 最 终 重 
新 产生 它 的 请 求 ， 从 存储 器 中 得 到 这 一 块 。( 也 可 能 让 总 线 上 的 数据 只 被 发 请 求 的 高 速 缓存 ， 
而 不 被 存储 器 接收 ， 使 存储 器 内 容 仍然 是 陈旧 的 ， 但 这 要 求 有 更 多 的 状态 [Sweazey and 
Smith 1986] 。) 

对 一 个 无 效 的 块 做 写 操作 导致 一 个 写 扑 空 ， 处 理 的 过 程 首 先是 将 整个 块 装 人 ， 然 后 修改 
它 其 中 的 有 关 字 节 。 这 个 写 扑 空 产 生 一 个 排他 总 线 读 事务 ， 引 起 所 有 其 他 高 速 缓存 拷贝 被 作 
废 ， 从 而 保证 发 请 求 的 高 速 缓存 对 于 该 存储 块 具有 单独 拥有 权 。 由 这 个 排他 读 所 返回 的 数据 
块 被 提升 到 已 修改 状态 ， 其 中 相关 的 字 节 然后 得 到 更 新 。 如 果 另 一 个 高 速 缓存 后 来 请 求 排他 
的 访问 ， 那 么 作为 对 它 的 BusRdX 事务 的 响应 ， 在 将 它 的 排他 拷贝 放 到 总 线 上 后 ， 这 个 块 就 
要 被 作废 (降级 到 无 效 状态 )。 

最 有 意思 的 状态 转换 发 生 在 对 一 个 共享 块 进行 写 操作 的 时 候 。 如 先前 所 讨论 的 ， 这 基本 
上 可 以 当 作 写 扑 空 来 处 理 ， 用 一 个 排他 读 总 线 事务 来 获得 排他 的 所 有 权 ; 在 本 书 中 我 们 称 它 
为 写 扑 空 。 由 于 数据 已 经 在 缓存 中 了 ， 在 排他 读 里 返回 的 数据 在 这 种 情况 下 可 以 忽略 ， 这 一 
点 不 像 对 无 效 或 者 不 存在 块 进行 写 操作 的 情形 。 事 实 上 ， 在 总 线 协 议 中 一 种 常见 的 减少 数据 
流量 的 优化 是 引入 一 种 新 的 事务 ， 称 为 总 线 升级 或 者 BusUpgr。 一 个 BusUpgr 得 到 排他 的 所 
有 权 ， 就 像 BusRdX 那样 让 其 他 拷贝 作废 ， 但 它 不 引起 主 存 或 者 其 他 设备 进行 数据 响应 。 不 
管 是 BusUpgr 还 是 BusRdX (让 我 们 还 是 假设 BusRdX) ， 在 发 请 求 的 高 速 缓存 中 的 块 都 转换 到 
已 修改 状态 。 在 这 个 已 修改 状态 下 ， 对 于 那个 块 的 其 他 的 写 操作 都 不 产生 额外 的 总 线 事 务 。 

从 高 速 缓存 里 替换 一 个 存储 块 ， 逻 辑 上 就 是 使 那个 块 降级 为 无 效 的 〈 不 存在 的 ) 。 一 次 
蔡 换 因此 就 引起 两 个 块 的 状态 机 在 高 速 缓存 中 改变 状态 : 被 替换 的 块 从 它 的 当前 状态 到 无 
效 ， 新 带 入 的 块 从 无 效 (不 存在 ) 到 它 的 新 状态 。 后 者 状态 的 改变 不 能 在 前 者 之 前 发 生 ， 这 
要 求 在 实现 中 采取 一 些 措施 。 如 果 被 替换 的 块 处 于 已 修改 状态 ， 这 个 从 M 到 1 的 蔡 换 转移 产 
生 一 个 回 写 事务 。 其 他 的 高 速 缓存 在 这 个 过 程 上 不 采取 什么 特殊 行动 。 如 果 这 个 被 替换 的 块 
处 于 共享 或 者 无 效 状态 ， 那 么 它 就 不 会 引起 任何 总 线 事务 。 为 简单 起 见 ， 替 换 在 状态 图 中 没 
有 表示 出 来 。 

注意 ， 为 了 能 完整 地 说 明 这 个 协议 ， 对 于 每 一 个 状态 我 们 必须 有 外 向 的 弧 ， 带 有 对 应 于 
所 有 可 观察 事件 的 标记 (从 处 理 器 和 总 线 一 边 的 输入 )， 还 必须 表示 相对 于 它们 的 动作 。 当 
RK, 这 些 动 作 和 状态 转移 有 时 候 可 能 是 空 的 ， 在 那 种 情况 下 ， 可 以 要 么 显 式 说 明 空 动作 ( 见 
图 5-13 中 的 状态 S 和 M, 或 者 可 以 简单 地 从 图 中 上 略 去 这 些 统 ( 见 状态 1)。 进 而 ， 由 于 我 们 
将 不 存在 状态 当 作 无 效 处 理 ， 当 扑 空 时 一 个 新 存储 块 被 带 进 高 速 缓 存 的 时 候 ， 状 态 转移 的 处 
理 就 好 像 该 高 速 缓存 块 的 先前 状态 是 无 效 的 一 样 。 例 5.6 说 明 状 态 转换 图 的 解释 方式 。 

例 5.6 利用 MSI 协 议 ， 说 明 图 5-3 所 示 情 形 的 状态 转移 和 总 线 事务 。 

解答 : 结果 如 图 5-14 iia. W 

对 于 回 写 协议 来 说 ， 在 存储 器 被 实际 更 新 以 前 ， 一 个 块 能 被 多 次 写 。 一 个 读 操作 所 得 的 
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处 理 器 动作 EP 状态 在 P, 状态 在 P, 状态 总 线 动作 提供 数据 的 实体 
1. Py reads u S 一 一 BusRd Memory 
2. P} reads u S 一 S BusRd Memory 
3. Py writes u I ~ M BusRdx Memory 
4. P) reads u S 一 S BusRQ P3 cache 
5. Py reads u S S S BusRd Memory 


图 5-14 和 图 5-3 中 的 处 理 器 事务 对 应 的 三 态 作废 协议 执行 情况 。 此 图 表现 了 在 每 次 
处 理 器 动作 结束 时 相关 存储 块 的 状态 ， 所 产生 的 总 线 事务 以 及 提供 数据 的 实体 


数据 可 能 不 是 来 自 存储 器 ， 而 是 来 自 一 个 高 速 缓存 。 事 实 上 ， 可 能 是 这 个 读 而 不 是 一 个 替换 
引起 存储 器 被 更 新 。 除 此 以 外 ， 写 命中 不 出 现在 总 线 上 ， 因 此 相对 于 其 他 处 理 器 来 说 ， 写 的 
概念 有 些 不 同 。 事 实 上 ， 说 正在 进行 一 个 写 操作 ， 意 味 着 这 个 写 被 “ 弄 得 可 见 ”。 对 一 个 共 
享 的 或 者 无 效 块 的 写 的 可 见 是 通过 它 所 触发 的 总 线 排他 读 事 务 。 写 者 在 这 个 事务 后 将 “观察 
到 ”在 它 缓存 里 的 数据 。 这 个 写 为 其 他 处 理 器 可 见 ， 是 通过 排他 读 所 产生 的 作废 ， 那 些 处 理 
器 在 实际 看 到 所 写 的 值 之 前 将 经 历 一 次 缓存 扑 空 。 对 一 个 已 修改 块 的 写 命中 对 其 他 处 理 器 是 
可 见 的 ,但 同样 只 是 在 通过 总 线 事务 的 一 次 扑 空 之 后 才能 观察 到 。 这 样 ， 在 MSI 协议 中 ， 当 
BusRdX 事务 发 生 时 ， 对 一 个 末 修 改 块 的 写 就 被 完成 或 者 是 可 见 了 ; 对 一 个 已 修改 块 来 说 ， 
当 这 个 块 在 写 者 的 高 速 缓存 中 被 更 新 时 ， 写 的 效果 就 可 见 了 。 

2. 对 一 致 性 的 保证 

在 回 写 协议 中 ， 由 于 读 和 写 的 发 生 都 可 以 不 产生 总 线 事务 ， 它 是 否 能 满足 一 致 性 条 件 并 
不 是 显而易见 的 ， 尽 管 一 致 性 要 比 顺序 同一 性 要 求 弱 得 多 。 让 我 们 首先 考察 一 致 性 。 从 前 面 
的 讨论 来 看 ， 写 操作 效果 的 传播 是 没有 问题 的 ， 因 此 让 我 们 集中 考虑 写 的 串 行 化 问题 。 排 他 
读 事 务 保证 了 当 一 个 块 实际 写 人 缓存 的 时 候 ， 该 缓存 有 着 惟一 的 拷贝 ， 就 像 在 直 写 协议 中 的 
一 个 号 事务 。 紧 跟着 的 ， 是 在 缓存 中 的 一 个 写 ， 发 生 在 缓存 控制 器 处 理 任何 其 他 总 线 事务 之 
前 ， 因 此 它 的 序 对 所 有 处 理 器 来 说 〈 包 括 写 者 ) ， 相 对 于 其 他 总 线 过 程 都 是 相同 的 。 和 直 写 
协议 的 惟一 区 别 是 ， 针 对 一 个 存储 单元 的 操作 序列 ， 不 是 所 有 写 都 会 产生 总 线 事 务 。 然 而 ， 
这 里 的 关键 点 是 ， 如 果 对 某 个 块 的 两 次 操作 的 确 出 现在 总 线 上 了 ， 那 么 只 有 一 个 处 理 器 能 完 
成 这 样 的 写 命中 ; 即 那 个 最 近 完成 对 那个 块 排他 读 总 线 事务 w 的 处 理 器 P。 在 串 行 化 中 ， 这 
个 写 命中 的 顺序 因此 出 现在 (以 程序 执行 序 ) w 和 下 一 次 对 于 该 块 的 总 线 事务 之 间 。 处 理 器 
P 的 读 操 作 将 清楚 地 看 见 它 们 (相对 于 其 他 的 写 ) 以 这 种 序 出 现 。 至 于 另 一 个 处 理 器 的 一 个 
读 操 作 ， 对 那个 块 至 少 有 一 个 总 线 事务 ， 将 读 的 完成 和 这 些 写 命中 的 完成 分 开 。 这 样 一 个 总 
线 事务 保证 了 那个 读 也 以 同样 的 顺序 看 到 这 些 写 。 这 样 ， 所 有 处 理 器 的 读 看 到 所 有 写 的 顺序 
是 相同 的 。 

3. 对 顺序 同一 性 的 保证 

为 了 分 析 SC 是 如 何 得 到 满足 的 ， 让 我 们 首先 看 看 定义 本 身 ， 看 看 所 有 存储 操作 的 一 种 
全 局 的 交叉 执行 怎么 能 够 构造 出 来 。 如 同 直 写 缓存 ， 关 于 总 线 的 串 行 仲裁 结果 事实 上 定义 了 
一 个 针对 所 有 存储 块 的 总 线 事务 的 全 序 ， 不 只 是 关于 某 个 块 的 操作 序 。 所 有 的 缓存 控制 器 观 
察 到 的 读 和 排他 读 总 线 事务 的 序 都 是 相同 的 ， 并 且 以 这 个 序 完成 作废 。 在 相继 的 总 线 事务 之 
间 ， 每 个 处 理 嚣 以 程序 中 的 次 序 完成 一 系列 存储 操作 ( 读 和 写 命 中 )。 这 样 ， 一 个 程序 的 任 
何 执 行 定义 了 一 个 自然 的 偏 序 : 
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存储 操作 M, 是 操作 M, 的 后 继 ， 如 果 1) 这 些 操作 由 相同 的 处 理 器 发 出 并 且 M, 
在 程序 中 出 现在 M, 之 后 ， 或 者 2) M, 产生 一 个 跟 在 M, 存储 操作 后 面 的 总 线 事务 。 


这 个 偏 序 从 图 形 上 看 来 类 似 于 图 5-6， 不 同 之 处 在 于 在 一 个 段 中 的 本 地 序列 除了 有 读 外 
WAG, 并 且 排 他 读 和 读 总 线 事务 在 建立 这 个 序 中 都 起 了 重要 作用 。 在 总 线 事务 之 间 ， 任 何 
来 自 于 不 同 处 理 器 的 局 部 操作 (命中 ) 序列 的 交叉 导致 一 个 统一 的 全 序 。 对 于 出 现在 总 线 事 
务 之 间 同 一 段 中 的 写 ， 一 个 处 理 器 将 观察 到 其 他 处 理 器 的 写 操作 ， 其 次 序 依 从 它 所 产生 的 总 
线 事务 ， 而 它 自 己 的 写 的 序 是 程序 中 的 序 。 

我 们 还 可 以 从 充分 条 件 的 角度 看 到 SC 是 如 何 被 满足 的 。 写 完成 的 检测 是 当 排 他 读 总 线 
事务 出 现在 总 线 上 且 这 个 写 在 缓存 中 进行 时 做 出 的 。 读 完成 的 条 件 ， 提 供 了 写 操作 的 原子 
性 ， 它 被 满足 是 因为 一 个 读 要 人 么 1) 引起 一 个 总 线 事 务 ， 跟 在 其 值 正在 被 返回 的 读 的 后 面 ， 
在 这 种 情况 下 ， 这 个 写 必须 在 这 个 读 之 前 全 局 完成 ，2) 由 同一 个 处 理 器 以 程序 执行 序 跟着 
这 个 读 ; 或 者 3) 随 着 在 完成 写 操作 的 同一 个 处 理 器 上 以 程序 执行 序 发 生 ， 在 这 种 情况 下 ， 
该 处 理 器 已 经 等 着 该 写 操作 的 全 局 完成 (在 可 见 之 前 )。 这 样 ， 所 有 的 充分 条 件 都 很 容易 得 
到 了 保证 。 在 第 6 章 讨 论 协议 的 实现 时 我 们 还 要 回 到 这 个 问题 上 来 。 

4. 低层 设计 的 选择 要 素 

为 了 了 解 在 协议 中 某 些 隐 含 的 设计 决策 ， 让 我 们 更 仔细 地 考察 当 针 对 一 个 存储 块 的 
BusRd 被 观察 到 时 从 M 状态 发 生 的 转移 。 在 图 5-13 中 ， 我 们 转移 到 状态 S 并 且 将 存储 块 的 
内 容 放 到 总 线 上 。 尽 管 将 内 容 放 到 总 线 上 是 必须 的 ， 我 们 仍 可 以 考虑 转移 到 状态 I， 这 样 完 
全 放弃 这 个 块 。 转 移 到 S 而 不 是 1 的 选择 反映 了 设计 者 认识 : 和 另外 的 处 理 器 对 该 存储 块 做 
写 操作 相 比 ， 最 初 的 这 个 处 理 器 更 可 能 继续 读 这 个 块 。 直觉 上 看 ， 这 个 认识 对 于 大 多 数 读数 
据 是 成 立 的 ， 而 且 这 正 是 许多 程序 中 常见 的 。 然 而 ， 一 种 不 成 立 的 常见 情形 是 对 于 在 进程 之 
间 来 回 传 送信 息 的 一 个 标记 或 者 缓冲 区 : 一 个 处 理 器 写 人 ， 男 一 个 处 理 器 读 出 且 修 改 ， 然 后 
第 一 个 处 理 器 读 并 修改 ， 如 此 等 等 。 对 一 个 共享 计数 项 的 累加 表现 了 类 似 的 跨 处 理 器 的 迁移 
行为 。 这 种 将 赌注 压 在 读 共 享 的 问题 是 每 一 个 写 都 要 首先 产生 一 个 作废， 因此 增加 了 它 的 时 
延 。 的 确 ， 用 在 早期 Synapse 多 处 理 器 中 的 一 致 性 协议 采取 的 是 不 同 的 选择 ， 在 BusRd 上 从 
M 直接 转移 到 了 状态 ， 这 种 做 法 的 基本 出 发 点 是 认为 上 述 那 种 迁移 模式 会 经 常 发 生 。 某 些 机 
a (Sequent Symmetry model B 和 MIT Alewife) 试图 在 这 种 迁移 型 访问 模式 被 观察 到 时 对 这 种 
协议 做 些 适应 性 改造 (Cox, Fowler 1993; Dahlgren, Dubois, and Stenstrom 1994) 。 在 本 章 的 后 
面 将 会 看 到 ， 这 些 选 择 可 能 影响 存储 系统 的 性 能 。 


5.3.2 一 种 四 态 (MES) 回 写作 废 式 协 议 


如 果 我 们 考虑 一 个 串 行程 序 运行 在 多 处 理 器 上 的 情形 ， 我 们 就 可 能 产生 对 MSI 协议 的 一 
种 顾虑 。 事 实 上 ， 这 种 多 道 程序 的 用 法 是 在 小 规模 多 处 理 器 系统 上 最 常见 的 工作 负载 情况 。 
当 进 程 读 进 并 且 修改 一 个 数据 项 ， 尽 管 并 没有 其 他 处 理 器 来 共享 这 个 数据 ， 但 在 MST 协议 中 
还 是 要 产生 两 个 总 线 事务 。 第 一 个 是 BusRd， 将 存储 块 置 成 $ 状态 ,第 二 个 是 一 个 BusRdx 
(或 者 BusUpgr)， 将 S 转 换 成 M 状态 。 通 过 增加 一 个 状态 ， 指 出 这 个 块 是 惟一 的 (排他 的 ) 
拷贝 ， 但 没 被 修改 ， 并 且 装 入 这 个 块 时 使 它 处 于 这 个 状态 ， 我 们 能 够 省 去 后 面 一 次 总 线 事 
务 ， 因 为 这 个 状态 指出 没有 其 他 处 理 器 的 缓存 也 含有 这 一 块 。 这 个 新 的 状态 ， 称 为 干 活 的 独 
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占 或 者 非 拥有 的 独占 (其 至 就 简单 称 “ 独 占 ”)， 指 出 一 种 在 共享 和 已 修改 之 间 的 情况 。 它 是 
独占 的 ， 因 此 不 同 于 共享 状态 ， 缓 存 能 够 执行 写 操作 并 且 转 移 到 已 修改 状态 ， 而 不 需要 进 一 
步 的 总 线 事务 ; 但 它 又 不 隐 含 拥有 权 (存储 器 里 也 有 一 个 有 效 拷贝 )， 因 此 不 同 于 已 修改 状 
态 ， 缓 存在 观察 到 关于 那个 块 的 请 求 时 不 需要 答复 。 这 种 MES 协议 的 各 种 变形 用 于 许多 现 
代 微 处 理 器 中 ， 包 括 Intel Pentium, PowerPC 601 以 及 用 于 SGI Challenge 多 处 理 器 的 MIPS 
R4400。 这 个 协议 首先 是 由 UIUC 的 研究 人 员 发 表 的 (Papamacros and Patel 1984) ， 因 而 常 称 为 
Illinois 协议 (Archibald and Baer 1986)。 

MESI 协议 于 是 由 四 个 状态 构成 : 已 修改 (M) 或 者 脏 的 、 干净 的 独占 (E)、 共 享 (9) 
和 无 效 (站 。M 和 工 的 语义 和 先前 的 一 样 。E, 干净 的 独占 或 者 独占 状态 ， 意 味 着 只 有 一 个 
缓存 有 此 块 的 一 个 拷贝 ， 并且 是 没 被 修改 的 ( 即 主 存 相应 内 容 是 最 新 的 )。S 意味 着 在 它们 
的 缓存 中 潜在 有 两 个 或 者 多 个 处 理 器 有 这 个 存储 块 ， 处 于 未 被 修改 的 状态 。 所 需 的 总 线 事务 
和 动作 非常 类 似 于 MSI 协议 的 情形 。 

1. 状态 转换 

当 一 个 存储 块 首次 被 某 个 处 理 器 读 进来 时 ， 如 果 一 个 有 效 的 拷贝 存在 于 另 一 个 缓存 中 ， 
和 通常 一 样 ， 它 就 要 以 S 状态 进入 这 个 处 理 器 的 缓存 。 不 过 ， 如 果 这 时 没有 其 他 的 缓存 有 找 
贝 〈 例 如 ， 在 顺序 应 用 程序 执行 的 情形 ) ， 它 就 要 以 下 状态 进入 缓存 。 当 这 一 块 被 同一 个 处 
理 需 写 的 时 候 ， 由 于 没有 其 他 的 缓存 有 拷贝 ， 它 就 可 以 直接 从 刁 状态 进入 M 状态 ， 而 不 产 
生 总 线 事务 。 如 果 另 一 个 缓存 在 同时 获得 了 一 个 拷贝 ， 这 一 块 的 状态 就 要 被 侦 听 协议 从 下 
降级 到 S。 

这 个 协议 对 于 总 线 的 物理 互 连 加 进 了 一 个 新 的 要 求 。 一 个 附加 的 共享 信号 (9) 要 被 组 
存 控 制 器 用 来 在 BusRd 上 确定 是 否 有 其 他 缓存 当前 持 有 数据 。 在 总 线 事 务 的 地 址 阶段 ， 所 有 
缓存 确定 它们 是 否 含有 所 要 求 的 存储 块 ， 若 如 此 ， 就 给 出 这 个 共享 信 导 。 这 个 信和 号 是 一 个 线 
或 连接 ， 因 此 提出 请 求 的 控制 器 能 够 观察 到 是 不 是 有 其 他 处 理 器 缓存 含有 所 请 求 的 存储 块 ， 
从 而 能 够 决定 是 将 装 入 的 存储 块 置 成 下 还 是 S$ 状态 。 

图 5-15 表示 了 MESI 协议 的 一 个 状态 转换 图 ， 我 们 还 是 假设 不 用 BusUpe 事务 。 记 号 
BusRd (S) 表示 由 共享 信号 $ 引起 的 总 线 读 事务 ; BusRd (S) 意味 着 $ 没有 作用 。BusRd 则 
意味 着 我 们 不 关心 在 那个 过 程 中 的 值 。 无 论处 于 什么 状态 ， 对 于 一 个 块 的 写 将 它 提升 到 M 
RE, 但 如 果 它 是 下 状态 的 话 ， 就 不 会 有 总 线 事 务 。 观 察 到 一 个 BusRd， 处 理 器 会 将 相关 存 
储 块 的 状态 从 下 降级 到 S， 因 为 现在 有 另 一 个 拷贝 存在 了 。 和 通常 一 样 ， 观 察 到 BusRd 将 从 
M 到 S 状态， 还 要 将 存储 块 的 内 容 送 到 总 线 上 ; 同样 ， 这 个 块 只 可 能 被 请 求 缓存 拾取 ， 而 不 
是 被 主 存 ， 但 这 可 能 要 求 超出 MESI 以 外 附加 的 状态 。 (第 五 个 称 为 被 拥有 的 状态 可 以 被 加 
进来 ， 它 指出 即使 存在 其 他 共享 的 拷贝 ， 这 个 缓存 (而 不 是 主 存 ) 要 在 观察 到 相关 的 总 线 事 
务 时 负责 提供 数据 。 这 就 导致 一 种 5 状态 MOESI 协议 [ Sweazey and Smith 1986])。 注 意 ， 即 
使 没有 其 他 拷贝 存在 ， 一 个 块 也 可 能 处 于 $ 状态 ， 这 是 由 于 拷贝 可 能 被 蔡 换 (S->1) MRE 
要 通知 其 他 拷贝 。 满 足 一 致 性 和 顺序 同一 性 的 论点 和 在 MSI 协议 中 的 相同 。 

2. 低层 设计 的 选择 要 素 

关于 基于 总 线 的 协议 的 一 个 有 趣 的 问题 是 ， 当 发 生 一 个 BusRd 事务 时 ， 如 果 存 储 器 和 另 
一 个 缓存 都 有 拷贝 ， 谁 应 该 提供 数据 块 。 在 MESI 协 议 的 原始 〈lllineis) 版 本 中 ， 提 供 数据 
的 是 缓存 ， 这 称 为 是 一 种 缓存 到 缓存 共享 的 技术 。 采 用 这 种 做 法 的 出 发 点 是 ;缓存 是 SRAM, 
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PrWr/BusRdX 


1 
~ BusRdX/Flush’ | 
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i i 


PrRd _ 
BusRd (S) 


图 5-15 Ilinois MESI 协议 的 状态 转换 图 。MESI 是 已 修改 (M) 或 脏 的 、 独 占 (E) SER (S) MEX 
D 状态 的 英文 缩写 。 这 里 用 的 记号 和 图 5-13 相同 。 玉 状态 有 助 于 在 串 行程 序数 据 不 共享 时 
降低 总 线 上 的 流量 。 只 要 可 能 ，llinois 版 本 的 MES 协议 都 让 高 速 绥 存 ， 而 不 是 存储 器 为 
BusRd 和 BusRdX 事务 提供 数据 。 由 于 多 个 处 理 器 可 能 在 它们 的 缓存 中 有 相同 的 存储 块 ， 我 
们 需要 选 出 一 个 来 向 总 线 提 供 数据 。 图 中 Flush' 只 是 针对 相关 的 那个 处 理 器 而 言 的， 其 他 处 
理 器 做 它们 常规 的 动作 作废 或 没 动作 )。 一 般 来 说 ， 状 态 转换 图 中 的 Flush' 指 出 相关 的 存储 
块 被 清除 ， 其 条 件 是 用 到 了 缓存 到 缓存 的 共享 ， 并 且 清 除 是 由 负责 提供 数据 的 缓存 来 实行 的 


存储 器 是 DRAM， 前 者 能 更 快 地 提供 数据 。 然 而 ， 这 个 优势 在 现代 基于 总 线 的 机 器 中 不 一 定 
存在 ， 让 另 一 个 缓存 来 提供 数据 可 能 比 直接 从 存储 器 提供 的 代价 要 更 高 。 缓 存 到 缓存 共享 也 
增加 了 基于 总 线 协议 的 复杂 性 : 主 存 必 须 等 待 ， 直 到 它 能 肯定 没有 缓存 将 提供 数据 后 才能 驱 
动 总 线 ， 并且 如 果 多 个 缓存 都 有 这 个 数据 ， 那 么 就 要 有 一 个 选择 算法 来 确定 哪 一 个 应 该 提供 
数据 。 另 一 方面 ， 这 个 技术 对 于 物理 上 分 布 存储 的 多 处 理 器 系统 是 有 用 的 〈 如 我 们 在 第 8 章 
会 看 到 的 ) ， 因 为 从 近 处 的 缓存 获取 数据 要 比 从 远 处 的 存储 器 快 得 多 。 特别 是 ， 在 由 SMP 节 
点 构成 的 网 络 型 机 器 中 ， 数 据 请 求 者 的 SMP 节点 中 的 缓存 可 能 提供 数据 ， 这 种 缓存 到 缓存 
共享 的 方式 可 能 就 特别 重要 了 。 基 于 这 种 考虑 ， 斯 坦 福 DASH 多 处 理 器 (Lenoski et al. 1993) 
用 的 就 是 这 种 缓存 到 缓存 的 传送 机 制 。 


5.3.3 一 种 四 态 (Dragon) 回 写 更 新 式 协议 
现在 让 我 们 考察 一 种 回 写 缓存 上 基于 更 新 的 协议 。 这 个 协议 最 初 是 由 Xerox PARC 的 研 
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究 人 员 提 出 来 的 ， 背 景 是 他 们 的 Dragon 多 处 理 器 系统 (MeCreight 1984; Thacker, Stewart, and 
Satterthwaite 1988) 。 该 协议 的 一 个 增强 版 本 用 在 Sun SparcServer 多 处 理 器 系统 中 (Catanzaro 
1997) 。 

Dragon 协议 由 四 个 状态 构成 : 干净 的 独占 (E) 干净 的 共享 (Se)、 共 享 已 修改 (Sm) 
和 已 修改 (M)。 干净 的 独占 (简称 独占 ) 的 意图 和 含义 与 前 面相 同 : 只 有 一 个 缓存 (这 个 
缓存 ) 有 这 一 存储 块 的 一 个 拷贝 ， 并 且 还 没有 被 修改 〈 即 ， 主 存 的 内 容 也 是 有 效 的 )。 干 净 
的 共享 意味 着 ， 潜 在 地 有 两 个 或 者 多 个 缓存 (包括 这 个 ) 有 这 一 存储 块 ， 主 存 可 能 有 但 不 一 
定 是 最 新 的 。 共 享 已 修改 意味 着 潜在 地 有 两 个 或 者 多 个 缓存 有 这 一 存储 块 ， 主 存 不 是 最 新 
的 ， 并且 当 这 个 块 要 被 从 缓存 中 替换 出 去 时 ， 这 个 缓存 有 责任 对 主 存 进行 更 新 ( 即 这 个 缓存 
是 拥有 者 )。 一 个 存储 块 在 一 个 时 间 只 能 在 一 个 缓存 里 是 Sm 状态。 不过， 一 个 存储 抉 在 一 
个 缓存 是 Sm 状态 ， 同 时 在 其 他 缓存 是 Sc 状态 的 情况 是 相当 可 能 的 . 或 者 没有 缓存 是 Sm 状 
E, 但 有 一 些 是 Se 状态 。 这 就 是 为 什么 当 在 一 个 缓存 里 发 现 某 个 存储 块 是 Sc 状态 时 ， 不 能 
断定 存储 器 里 的 内 容 是 否 是 最 新 的 道理 ; 还 取决 于 这 个 存储 块 是 否 在 其 他 缓存 里 处 于 Sm 状 
态 。 和 先前 一 样 ，M 表示 独占 的 拥有 权 : 这 个 存储 块 已 经 修改 了 (及 ) 并 且 只 是 出 现在 这 个 
缓存 里 ， 主 存 的 内 容 是 陈旧 的 ， 一 旦 发 生 替 换 ， 这 个 缓存 有 责任 提供 数据 来 更 新 存储 器 的 内 
容 。 注 意 ， 这 里 没有 在 前 面 的 协议 中 具有 的 显 式 的 无 效 (1) 状态 。 这 是 因为 Dragon 是 一 个 
基于 更 新 的 协议 ; 它 总 是 保持 缓存 中 块 的 内 容 是 最 新 的 ， 因 此 如 果 标 记 匹 配 成 功 ， 则 总 是 可 
以 用 缓存 中 的 数据 。 然 而 ， 如 果 一 个 存储 块根 本 就 不 在 缓存 中 ， 它 就 可 以 被 想像 为 一 种 特别 
的 无 效 或 者 不 存在 状态 。° 

处 理 器 请 求 ， 总 线 事务 以 及 Dragon 协议 的 动作 都 类 似 于 Ilinois MESI 协议 。 处 理 器 仍然 
假设 为 只 发 出 读 (PrRd) MF (PrWr) FPR. 不过， 由 于 没有 一 个 无 效 状态 ， 为 了 说 明 当 标 
记 匹配 不 成 功 时 的 动作 ， 加 上 两 种 请 求 类 型 : 处 理 器 读 扑 空 (PrRdMiss) 和 写 扑 空 
(PrWrMiss)。 至 于 总 线 事务 ， 有 总 线 读 (BusRd) 、 总 线 回 写 (BusWB) 和 一 个 新 的 称 为 总 线 
更 新 (BusUpd) 的 事务 。BusRd 和 BusWB 事务 有 着 通常 的 语义 。 BusUpd 事务 将 这 个 处 理 器 
写 的 特定 的 字 (或 者 字 节 ) 广播 到 总 线 上 ， 从 而 所 有 其 他 处 理 器 的 缓存 能 更 新 它们 自己 。 这 
里 广播 的 只 是 被 修改 的 内 容 ， 而 不 是 整个 存储 块 。 这 种 处 理 方式 是 指望 总 线 带 宽 能 得 到 更 高 
效 的 利用 (见习 题 5.4， 其 中 谈 到 这 一 种 愿望 不 一 定 总 是 奏效 的 )。 如 同 MESI 协议 ， 为 了 支 
持 工 状态 缓存 控制 器 需要 用 到 一 个 共享 信号 〈S)。 最 后 ， 协 议 提 出 的 惟一 新 要 求 是 ， 当 一 
个 相关 的 BusUpd 事务 将 数据 广播 到 总 线 上 时 ， 缓 存 控制 器 要 能 够 用 总 线 上 的 内 容 来 更 新 一 
个 本 地 缓存 的 存储 块 (标记 为 Update 动作 )。 

1. 状态 转换 

图 5-16 所 示 的 是 Dragon 更 新 协议 的 状态 转换 图 。 按 照 处 理 器 为 中 心 的 观点 ， 能 够 用 在 
一 个 缓存 发 生 读 扑 空 、 写 (命中 或 者 扑 空 ) 或 者 替换 所 采取 的 动作 〈 读 命中 没有 动作 ) KE 
释 这 个 图 。 

。 读 扑 空 。 产 生 一 个 BusRd 事务 。 取 决 于 共享 信号 (S) 的 状态 ， 读 到 的 这 个 存储 块 装 

人 缓存 后 ， 被 置 成 了 或 者 Se 状态 。 如 果 这 个 块 在 某 个 其 他 缓存 里 是 M 或 Sm 状态 ， 











镶 ” 逮 辑 上 讲 ， 还 有 另 一 个 状态 ， 但 它 只 是 用 来 自 启 这 个 协议 。-- 个 “ 扑 空 模式 ”位 用 在 每 条 缓存 线 上 ， 强 制导 至 
一 次 扑 空 。 初 始 化 软件 在 开始 将 数据 污 人 缓存 中 来 时 ， 这 一 “ 扑 空 模 式 ” 位 是 激活 的 ， 以 保证 第 -一 次 读 产生 扑 
空 。 在 这 第 一 次 扑 空 后 ,“ 扑 空 模式 ”位 关闭 ， 缓 存 正常 运行 。 


PSE AFAR SREB 219 














PrRd/— 
BusUpd/Update 


PrRdMiss/Busrd(S) PrRdMiss/BusRd(S} 


PrWr/BusUpd(5) 


PrWr/BusUpd(S) 









BusUpd/Update 


PrWrMiss/(BusRd(S); BusUpd) PrWrMiss/BusRd(5) 





PrRd/— 
PrWr/BusUpd(S) 
BusRd/Flush 






图 5-16 Dragon 更 新 协议 的 状态 转换 图 。 四 个 状态 是 独占 (FE)、 干净 的 共享 (Sc), 已 修改 共享 
(Sm)、 和 已 修改 (M)。 因 为 更 新 协议 总 是 保持 使 缓存 中 的 数据 为 最 新 ， 这 里 没有 无 效 状 态 (D) 


那么 缓存 就 要 给 出 这 个 共享 信号 并 且 将 最 新 的 数据 提供 到 总 线 上 ， 该 存储 块 以 Se 状 
态 装 人 本 地 缓存 。 如 果 它 在 其 他 缓存 里 是 M 状态 ， 它 就 要 改变 为 sm。 如 果 它 在 其 他 
缓存 是 Sc 状态 ， 则 存储 器 提供 数据 ， 它 以 Se 状态 装 人 。 如 果 所 有 其 他 缓存 都 没有 
相应 拷贝 ， 则 共享 信号 线 保持 为 无 效 的 ， 数 据 由 主 存 提 供 ， 这 个 块 以 下 状态 装 人 本 
地 缓存 。 

”号 。 如 果 这 个 块 在 本 地 缓存 中 的 状态 是 M， 那 么 不 需要 有 什么 动作 。 如 果 是 E， 那 
么 就 变 到 M 状态 ， 也 没有 什么 动作 。 然 而 ， 如 果 是 在 Se 或 者 sm 状态 ， 就 要 产生 一 
个 BusUpd 事务 。 如 果 其 他 某 个 缓存 有 一 个 拷贝 ， 它 们 就 要 置 共享 信和 号， 更 新 它们 拷 
贝 中 的 相关 字 节 ， 并且 如 果 必 要 的 话 要 将 状态 改 为 5c。 本 地 缓存 也 更 新 它 的 拷贝 ， 
如 果 必 要 的 话 要 将 状态 改 为 Sm。 主 存 不 被 更 新 。 如 果 没 有 其 他 缓存 有 该 数据 的 拷 
贝 ， 则 共享 信号 保持 无 效 ， 本 地 缓存 更 新 状态 变 为 M。 最 后 ， 如 果 在 写 操作 的 时 候 
这 个 存储 块 在 缓存 中 不 存在 ， 这 个 写 就 简单 地 处 理 为 一 次 读 扑 空 过 程 ， 跟 着 是 一 个 
写 过程 。 这 样 ， 就 产生 了 第 一 个 BusRd。 如 果 这 个 块 也 在 其 他 缓存 中 ， 就 要 产生 一 个 
BusUpd， 存 储 块 以 Sm 状态 装 和 人 本 地 缓存 ; 否则 ， 它 就 以 M 状态 装 入 。 

”替换 。 在 一 次 替换 时 (图 中 没有 显示 相应 的 弧 )， 只 是 当 相关 的 存储 块 处 于 M 或 者 
Sm 状态 上 ， 我 们 才 通 过 一 个 总 线 过 程 将 存储 块 写 回 存储 器 。 如 果 它 是 sc 状态 , 那 
么 或 者 某 个 其 他 缓存 有 它 在 Sm 状态 ， 或 者 谁 也 没有 。 在 这 种 情况 下 它 在 存储 器 中 就 
是 有 效 的 。 

针对 一 个 我 们 已 经 熟悉 情形 ， 例 5.7 解释 了 这 些 状态 转换 过 程 。 

例 5.7 用 Dragon 更 新 协议 ， 针 对 图 5-3 所 示 的 情形 ， 指 出 状态 转换 和 总 线 事务 。 
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解答 : 结果 如 图 5-17 所 示 。 我 们 可 以 看 到 在 更 新 协议 中 ,关于 处 理 右 的 动作 3 和 4 只 有 
一 个 字 被 送 到 总 线 上 ， 整 个 存储 块 在 基于 作废 的 协议 中 被 传送 两 次 。 当 然 ， 我 们 也 可 以 构造 
一 种 情况 ， 其 中 作废 协议 的 表现 要 好 于 更 新 协议 。 在 5.4 节 , 我 们 将 讨论 详细 的 权衡 。 国 


处 理 器 动作 在 P, 状态 在 P, 状态 在 Py 状态 总 线 动作 提供 数据 的 实体 
1. P) reads u E 一 一 BusRd Memory 
2. Py reads u Sc 一 Sc BusRd Memory 
3. Py writes u Se 一 Sm BusUpd P3 cache 
4. P) reads u Sc 一 Sm null 一 
5. Pz reads u Se Sc Sm BusRd Py cache 


图 5-17 Dragon 更 新 协议 对 于 图 5-3 中 处 理 器 的 操作 所 产生 的 动作 。 此 图 表明 在 每 次 
处 理 器 动作 结束 时 相关 存储 块 的 状态 所 产生 的 总 线 事务 以 及 提供 数据 的 实体 

2. 低层 设计 的 选择 要 素 

同样 ， 在 这 个 协议 中 也 有 许多 隐 仿 的 设计 抉择 。 例 如 ， 共 享 已 修改 状态 是 有 可 能 取消 
的 。 FEE, ME DEC Firefly 多 处 理 器 系统 中 的 更 新 协议 就 是 这 么 做 的 。 这 里 的 道理 是 每 当 
BusUpd 事务 发 生 时 ， 和 其 他 持 有 该 存储 块 的 缓存 一 道 ， 主 存 也 可 以 更 新 它 的 内 容 ; 因此， 
干净 的 共享 就 足够 了 ， 已 修改 共享 就 不 再 需要 。 而 Dragon 协议 是 基于 这 样 的 假设 ; 更 新 
SRAM 缓存 要 比 更 新 DRAM 主 存 快 得 多 ， 因 此 在 所 有 BusUpd 事务 上 等 待 主 存 的 更 新 就 不 合 
适 了 。 男 一 个 微妙 的 因素 和 缓存 替换 时 所 取 的 动作 有 关 。 当 一 个 干净 的 共享 存储 块 被 替换 
时 ， 应 该 通过 一 个 总 线 事 务 让 其 他 缓存 得 知 这 个 替换 吗 ? 这 样 做 的 理由 可 能 是 ， 如 果 只 有 一 
个 缓存 持 有 该 存储 块 的 一 个 拷贝 ， 它 就 可 以 将 其 状态 改 为 独 享 的 或 者 已 修改 的 。 这 样 做 的 好 
处 是 ， 这 个 由 替换 引起 的 总 线 事务 可 能 不 在 一 次 存储 器 操作 的 关键 路 径 上 ， 而 它 所 省 下 来 的 
后 来 的 总 线 事 务 可 能 就 在 关键 路 径 上 。 

由 于 在 更 新 协议 中 所 有 写 操作 都 会 出 现在 总 线 上 ， 对 于 一 条 原子 型 总 线 来 说 ， 写 串 行 
化 、 写 完成 的 检测 以 及 写 操作 的 原子 性 都 是 相当 明确 的 ， 水 像 在 直 写 缓存 的 情形 那样 。 然 
而 ， 对 于 含有 作废 和 更 新 两 种 功能 的 协议 , 我 们 必须 考虑 许多 精细 的 实现 问题 和 竞争 条 件 ， 
即便 是 原子 型 总 线 和 单 级 缓存 也 是 如 此 。 将 在 第 6 章 中 讨论 这 一 层次 的 协议 和 硬件 设计 以 及 
带 有 流水 线 总 线 、 多 级 缓存 层次 的 更 实际 的 情形 、 还 有 能 够 变 序 完成 存储 操作 的 硬件 技术 。 
尽管 如 此 ， 基 于 到 目前 为 止 所 考虑 的 状态 图 的 层次 ， 也 能 够 量化 许多 协议 的 权衡 考虑 。 


5.4 关于 协议 设计 中 若干 折 中 的 评估 


如 同 任何 其 他 复杂 系统 ， 一 个 多 处 理 系统 的 设计 要 做 出 许多 相互 关联 的 决定 。 即 使 处 理 
器 已 经 被 选 定 了 ， 也 必须 决定 系统 所 要 支持 的 最 大 处 理 器 的 个 数 、 缓 存 层次 结构 的 各 种 参数 
(例如 ， 层 次 数 ， 每 级 缓存 的 大 小 、 关 联 度 、 块 的 大 小 以 及 是 采用 直 写 还 是 回 写 策略 等 等 )、 
总 线 的 设计 (例如 ， 数 据 和 地 址 总 线 的 宽度 、 总 线 协议 )、 存 储 系统 的 设计 (例如 ， 是 否 采 
用 多 模块 交叉 存储 技术 、 存 储 模 块 的 宽度 、 内 部 缓存 的 大 小 )、 还 有 WO 子 系统 的 设计 。 这 
其 中 许多 因素 和 单 处 理 器 系统 所 要 考虑 的 类 似 〈Smith 1982) ， 但 矛盾 可 能 进一步 突出 了 。 例 
如 ， 直 写 缓存 对 于 多 处 理 器 来 说 可 能 是 个 不 好 的 选择 ， 因 为 总 线 带宽 是 由 多 个 处 理 器 共享 
的 ， 存 储 器 可 能 需要 在 更 大 程度 上 交叉 ， 因 为 它 要 服务 于 多 个 处 理 器 的 缓存 扑 空 。 较 大 的 组 
存 关联 度 在 减少 冲突 扑 空 《要 产生 总 线 传输 ) 方面 也 可 能 是 有 用 的 。 
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是 更 新 ) 、 协 议 状态 和 动作 以 及 低层 实现 的 权衡 。 协 议 的 决定 和 所 有 其 他 设计 因素 都 有 关系 。 
男 一 方面 ， 协 议 影响 系统 部 件 的 时 延 和 带宽 特征 被 强调 的 程度 ; 另外 ， 除 存储 组 织 和 通信 体 
系 结构 外 ， 性 能 特征 也 影响 协议 的 选择 。 如 第 4 章 所 讨论 的 ， 这 些 设计 的 决定 需要 针对 实际 
程序 的 行为 来 评估 。 这 样 的 评估 在 20 世纪 80 年 代 后 期 是 很 时 兴 的 ， 尽 管用 的 是 一 些 不 成 熟 
的 并 行程 序 作为 负载 (Archibald and Baer 1986; Agarwal and Gupta 1988; Eggers and Katz 1988, 
1989a, 1989b). 

在 真实 的 系统 设计 中 要 做 出 决定 ， 部 分 是 艺术 ， 部 分 是 科学 。 艺 术 源 于 过 去 的 经 验 、 直 
党 和 设计 者 的 审美 观 ， 科 学 是 基于 工作 负载 驱动 的 评估 。 设 计 目 标 通常 就 是 满足 代价 和 性 能 
指标 ， 达 到 一 个 平衡 的 系统 ， 从 而 没有 个 别 资源 成 为 性 能 瓶颈 ， 同 时 每 个 资源 只 有 很 小 的 富 
裕 能 力 。 这 一 节 通 过 第 4 章 介绍 的 负载 驱动 评估 方法 ， 讨 论 一些 关 键 的 协议 权衡 。 


5.4.1 方法 论 


我 们 的 基本 策略 如 下 。 如 同 第 4 章 所 描述 的 ， 让 工作 负载 在 一 个 多 处 理 器 体系 结构 的 模 
拟 器 上 执行 。 通 过 观察 在 模拟 器 中 遇 到 的 状态 转换 ， 能 够 确定 各 种 事件 的 频率 ， 诸 如 缓存 扑 
空 和 总 线 事务 。 然 后 可 以 从 其 他 设计 参数 ， 例 如 时 延 和 带宽 需求 的 角度 来 评估 协议 选择 的 效果 。 

按照 第 4 章 的 方法 选择 参数 ， 通 过 一 组 程序 在 四 状态 Minois MES 协议 上 的 执行 ， 本 节 
首先 建立 起 基本 的 状态 转换 特性 。 然 后 解释 如 何 用 这 些 测 得 的 结果 ， 针 对 上 述 协议 例子 来 获 
得 一 个 关于 设计 权衡 初步 的 量化 分 析 ， 诸 如 MES 协议 中 独占 状态 的 使 用 和 S->M 转换 中 
BusUpgr 事务 (而 不 是 BusRdX 事务 ) 的 使 用 。 本 节 还 解释 更 传统 的 设计 问题 ， 诸 如 缓存 块 的 
大 小 《既是 一 致 性 也 是 通信 的 粒度 ) 如 何 影 响应 用 对 于 时 延 和 带宽 需要 的 。 为 了 理解 这 个 效 
玉 ， 我 们 将 缓存 扑 空 分 为 几 种 情况 ， 诸 如 冷 启 动 扑 空 、 容 量 扑 空 和 共享 扑 空 ， 考 察 缓存 块 的 
大 小 对 于 不 同情 况 的 效果 ， 并 从 应 用 特征 的 角度 来 解释 结果 。 最 后 ， 也 是 从 时 延 和 带宽 影响 
的 角度 ， 通 过 这 种 对 应 用 的 理解 ， 来 解释 在 基于 作废 和 基于 更 新 协议 之 间 的 权衡 。 

本 六 的 分 析 是 基于 各 种 重要 事件 的 频率 ， 而 不 是 基于 它们 所 花 的 绝对 时 间 〈 即 性 能 )。 
这 种 做 法 在 缓存 体系 结构 的 研究 中 是 通行 的 ， 因 为 这 样 的 结果 不 依赖 于 具体 的 系统 实现 和 工 
芯 的 假设 。 然 而 ， 它 应 该 只 被 看 作 是 一 种 初步 的 分 析 ， 这 是 由 于 许多 可 能 在 真实 系统 中 影响 
性 能 权衡 的 细节 因素 被 抽象 掉 了 。 例 如 ， 记 录 状 态 转换 的 情况 为 计算 扑 空 率 和 总 线 事务 提供 
了 一 个 方式 ， 但 如 果 没 有 真实 的 时 延 、 开 销 和 占用 度 的 值 ， 我 们 就 不 能 将 这 些 量 转换 成 作用 
在 系统 上 实际 的 带宽 需求 。 为 了 得 到 带宽 需求 的 一 个 估计 ， 我 们 可 能 人 为 地 假设 每 一 次 引用 
都 花 同 样 多 的 周期 数 完成 。 然 而 ， 带 宽 需 求 本 身 并 不 直接 对 应 性 能 ， 只 是 通过 增加 竞争 扑 空 
的 代价 发 生 间 接 的 影响 。 竞 争 是 很 难 估计 的 ， 因 为 它 不 仅 取决 于 所 用 的 时 序 参 数 ， 还 取决 于 
流量 的 突 发 性 ， 而 这 些 在 频率 测量 中 是 不 可 能 捕获 的 。 竞 争 、 时 序 ， 以 及 性 能 也 受到 和 低层 
硬件 结构 (例如 队列 和 缓冲 ) 相互 作用 和 策略 的 影响 。 

用 在 本 他 的 模拟 不 涉及 竞争 。 它 们 只 用 一 个 简单 的 PRAM 代价 模型 ， 所 有 存储 操作 的 完 
成 时 间 都 假定 是 相同 的 〈 这 里 是 单 周 期 )， 无 论 它们 是 命中 还 是 不 命中 缓存 。 对 于 这 一 点 有 
三 个 主要 原因 。 首 先 ， 这 里 关注 的 主要 是 理解 协议 固有 的 行为 和 与 频率 有 关 的 权衡 ， 不 在 于 
性 能 。 第 二 ， 由 于 对 不 同 的 缓存 块 的 大 小 和 组 织 进行 实验 ， 不 管 具体 的 参数 选择 如 何 ， 希 望 
从 模拟 器 运行 应 用 程序 产生 的 引用 交织 是 相同 的 ， 也 就 是 说 ， 所 有 协议 和 块 的 大 小 应 该 看 到 
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相同 的 引用 轨迹 。 由 于 这 里 用 的 是 执行 驱动 ， 而 不 是 踪迹 驱动 ， 只 有 使 得 模拟 中 所 有 的 存储 
操作 有 同样 代价 ， 这 才 是 有 可 能 。 和 否则 ， 如 果 一 次 引用 对 于 一 个 小 缓存 扑 空 ， 但 对 于 一 个 大 
缓存 命中 的 话 ， 那 么 它 在 两 种 情形 下 表现 出 两 种 不 同 的 延迟 。 于 是 ， 要 确定 哪些 效果 是 协议 
加 有 的 ， 哪 些 是 由 于 所 选择 参数 所 导致 的 ， 就 不 是 件 容易 的 事情 。 第 三 ， 包 含 竞争 效果 的 真 
实 模拟 要 花 更 多 的 时 间 。 用 这 种 简单 模型 来 采集 频率 的 缺点 是 这 种 时 序 模型 可 能 影响 某 些 我 
们 观察 到 的 值 ; 不过， 这 个 影响 对 于 我 们 研究 的 应 用 来 说 不 大 。 

这 里 用 来 解释 问题 的 工作 负载 是 6 个 并 行程 序 (来 自 SPLASH-2) 和 在 第 3、4 章 描述 的 
一 个 多 道 程序 。 这 些 并 行程 序 以 批 处 理 模式 运行 ， 对 机 器 是 独占 的 方式 ， 并 且 在 模拟 中 不 包 
括 操作 系统 的 活动 。 所 用 的 应 用 程序 的 数量 相对 较 小 ， 但 这 些 应 用 主要 是 用 来 做 解释 用 的 ， 
如 第 4 章 所 描述 的 那样 ;这 里 所 强调 的 是 所 选择 的 程序 要 能 代表 重要 的 计算 类 型 ， 有 着 广泛 
变化 的 特性 。 这 些 应 用 中 基本 操作 的 频率 如 表 5-1 所 示 。 现 在 更 进一步 来 研究 它们 ， 以 评价 
在 缓存 一 致 性 协议 中 的 设计 权衡 。 





表 5-{ 由 应 用 程序 发 生 的 每 1 000 次 数据 存储 访问 所 导致 的 状态 转换 


























至 

应 用 NP i E S M 

NP 0 0 0.0011 0.0362 0.0035 

1 0.0201 0 0.0001 0.1856 0.0010 
Bames-Hut 从 E 0.0000 0.0000 0.0153 0.0002 0.0010 

S 0.0029 0.2130 0 97.1712 0.1253 

M 0.0013 0.0010 0 0.1277 902.782 

NP 0 0 0.0000 0.6593 0.0011 

I 0.0000 0 0 0.0002 0.0003 
LU 从 E 0.0000 0 0.4454 0.0004 0.2164 

S 0.0339 0.0001 0 302.702 0.0000 

M 0.0001 0.0007 0 0.2164 697 .129 

NP 0 0 1.2484 0.9565 1.6787 

I 0.6362 0 0 1.8676 0.0015 
Ocean 从 E 0.2040 0 14.0040 0.0240 0.9955 

S 0.4175 2.4994 0 134.716 2.2392 

M 2.6259 0.0015 0 2.2996 843.565 

NP 0 0 0.0068 0.2581 0.0354 

I 0.0262 0 0 0.5766 0.0324 
Radiosity 从 E 0 0.0003 0.0241 0.0001 0.00650 

S 0.0092 0.7264 0 162.569 0.2768 

M 0.0219 0.0305 0 0.3125 839.507 

NP 0 0 0.004746 3.524705 11.4111 

I 0.130988 0 0 1.108079 4.57868 
Radix 从 E 0.000759 0.002848 0.080301 0 0.00019 

S 0.029804 1.120988 0 178.1932 0.817818 

M 0.044232 11.53127 0 4.03157 802.282 

NP 0 0 1.3358 0.15486 0.0026 

I 0.0242 0 0.0000 0.3403 0.0000 
Rayrtace 从 E 0.8663 0 29.0187 0.3639 0.0175 

S E.1181 0.3740 0 310.949 0.2898 

M 0.0559 0.0001 0 0.2970 661.011 
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(8) 
至 
应 用 NP I E S M 
NP 0 0 0.1675 0.5253 0.1843 
Multiprog I 0.2619 0 0.0007 0.0072 0.0013 
User Data 从 E 0.0729 0.0008 11.6629 0.0221 0.0680 
References S 0.3062 0.2787 0 214.6523 0.2570 
M 0.2134 0.1196 0 0.3732 772.7819 
Multiprog NP 0 0 3.2709 15.7722 0 
User I 0 0 0 0 0 
, 从 E 1.3029 0 46 . 7898 1.8961 0 
Instruction S 16.9032 0 0 981.2618 0 
References M 0 0 0 0 0 
NP 0 0 1.0241 1.7209 4.0793 
Multiprog I 1.3950 0 0.0079 1.1495 0.1153 
Kernel Daa A E 0.5511 0.0063 55.7680 0.0999 0.3352 
References S 1.2740 2.0514 0 393.5066 1.7800 
M 3.1827 0.3551 0 2.0732 542.4318 
Multiprog NP 0 0 2.1799 26.5124 0 
Kemel I 0 0 0 0 
从 E 0.8829 0 5.2156 1.2223 0 
Instruction S 24.6963 0 0 1 075.2158 0 
References M 0 0 0 0 0 


注 : 除 Multiprog 用 8 个 处 理 器 外 ， 这 些 数 据 都 假设 16 个 处 理 器 、1 MB RK RRA, OEM RRR AR, 
Illinois MESI 一 致 性 协议 。 


5.4.2 在 MESI 协 议 下 的 带宽 需求 


如 第 4 章 所 述 ， 我 们 从 容量 为 1 MB、 每 个 处 理 器 只 有 一 级 缓存 的 情况 开始 。 对 于 问题 
的 缺 省 规模 来 说 ， 这 种 缓存 能 够 容纳 其 重要 的 工作 集 ， 对 于 所 有 应 用 这 是 现实 的 情形 。 我 们 
用 四 路 组 相 联 (LRU 替换 ) 以 减少 冲突 扑 空 并 取 高 速 缓存 块 的 大 小 为 64 字 节 ， 这 是 实用 的 。 
让 这 些 工 作 负载 通过 模拟 Ilinois MEST 协议 的 高 速 缓存 模拟 器 ， 我 们 得 到 如 表 5-1 所 示 的 状 
态 转 换 频率 。 其 中 数据 指 的 是 由 处 理 器 发 出 的 每 1000 次 访问 所 导致 的 状态 转换 数 。 注 意 ， 
在 这 个 表 中 ， 我 们 引入 了 一 个 新 的 状态 NP (未 现 态 )。 它 帮助 表现 当 缓存 扑 空 时 的 状态 转 
换 ， 即 一 个 缓存 块 被 替换 (创建 一 个 从 I、E、S、M 到 NP 的 转换 )， 一 个 新 的 块 被 带 进 来 
(创建 一 个 从 NP 到 1、E、S、M 的 转换 )。 尽 管 我 们 表现 的 是 每 1000 次 访问 的 情形 ， 但 状态 
转换 的 总 和 可 以 大 于 1000， 这 是 因为 有 些 访问 会 引起 多 个 状态 转换 。 例 如 ， 一 次 写 扑 空 ， 
除了 在 其 他 缓存 中 引起 的 作废 转换 (IE/S/M->I) 外 ， 还 可 以 在 本 地 缓存 引起 两 个 转换 ( 例 
如 ， 对 于 旧 缓 存 块 是 S>NP， 对 于 新 进来 的 缓存 块 是 NP>M)。 这 个 状态 转换 频率 数据 对 于 
回答 “如 果 …… 怎 样 ” 类 型 的 问题 是 很 有 用 的 。 例 5.8 告诉 我 们 如 何 来 确定 这 些 负载 带 给 存 

例 5.8 假设 整数 密集 型 应 用 以 每 处 理 器 200 MIPS 持续 运行 ， 浮 点 密集 应 用 为 200 
MELOPS。 假 设 缓存 块 的 传送 涉及 64 字 节 的 数据 (在 数据 总 线 ) 和 每 个 总 线 事务 涉及 6 字 节 
的 命令 和 地 址 〈 在 地 址 总 线 ) ， 问 每 个 处 理 器 产生 的 流量 是 多 少 ? 

解答 ; 第 一 步 是 计算 每 条 指令 的 流量 。 对 于 每 个 可 能 的 状态 转换 ， 我 们 确定 所 进行 的 总 
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线 动作 ， 从 而 得 知 和 每 一 事务 相关 联 的 流量 。 例 如 ，M->NP 转换 指示 的 是 ， 由 于 扑 空 一 个 
已 修改 的 高 速 缓存 块 要 被 回 写 。 类 似 地 ，S-~M 转换 表示 一 个 更 新 请 求 要 被 放 到 总 线 上 。 作 
为 对 一 种 总 线 事 务 (BIG, MoS R MIFA) 的 响应 ， 将 一 个 已 修改 的 缓存 块 刷新 也 导 
致 一 个 BusWB 事务 。 所 有 可 能 转换 的 总 线 事 务 如 表 5-2 所 示 。 除 BusUpgr 只 是 产生 地 址 流量 
外 ， 所 有 事务 都 产生 6 字 节 地 址 总 线 流 量 和 64 REO M 


R 5-2 Illinois MESI 协议 中 响应 状态 转移 的 总 线 活动 








至 
NP I E S M 
NP 一 一 BusRd BusRd BusRdX 
] 一 一 BusRd BusRd BusRdX 
从 E — 一 一 一 一 
S 一 一 Not possible 一 BusUper 
M BusWB BusWB Not possible BusWB 一 


我 们 现在 能 计算 所 产生 的 流量 。 用 表 5-2， 我 们 可 以 将 表 $-1 中 的 每 1000 次 存储 访问 的 
状态 转移 变换 到 每 1000 次 存储 访问 的 总 线 事 务 ， 并 通过 乘 以 每 个 事务 的 流量 ， 将 这 些 转换 
为 地 址 和 数据 流量 。 然 后 ， 用 表 4-1 中 存储 访问 的 频率 ， 我 们 可 以 将 它 转换 为 每 条 指令 的 流 
量 。 最 后 ， 乘 以 假设 的 处 理 速率 ， 我 们 就 得 到 关于 每 个 应 用 的 地 址 和 数据 的 带宽 需求 。 这 个 
计算 方法 对 于 每 个 应 用 的 结果 对 应 于 图 5-18 直方 图 中 每 一 组 的 最 左 项 。 

先前 例子 中 的 计算 给 出 了 平均 带宽 需求 ， 但 假设 了 总 线 带宽 足以 使 处 理 器 以 全 速 来 执行 
它们 的 任务 〈 实 际 上 ， 带 宽 局 限 可 能 使 处 理 器 和 事件 都 慢 下 来 ， 从 而 反 过 来 导致 单位 时 间 的 
流量 降低 )。 这 个 计算 ， 对 于 得 到 一 个 系统 在 不 饱和 的 前 提 下 所 能 支持 的 处 理 器 数 提供 了 一 
个 有 用 的 基础 。 例 如 ， 像 SGI Challenge 这 样 的 机 器 ， 有 1.2 GBps 数据 带宽 ， 对 于 我 们 的 那些 
应 用 来 说 (BR Radix 外 )， 总 线 提供 了 足以 支持 16 个 处 理 器 的 平均 带宽 。 一 种 典型 的 经 验 规 
则 是 留 出 50% 的 “ 余 量 ”"， 来 应 付 数据 传送 的 突 发 性 。 如 果 Ocean 和 Multiprog 工作 负载 被 排 
除 在 外 ， 这 个 总 线 则 可 能 支持 到 32 个 处 理 器 。 如 果 带 宽 不 足以 支持 某 个 应 用 ， 这 个 应 用 的 
执行 就 要 慢 下 来 。 这 样 ， 我 们 可 以 预料 到 Radix 加 速 比 的 曲线 随处 理 器 数 的 增加 会 很 快 扁平 
下 来 。 通 常 ， 一 个 多 处 理 器 系统 用 于 各 种 不 同 的 工作 负载 ， 其 中 许多 对 带宽 的 要 求 不 高 ， 因 
此 设计 者 要 选择 支持 一 种 处 理 器 规模 ， 能 在 要 求 最 高 的 应 用 上 使 总 线 处 于 充分 利用 的 状态 。 


5.4.3 协议 优化 的 影响 

给 定 这 种 基本 的 设计 要 点 ， 我 们 就 能 在 常用 机 器 参数 假设 下 来 评估 协议 的 权衡 了 。 下 面 
就 是 一 个 例子 。 

例 5.9 在 本 章 里 ,我 们 已 经 描述 了 两 种 作废 式 协议 一 一 基本 三 态 MSI 协议 和 Minois 
MESI 协议 。 关 键 的 区 别 在 于 MES 协议 包含 了 独占 状态 。 这 个 下 状态 对 带宽 的 节省 到 底 有 多 





O ”对 于 Multiprog 工作 负载 ， 为 了 提高 模拟 的 速度 ， 在 把 指令 传送 到 1 MB 的 统一 的 指令 和 数据 高 速 缓存 之 前 用 了 一 
个 32 KB 的 指令 高 速 缓存 ， 作 为 一 个 过 滤器 。 对 于 指令 访问 的 状态 转换 频率 的 计算 只 是 基于 在 L 指令 缓存 中 扑 
空 的 访问 。 这 种 过 滤 不 影响 我 们 计算 数据 流量 的 方式 ， 但 它 意味 着 指令 流量 的 计算 是 不 同 的 。 除 此 以 外 ， 对 
Multipg， 我 们 分 别 给 出 内 核 指 令 、 内 核 数据 访问 、 用 户 指令 和 用 户 数据 访问 。 一 次 访问 可 能 产生 多 种 用 户 数据 
和 内 核 数 据 类 型 的 状态 转移 。 例 如 ， 如 果 一 条 内 核 指令 扑 空 引起 一 个 已 修改 的 用 户 数据 块 的 回 写 ， 那 么 我 们 将 
有 针对 内 核 指 令 的 转移 NES 以 及 针对 用 户 数据 访问 的 转移 M->NP。 
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， 且 每 处 理 器 有 1 MB 高 速 缓存 ， 这 里 表 
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图 5-18 假定 处 理 器 计算 性 能 为 200 MIPS/MFLOPS 
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解答 : ERAN EERE SM EM 转换 时 没有 流量 产生 。 而 一 个 三 态 协议 会 产生 一 
个 BusUpgr 事务 ， 以 获得 对 于 存储 块 的 独占 拥有 权 。 计 算 带 宽 的 节省 ， 我 们 只 要 在 表 5-2 中 
对 于 E>M 转换 放 一 个 BusUpgr， 然 后 和 以 前 一 样 重新 计算 流量 ， 图 5-18 各 组 的 中 项 就 是 所 
PAM Riek. W 

例 5.9 说 明了 对 于 一 个 比较 复杂 的 设计 ， 直 党 的 推理 可 能 经 不 起 工作 负载 的 量化 测试 。 
这 对 于 Multiprog 也 是 对 的 ， 尽 管 它 基本 上 是 由 顺序 程序 构成 ， 看 起 来 应 该 是 受益 最 大 的 。 
这 种 收益 微不足道 的 主要 原因 是 表 5-1 P EM 转换 的 份额 相当 小 〈 即 由 于 读 扑 空 以 独占 状 
态 装载 的 存储 块 并 不 经 常 在 同一 状态 被 写 )。 另 外 ， 在 三 态 协议 中 对 于 Ss>M 转换 所 需要 的 
BusUpgr 事务 ， 只 是 用 到 6 个 字 节 的 地 址 流量 ， 而 没有 数据 流量 。 例 5.10 考察 了 BusUpgr 事 
务 的 优点 。 

例 5.10 ”回顾 即使 在 三 态 MI 协议 中 ， 一 个 对 于 共享 状态 存储 块 的 写 操作 在 总 线 上 会 产生 一 
个 BusUpgr 请 求 ， 而 不 是 BusRdX。 这 是 节省 带宽 的 ， 因 为 对 BusUpgr 没有 数据 传送 的 需要 。 但 如 
我 们 将 要 看 到 的 ， 它 使 实现 复杂 了 。 这 里 的 问题 是 ， 这 种 额外 的 复杂 性 能 使 我 们 节省 多 少 带宽 ? 

解答 : 要 计算 不 太 复杂 的 实现 和 一 个 三 态 协 议 的 带宽 ， 我 们 只 要 在 表 5-2 中 对 E>M 和 
SM 转换 放 上 BusRdX (EZA MSI 协议 ， 这 都 是 S-~M 转移 ) ， 然 后 重新 计算 带宽 数 。 结 
由 图 5-18 直方 图 各 组 最 右 项 所 示 。 尽 管 对 大 多 数 应 用 来 说 ， 带 宽 的 差别 是 不 大 的 ， 但 Ocean 
和 Multiprog 内 核 数 据 访问 表明 ， 这 个 差别 可 能 大 到 10% ~20%. W 

在 带宽 需求 方面 的 差别 对 性 能 的 影响 取决 于 总 线 事务 是 如 何 实现 的 。 然 而 ， 这 种 高 层 分 
析 指 出 了 在 何 处 需要 有 更 细致 的 评估 。 

最 后 ， 就 像 在 第 4 章 所 讨论 的 ， 对 于 所 用 的 输入 数据 集 的 大 小 ， 在 较 小 的 缓存 上 也 运行 
Ocean, Raytrace 和 Radix 应 用 是 重要 的 ， 因 为 那 可 以 模拟 重要 的 工作 集 在 缓存 层次 中 放 不 下 
的 情形 。 我 们 在 此 用 64KB 的 高 速 缓存 ， 对 于 这 些 问 题 的 规模 ， 除 了 最 大 的 工作 集 外 ， 它 能 
适应 所 有 其 他 的 工作 集 。 对 于 这 种 情形 粗略 的 状态 转换 数据 如 表 5-3 所 示 ， 图 5-19 示 出 按 处 
理 器 的 带宽 需求 。 就 像 所 看 到 的 ， 如 果 由 于 容量 性 扑 空 导致 一 个 关键 的 工作 集 不 能 放 到 处 理 
器 的 缓存 中 ， 对 总 线 带宽 的 需求 可 能 大 大 增加 。1.2 GBps 的 总 线 现在 对 于 Ocean 和 Radix 只 
能 勉强 支持 4 个 处 理 器 ， 而 对 Raytrace 可 支持 到 16 个 处 理 器 。 


表 5-3 在 高 速 缓存 容量 较 小 的 情况 下 ， 应 用 程序 每 发 出 1000 次 存储 访问 所 导致 的 状态 转换 











至 

应 用 NP I E S M 
NP 0 0 26.2491 2.6030 15. 1459 

I 1.3305 0 0 0.3012 0.0008 

Ocean 从 E 21.1804 0.2976 452.580 0.4489 4.3216 
2.4632 1.3333 0 113.257 1.1112 

M 19.0240 0.0015 0 1.5543 387.780 

NP 0 0 9.440787 2.557865 27.36084 
1 4.354862 0 0.00057 0.157565 1.499903 
Radix 从 E 8.148377 0.001329 140.9295 0.012339 0.126621 
S 3.825407 0.481427 0 102.4144 0.484464 

M 23.03084 5.629429 0 2.069604 717.1426 





PSE AFARI SARB 227 














( 续 ) 
至 
应 用 NP I E s M 
NP 0 0 7.2642 3.9742 0. 1305 
I 0.0526 0 0.0003 0.2799 0.0000 
Raytrace 从 E 6.4119 0 131.944 0.7973 0.0496 
S 4.6768 0.3329 0 205.994 0.2835 
M 0.1812 0.0001 0 0.2837 660.753 





400 
350 


图 5-19 假定 处 理 器 计算 性 能 为 200 MIPS/ 
MEFLOPS， 且 每 处 理 器 有 64 KB 高 
速 缓存 ， 这 里 表现 的 是 各 种 应 用 
从 每 个 处 理 器 产生 的 带宽 需求 。 
数据 流量 和 地 址 (包括 命令 ) 流 


流量 (MBps) 
N 
8 





2AS ZRH EZŠ 量 分 别 表示 。 每 一 组 中 最 左边 的 
eos 2333 398 项 表示 linois MESI 协议 ， 中 间 项 
8 3% QB5 & 8 表示 的 是 基本 三 态 作废 协议 ， 即 
68 2 R? 没有 下 状态 (如 5.3.1 节 所 述 ); 

Š k Š 最 右边 的 项 表示 在 SM 转换 时 用 

有 BusRdX， 而 不 是 BusUpg 的 三 态 协议 


5.4.4 高 速 缓存 中 存储 块 大 小 的 权衡 


在 所 有 现代 计算 机 中 ， 缓 存 的 组 织 是 一 个 关键 的 性 能 因素 ， 对 于 多 处 理 器 尤其 如 此 。 在 
单 处 理 器 场合 ， 缓 存 扑 空 典 型 地 被 分 为 “3C”， 即 强制 (compulsory) 扑 空 ， 容 量 (capacity) 
扑 空 和 冲突 (conflict) 扑 空 〈Hill and Smith 1989; Hennessy and Patterson 1996)。 强 制 性 扑 空 ， 
也 称 为 伶 启动 扑 室 ， 发 生 在 处 理 器 对 一 个 存储 块 的 首次 引用 时 。 客 量 扑 空 是 由 于 在 程序 执行 
过 程 中 处 理 器 所 要 引用 的 所 有 块 没 法 放 到 高 速 缓存 中 (即使 是 全 相 联 )， 因此 某 些 块 要 被 替 
换 ， 后 来 还 要 再 被 访问 。 冲 突 或 碰撞 扑 空 发 生 在 非 全 相 联 的 缓存 中 ， 当 一 个 程序 引用 的 应 映 
射 到 同一 缓存 块 的 集合 在 一 组 中 装 不 下 的 时 候 ; 它们 在 全 相 联 缓存 中 是 不 会 发 生 的 。 许 多 研 
究 成 果 都 是 针对 缓存 大 小 、 相 联 度 和 缓存 块 大 小 是 如 何 影响 这 几 种 扑 空 的 。 

从 系统 结构 来 说 ， 容 量 扑 空 可 以 通过 加 大 缓存 来 减少 ， 冲 突 扑 空 可 以 通过 增加 缓存 的 相 
联 度 或 者 增加 可 以 映射 的 线 数 来 减少 (增加 组 存 规模 ,减少 块 大 小 )。 冷 启动 扑 空 只 能 通过 
增加 块 的 大 小 来 减少 ， 因 为 那样 一 次 冷 启动 扑 空 将 带 进来 较 多 的 数据 ， 那些 数据 可 能 紧 接 着 
被 访问 到 。 在 单 处 理 器 中 缓存 设计 的 挑战 性 在 于 这 些 因素 相互 影响 。 例 如 ， 对 于 固定 的 缓存 
容量 ， 增 加 块 的 大 小 将 减少 块 的 数量 ， 因 此 减少 冷 启动 扑 空 可 能 的 代价 是 增加 冲突 扑 空 。 后 
样 ， 在 缓存 组 织 上 的 变化 可 能 影响 扑 空 所 带 来 的 惩罚 或 者 命中 时 间 ， 从 而 可 能 影响 到 处 理 器 
的 周期 。 
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缓存 一 致 性 多 处 理 器 引入 第 四 种 扑 空 : 一 致 性 扑 空 。 它 们 发 生 在 数据 块 在 多 个 缓存 中 的 
共享 。 这 类 扑 空 又 分 两 种 : 真 共 享 扑 空 和 伪 共 享 扑 空 。 真 共享 扑 空 发 生 在 由 一 个 处 理 器 写 的 

数据 字 要 被 另 - 一 个 处 理 器 读 或 者 写 的 时 候 。 伪 共享 扑 空 指 的 是 ， 不 同 的 数据 字 被 不 同 的 处 理 
器 访问 ， 但 它们 处 于 同一 个 存储 〈 缓 存 ) 块 中 ， 并 且 至 少 有 一 个 访问 是 写 。 缓 存 块 的 大 小 不 
仪 是 对 主 存 进行 数据 访问 的 单位 (粒度 )， 它 也 是 相 容 性 的 粒度 。 即 一 个 处 理 器 的 写 ， 另 外 
处 理 器 缓存 中 的 整个 块 都 被 作废 ， 而 不 仅 是 写 操作 涉及 的 那个 存储 字 。 

更 精确 地 讲 ， 真 共享 扑 空 发 生 在 一 个 处 理 器 向 缓存 中 的 某 些 字 做 写 操 作 时 ， 作 废 男 一 
理 器 中 缓存 的 相应 块 ， 在 那 之 后 后 者 要 从 修改 的 字 中 读 。 之 所 以 称 为 是 “ 真 ”共享 扑 空 
因为 这 个 扑 空 真正 涉及 到 了 共享 的 数据 ; 无 沦 和 机 可 组 织 和 者 科 度 有 什么 将 作 用、 对 六 
扑 空 的 处 理 对 于 程序 的 正确 性 是 必须 的 。 另 一 方面 ， 当 一 个 处 理 器 向 一 个 缓存 块 中 写 人 某 个 
字 ， 然 后 另 一 个 处 理 器 读 (或 者 写 ) 同一 缓存 块 的 另 一 个 字 ， 即 使 没有 有 用 的 数据 在 处 理 器 
之 间 交 流 ， 块 的 作废 和 随后 的 缓存 扑 空 也 会 发 生 。 这 样 的 扑 空 就 称 为 伪 共 享 朴 空 (Dubois et 
al. 1993)。 随 着 缓存 块 的 增 大 ， 处 于 同一 存储 块 中 不 同 的 变量 被 不 同 的 处 理 器 访问 的 概率 增 
加 。 如 果 对 这 些 变 量 的 访问 是 写 操作 ， 则 伪 共 享 扑 空 的 可 能 性 也 就 增加 。 如 果 存 储 块 的 大 小 
只 是 一 个 字 ， 仍 然 可 能 有 真 共享 扑 空 ， 但 不 会 有 伪 共 享 扑 空 。 工 艺 的 进步 趋向 于 较 大 的 缓存 
Be (例如 ，DRAM 的 组 织 和 访问 模式 以 及 需要 通过 分 排 开销 以 获得 高 的 数据 传送 带宽 )， 内 
此 理解 伪 共 享 扑 空 的 潜在 影响 以 及 如 何 能 避免 它们 是 重要 的 。 

真 共 享 扑 空 是 给 定 的 并 行 分 解 和 分 配 所 固有 的 ， 因 此 如 同 冷 启动 扑 空 ,减少 它们 的 惟一 
办 法 是 增加 存储 块 的 大 小 和 增加 通信 数据 的 空间 局 部 性 。 另 一 方面 ， 由 于 是 体系 结 een 
作用 所 引起 的 ， 伪 共享 扑 空 是 第 3 章 所 讨论 的 附加 通信 的 例子 。 同 真 共 享 和 冷 启动 扑 空 
比 ， 伪 共享 扑 空 能 够 通过 减 小 块 的 大 小 来 减少 ， 还 可 以 通过 软件 〈 调 整 ) 和 硬件 方面 的 一 
其 他 优化 措施 来 减少 ， 对 此 ， 在 后 面 将 会 有 讨论 。 这 样 ， 决 定 最 好 的 缓存 块 的 大 小 就 具有 根 
7 的 恒久 了 ， 而 这 件 事 内 能 通过 针对 真实 程序 的 评测 才能 解决。 

. KÄIN- 

15-20 PONER 洽 出 了 一 个 具体 的 算法 来 对 于 缓存 一 致 性 多 处 理 器 中 的 缓存 扑 空 进 
行 分 类 ”。 理 解 其 中 的 细节 现在 还 不 是 很 重要 ， 对 于 本 章 后 面 的 内 容 来 说 ， 只 要 理解 前 面 的 
定义 就 够 了 ,但 对 细节 的 理解 能 够 加 强 我 们 的 观念 ， 并 且 是 一 个 有 用 的 练习 。 在 这 个 算法 
中 ,一 个 存储 块 在 缓存 中 的 生存 时 间 定义 为 它 在 缓存 中 处 于 有 效 状态 的 时 间 区 间 ， 也 就 是 说 
从 引起 它 装载 进 缓存 的 扑 空 开始 到 它 被 作废 ， 替 换 或 者 程序 结束 。 当 一 次 扑 空 出 现 的 时 候 ， 
还 说 不 清楚 它 应 该 归于 哪 一 类 ; 只 是 当 相应 的 存储 块 被 替换 或 者 作废 时 ， 我 们 才能 明确 ， 因 
为 只 有 在 那个 时 刻 我 们 才 知 道 在 该 存储 块 生存 期 是 否 发 生 了 真 共 享 或 者 仅仅 是 伪 共 享 。 让 我 
们 首先 考虑 简单 的 情形 。 情 形 ! 和 2 是 直接 的 冷 启动 扑 空 ， 发 生 在 事先 没 被 写 过 的 块 上 。 情 
形 7 和 8 反映 了 在 一 个 块 上 的 伪 共 享 和 真 共享 ， 被 共享 的 那个 块 在 缓存 中 先 被 作废 ， 然 后 被 
男 一 块 替换 。 共 享 类 型 的 确定 是 通过 考察 在 生存 期 作废 后 是 否 有 特定 的 字 被 修改 了 。 情 形 9 
是 简单 的 容量 性 (或 者 冲突 ) 扑 空 ， 这 是 由 于 存储 块 先 被 替换 并 且 自 从 上 次 访问 后 其 中 的 字 
还 没有 被 修改 。 所 有 其 他 的 情形 反映 的 是 一 些 组 合 因素 的 扑 空 。 例 如 ， 由 于 这 个 处 理 器 以 前 











O 在 这 种 分 类 中 ， PAYA Offa eth, 主要 考虑 到 它们 都 是 可 用 资源 〈 缓 存 组 或 整个 缓存 ) 用 尽 后 
表现 出 来 的 现象 ， 而 强调 它们 之 间 的 差别 并 不 给 多 处 理 器 问题 的 研究 增加 什么 有 意义 的 结论 ， 
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图 5-20 共享 存储 多 处 理 器 高 速 缓存 扑 空 的 一 种 分 类 。 按 照 这 种 分 类 法 ， 四 种 基本 的 缓存 扑 空 是 冷 启 动 
扑 空 、 容 量 扑 空 、 真 共享 扑 空 和 伪 共 享 扑 空 〈 冲 突 扑 空 在 这 里 被 看 成 是 容量 扑 空 )。 由 于 一 次 扑 
空 可 能 有 多 种 原因 ， 人 们 还 提出 了 一 些 混合 类 型 。 例 如 ， 一 个 存储 块 可 能 先 在 处 理 器 4 的 缓存 
中 被 蔡 换 ， 然 后 由 处 理 器 写 ， 然 后 又 由 4 读 回去 ， 于 是 造成 了 一 次 容量 -cum- 作 废 伪 / 真 共享 
扑 室 。 这 在 分 类 中 可 能 被 称 为 “ 伪 / 真 共享 容量 -作废 "， 由 于 共享 优先 级 高 ， 还 由 于 替换 在 作废 
之 前 发 生 (图 中 的 情形 11 和 12)。 如 果 存 储 块 先 在 4 的 缓存 中 作废 ， 然 后 这 个 无 效 块 被 替换 ， 
然后 再 被 4 读 出 ， 它 就 要 被 称 为 “ 伪 / 真 共享 作废 -容量 ”( 情 形 6 和 7)。 按 照 我 们 给 出 的 四 种 类 
型 来 说 ， 上 面 这 些 都 属于 真 或 伪 共 享 扑 空 。 注 意 : 图 中 的 问题 “已 修改 的 字 在 生命 周期 被 访问 
过 ?” 问 的 是 自从 上 一 次 “根本 的 一 致 性 ” 扑 空 后 已 修改 的 存储 块 是 否 在 当前 生命 周期 里 被 访问 过 
了 ， 其 中 “根本 的 一 致 性 ”对 应 于 第 4、6、8、10 和 12 类 。 这 只 有 在 当前 生命 期 结束 时 才能 决定 


从 来 没有 访问 过 这 个 块 ， 情形 4 和 5 是 冷 启动 扑 空 ， 然 而 ， 一 些 其 他 的 处 理 器 写 过 这 个 块 ， 
因此 也 有 共享 ( 假 或 真 )。 类 似 地 ， 我 们 可 能 在 那些 曾经 由 于 容量 或 者 冲突 被 替换 的 存储 块 
上 发 生 假 的 或 真 共享 。 例如， 如 果 一 个 扑 空 的 发 生 是 由 于 伪 共 享 和 容量 问题 ， 那 么 通过 减 小 
块 的 大 小 可 能 消除 伪 共 享 ， 但 可 能 并 不 能 消除 扑 空 。 另 一 方面 ， 共 享 扑 空 在 某 种 意义 上 要 比 
容量 扑 空 更 基本 ， 这 是 因为 共享 扑 空 的 存在 是 与 缓存 容量 无 关 的 ， 因 此 我 们 在 多 原因 扑 空 中 
给 予 它们 优先 级 。 在 我 们 的 分 类 结果 中 ， 所 有 名 称 带 有 真 共 享 的 扑 空 被 称 为 根 未 性 一 致 性 扑 
空 。 即 使 缓存 有 无 限 大 、 单 字 块 、 所 有 数据 预 装 在 缓存 中 了 〈 即 没有 了 冷 启动 扑 空 ) 它们 还 
是 会 出 现 的 。 例 5.11 解释 了 扑 空 分 类 中 的 这 些 定义 。 

例 5.11 假设 三 个 处 理 器 P,、P,、P,， 发 出 存储 器 操作 ， 如 表 5-4 中 的 头 几 列 所 示 (第 
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的 缓存 只 有 一 个 4 字 的 缓存 块 ， 所 有 缓存 最 初 都 是 空 的 。 
解答 : 结果 如 表 5-4 AN. M 
R54 对 源 于 三 个 处 理 器 的 访问 流产 生 的 扑 空 分 类 





次 数 P, P, P; 扑 空 类 别 
1 ld w0 ld w2 P 和 B 扑 空 ; 类 别 将 在 后 面 说 明 
2 st w2 Pui: 纯 冷 扑 空 , Pa: 提 开 
3 ld wl P, 扑 空 ， 类 别 将 在 后 面 说 明 
4 ld w2 Id w7 Pa 命中 ; Py 扑 空 ; P31: 冷 扑 空 
5 ld w5 P, 扑 空 
6 ld w6 P hE; Poa: 冷 真 共享 扑 富 (w2 被 访问 ) 
7 st w6 Pis: BIE; Poa: 提升 ; Ba: 纯 冷 扑 空 
8 ld w5 P, 扑 空 
9 ld w6 Id w2 Pi 命中 ; Py 扑 空 
10 ld w2 ld wl P,, P 扑 室 ; Pe: 纯真 共享 扑 空 ; Pe: 冷 扑 空 
Ik st w5 Pi hE; Po: 纯真 共享 扑 空 
12 st w2 Poo: 容量 型 扑 空 ; Pa: 提升 
13 ld w7 Ps hZ; Po: 容量 型 扑 空 
14 ld w2 P 扑 空 ; P;.13: 作废 容量 型 假 共 享 扑 空 
15 ld w0 Pi hE; Po: 容量 型 扑 空 


iÈ: 如 果 在 同一 行列 有 多 次 引用 ,我们 假定 P| 在 已 之 前 ,Py 在 Pi 之 前 。 记 号 ld/st wi 表示 对 字 i 的 装 入 /存放 。wl 
到 w4 AMORA, FE. SP, ;指向 由 处 理 器 i 在 第 j 行 发 出 的 存储 访问 ， 

2. 缓存 块 的 大 小 对 于 扑 空 率 的 影响 

将 图 5-20 的 算法 应 用 于 一 种 负载 的 模拟 运行 结果 ， 我 们 可 以 确定 各 种 扑 空 发 生 在 程序 
中 的 频率 ， 以 及 这 些 频率 如 何 随 着 缓存 组 织 的 变化 而 改变 ， 例 如 块 大 小 的 变化 。 图 5-21 表 
示 各 种 应 用 运行 在 16 个 处 理 器 上 扑 空 的 分 解 ， 这 些 处 理 器 都 有 一 个 1 MB 的 4 路 组 相 联 组 
存 ， 缓 存 块 的 大 小 在 8 ~ 256 字 节 之 间 变 化 。 直 方 图 表现 4 种 基本 的 扑 空 : 冷 启动 扑 空 ( 情 
形 1 和 2)， 容 量 (包括 冲突 ) 扑 空 (情形 9)， 真 共享 扑 空 (情形 4，6，8，10，12)， 以 及 
伪 共 享 扑 空 情形 3，5，7 和 11)。 除 此 以 外 ， 它 们 还 表现 了 升级 的 频率 一 一 也 就 是 那些 发 
现 块 在 缓存 中 处 于 共享 状态 的 写 操作 。 更 新 不 同 于 其 他 类 型 的 扑 空 ， 由 于 缓存 已 经 有 了 有 效 
的 数据 ， 只 是 需要 独 享 的 所 有 权 。 虽 然 没 有 包含 在 图 5-20 的 分 类 方案 中 ,它们 仍然 被 看 作 
是 扑 空 ， 这 是 由 于 它们 在 处 理 器 互 连 机 构 上 产生 流量 ， 从 而 可 能 阻 滞 处 理 占 的 执行 。 

对 于 每 个 独立 的 应 用 ， 扑 空 特征 随 块 大 小 变化 ， 其 情况 和 我 们 对 程序 和 扑 空 类 别 的 理解 
一 致 。 冷 启动 、 容 量 和 真 共享 扑 空 倾向 于 随 块 的 变 大 而 减少 ， 这 是 因为 随 着 扑 空 所 带 进来 的 
附加 数据 在 该 块 被 替换 前 被 访问 。 在 所 有 情形 下 ， 真 共享 在 扑 空 中 占有 明显 比例 ， 于 是 即便 
是 理想 的 、 无 限 大 的 缓存 ， 扑 空 率 和 总 线 带 宽 将 都 不 会 为 零 。 然 而 ， 整 个 特征 对 于 不 同 的 程 
序 大 相 径 庭 。 例 如 ， 真 共享 部 分 的 大 小 变化 范围 可 能 是 很 大 的 。 某 些 应 用 在 伪 共 享 中 表现 出 
随 块 大 小 实质 性 的 增加 ， 而 另 一 些 则 几乎 没有 。 进 一 步 看 ， 这 个 图 只 是 表现 了 针对 缺 省 数据 
集 的 情况 。 在 实际 中 ， 得 到 关于 一 个 应 用 程序 的 伪 共 享 或 空间 局 部 性 之 前 ， 考 察 结果 随 输 入 
数据 规模 和 处 理 器 数 的 扩展 变化 是 重要 的 〈 见 第 4 章 )。 下 面 让 我 们 来 研究 应 用 的 性 质 ， 它 
们 反映 了 在 机 器 层次 看 到 的 扑 空 特征 方面 的 差别 ， 这 使 我 们 能 够 定性 地 理解 扩展 的 效果 。 
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图 5-21a 在 1 MB 缓存 的 处 理 器 上 ，Bames-Hut、LU、Fadiosity 应 用 在 不 同 缓存 块 大 小 下 的 扑 空 人 情况。 冲 
突 扑 空 含 在 容量 扑 空中 。 应 用 不 同 ， 扑 空 的 情形 变化 很 大 ， 但 我 们 还 是 能 够 看 到 一 些 共同 的 
特点 。 冷 启动 扑 空 和 容量 扑 空 随 绥 存 块 大 小 的 增加 很 快 下 降 ， 这 是 由 于 空间 局 部 性 得 到 了 利 
用 。 真 共享 扑 空 也 随 之 减少 ,但 伪 共 享 扑 空 增加 。 对 小 缓存 块 来 说 ， 伪 共享 扑 空 的 成 分 通常 
较 小 ,但 有 时 会 很 快 增加 。 更 新 所 导致 的 情形 是 直方 图 项 部 的 非 阴影 部 分 ， 可 以 忽略 不 计 

3， 同 应 用 程序 结构 的 关系 

含有 多 个 字 的 缓存 块 通过 预 取 所 访问 地 址 附近 的 数据 ， 使 程序 的 空间 局 部 性 得 到 利用 。 
当然 ， 超 出 某 个 点 ， 较 大 的 缓存 块 反而 会 对 性 能 有 不 好 的 影响 ， 原 因 在 于 : 1) 预 取 了 不 需 
要 的 数据 ; 2) 引起 冲突 扑 空 增加 ， 这 是 由 于 对 固定 的 缓存 规模 来 说 ， 这 样 就 减少 了 缓存 块 
的 个 数 ; 3) 引起 伪 共享 扑 空 增加 。 并 行程 序 中 的 空间 局 部 性 一 般 低 于 串 行程 序 ， 这 是 因为 
当 一 个 存储 块 带 到 缓存 时 ， 其 中 有 些 数据 可 能 属于 另 一 个 处 理 器 ， 并 且 将 不 会 被 完成 扑 空 的 
处 理 器 用 到 。 作 为 一 个 极端 的 例子 ， 某 些 并 行程 序 将 数组 中 相 邻 元 素 赋 给 不 同 的 处 理 器 ， 虽 
然 可 能 取得 好 的 负载 平衡 ， 但 在 进程 中 就 大 大 地 降低 了 程序 的 空间 局 部 性 。 

图 5-21 中 的 数据 表示 ， 即 使 在 并 行情 况 下 ，LU 和 Ocean 有 好 的 空间 局 部 性 并 且 没 有 伪 
共享 。 扑 空 率 的 许多 成 分 随 缓存 块 大 小 的 增加 按 比例 下 降 ， 伪 共享 扑 空 基本 上 是 不 存在 的 。 
这 在 很 大 程度 上 是 由 于 这 些 基于 数组 的 代码 用 到 了 和 体系 结构 相 匹 配 的 数据 结构 ， 如 同 第 
3、4 章 所 讨论 的 那样 。 例 如 ，Ocean 中 的 一 个 网 格 不 是 由 一 个 二 维 数组 (二 维 数组 在 面向 列 
划分 的 边界 引起 严重 的 伪 共 享 )， 而 是 由 一 个 四 维 数组 来 表示 的 : 一 个 二 维 块 的 数组 ， 每 一 
个 块 自己 也 是 一 个 二 维 数组 。 这 样 通过 程序 或 者 编译 的 结构 化 ， 保 证 了 多 数 访问 是 单位 跨 距 
的 ， 覆盖 大 量 连 接 数据 ， 于 是 表现 出 很 好 的 结果 。 
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图 5-21b 在 1 MB 缓存 的 处 理 器 上 ，Ocean、Radix、Raytrasce 应 用 在 不 同 缓存 块 大 小 下 的 扑 空 情 况 

在 Ocean 中 ， 容 量 性 扑 空 是 值得 注意 的 ,但 它们 只 是 反映 在 一 个 进程 划分 的 内 部 元 素 
上 ， 因 此 它们 有 非常 好 的 空间 局 部 性 。 和 LU 的 一 个 区 别 是 ，Ocean 中 的 真 共享 扑 空 展示 不 
出 这 样 好 的 空间 局 部 性 。 大 多 数 真 共 享 扑 空 反 映 在 相 邻 划分 的 边界 元 素 上 。 在 面向 行 的 边界 
安排 下 ， 由 于 被 访问 的 数据 在 地 址 空间 中 是 连续 的 ， 于 是 能 表现 出 好 的 空间 局 部 性 。 然 而 ， 
当 一 个 处 理 器 访问 面向 列 边界 的 一 个 元 素 时 ， 要 涉及 到 它 的 相 邻 划分 的 内 部 元 素 的 一 整个 组 
存 块 ， 其 中 大 部 分 数据 将 不 被 使 用 ， 因 此 就 浪费 了 。 由 于 容量 性 扑 空 对 于 这 个 问题 和 这 种 机 
带 配 置 来 说 不 是 很 大 的 ， 整 个 空间 局 部 性 的 限制 在 于 真 通信 的 要 求 。 在 LU 中 ， 即 使 真 通信 
也 是 每 次 Bx B 连续 块 ， 因 此 空间 局 部 性 即使 在 真 共 享 扑 空 情况 下 也 是 很 好 的 。 

至 于 扩展 性 ， 当 问题 的 规模 和 处 理 器 个 数 增加 时 ， 这 两 个 应 用 的 空间 局 部 性 都 保持 得 相 
当 好 ， 没 有 伪 共 享 〈 至 少 在 划分 变 得 过 分 小 之 前 )。 即 使 对 于 大 于 256 字 节 的 缓存 块 ， 至 少 
对 于 LU 应 该 是 这 样 的 。 在 Ocean 中 ， 容 量 相对 于 真 通信 扑 空 ( 因 此 也 就 是 空间 局 部 性 ) 的 
变化 在 很 大 程度 上 取决 于 数据 规模 和 处 理 器 数 的 相对 变化 关系 。 

图 形 应 用 程序 Raytrace 所 表现 出 来 的 伪 共享 基本 可 以 忽略 ， 但 它 在 空间 局 部 性 方面 表现 
得 明显 的 不 好 。 伪 共享 小 是 因为 主要 的 数据 结构 (构成 场景 的 多 边 形 的 集合 ) 是 只 读 的 。 读 
写 共享 只 是 发 生 在 图 像 平面 数据 结构 和 任务 队列 上 ， 但 那 是 在 控制 范围 内 的 并 且 对 大 多 数 问 
题 来 说 相 比 很 少 。 这 种 真 共享 扑 空 率 可 通过 增加 缓存 块 的 大 小 来 减少 。 至 于 较 差 的 容量 扑 空 
的 空间 局 部 性 问题 (尽管 在 这 种 配置 中 总 的 量 是 小 的 )， 其 原因 是 对 于 多 边 形 集合 的 访问 模 
式 是 相当 任意 的 ， 主 要 由 于 一 束 光线 在 其 中 反射 的 对 象 集合 不 可 预测 。 在 扩展 性 方面 ， 随 着 
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问题 规模 的 扩大 (大 多 数 情形 下 意味 着 更 多 的 多 边 形 )， 基 本 的 效果 可 能 是 更 大 的 容量 性 扑 
BR, 在 单个 部 分 内 的 空间 局 部 性 应 该 没什么 变化 。 除 能 在 图 像 平 面 和 任务 队列 中 的 数据 结 
构 中 看 到 更 多 的 共享 外 ， 从 许多 方面 来 看 ， 处 理 器 数 增 大 的 效果 类 似 于 问题 规模 的 变 小 。 

Barnes-Hut 和 Radiosity 应 用 表现 出 中 等 的 空间 局 部 性 和 伪 共 享 。 这 些 应 用 用 到 了 复杂 的 
数据 结构 ， 包 括 树 型 编码 的 空间 信息 和 数据 ， 其 中 分 配给 每 个 处 理 器 的 记录 在 存储 器 中 不 是 
连续 的 。 例 如 、Bames-Hut 的 操作 作用 在 存放 在 数组 中 的 粒子 记录 上 ， 随 着 应 用 程序 的 执行 ， 
粒子 在 物理 空间 中 运动 ， 粒 子 记 录 可 能 要 重新 分 配给 不 同 的 处 理 器 ， 数 组 中 相 邻 的 粒子 在 一 
段 时 间 后 很 可 能 属于 不 同 的 处 理 器 。 空 间 局 部 性 在 一 个 粒子 记录 内 体现 得 很 好 ， 但 在 跨 记 录 
之 间 体 现 得 就 不 好 。 在 缓存 块 较 大 的 情况 下 ， 伪 共享 成 为 一 个 问题 ， 其 原因 是 多 方面 的 。 首 
F, 不 同 的 处 理 髓 可 能 对 共享 同一 个 缓存 块 的 不 同 记录 进行 写 操作 。 其 次 ， 一 个 粒子 的 数据 
结构 (记录 ) 包含 有 某 些 数据 域 , 要 被 在 本 阶段 拥有 它 的 处 理 器 修改 (例如 ， 在 计算 阶段 作 
用 在 粒子 上 的 力 )， 还 包含 有 数据 域 要 被 其 他 处 理 器 读 ， 但 在 本 阶段 不 被 修改 (例如 ， 当 前 
粒子 的 位 置 )。 由 于 这 两 个 域 可 能 落 人 同一 个 缓存 块 ， 就 要 导致 伪 共 享 。 通 过 按照 数据 域 的 
访问 模式 拆 分 粒子 数据 结构 ， 有 可 能 消除 这 样 的 伪 共 享 ; 但 由 于 扑 空 率 总 体 上 很 小 ， 人 们 并 
没有 这 样 做 。 随 着 问题 的 规模 和 处 理 器 个 数 的 变化 ，Bames-Hut 的 扑 空 率 情况 也 不 会 有 太 大 
变化 。 这 是 由 于 工作 集 改 变 得 很 慢 〈 和 粒子 数 的 对 数 成 比例 ， 这 一 点 和 Ocean, Raytrace 不 
同 )， 空 间 局 部 性 是 由 一 个 粒子 记录 的 大 小 确定 的 ， 因 此 保持 不 变 。 同 时 ， 伪 共享 的 来 源 对 
于 处 理 器 数 来 说 并 不 敏感 。Radiosity 要 复杂 得 多 ， 对 于 较 大 的 数据 集合 和 较 多 的 处 理 器 ， 它 
的 行为 难以 推测 ; 惟一 的 办 法 是 收集 表现 趋势 的 试验 数据 。 

Radix 显示 的 共享 情形 最 差 ， 即 使 对 于 1 MB 的 缓存 来 说 ， 它 不 仅 有 很 高 的 扑 空 率 〈 由 于 
冷 启动 和 真 共享 扑 空 )， 而 且 由 于 在 128 字 节 或 更 大 缓存 块 情形 的 伪 共 享 扑 空 变 得 更 差 。Ra- 
dix 中 的 这 种 伪 共 享 效 果 如 第 4 章 所 示 。 现 在 来 考察 它 的 具体 情况 。 考 虑 要 对 256 K 个 键 排 
序 ， 使 用 1 024 为 基 和 16 个 处 理 器 。 平 均 来 说 ， 这 导致 每 个 基 每 个 处 理 器 有 16 个 键 (64 字 
节 数 据 ) ， 然 后 它们 写 到 一 个 全 局 数组 的 一 个 连续 的 部 分 ， 起 始点 不 可 预测 。 在 这 个 数组 中 
相 邻 的 64 字 节 区 域 被 不 同 的 处 理 器 写 。 如 果 缓 存 块 大 于 64 字 节 ， 伪 共享 的 可 能 性 显然 就 很 
大 。 随 着 问题 规模 的 增加 ， 我 们 将 清楚 地 看 到 伪 共 享 变 小 。 增 加 处 理 器 数 的 效果 恰好 是 相反 
的 。Radix 突出 地 表明 ， 仅 仅 通过 看 问题 的 规模 和 处 理 器 数 来 得 到 关于 伪 共 享 和 空间 局 部 性 
的 结论 是 不 够 的 。 重 要 的 是 要 理解 这 些 结果 是 如 何 依赖 于 实验 中 所 选择 的 关键 参数 ， 并 且 这 
些 参 数 在 实际 中 可 能 如 何 变化 。 

Multiprog 工作 负载 在 1 MB 缓存 上 运行 的 数据 如 图 5-22 所 示 。 其 中 分 别 表 示 了 用 户 代码 、 
用 户 数 据 、 内 核 代 码 和 内 核 数 据 。 对 于 代码 来 说 ， 只 有 冷 启动 和 容量 性 扑 空 。 进 而 看 到 操作 
系统 中 数据 引用 的 空间 局 部 性 并 不 怎么 好 。 在 某 种 程度 上 ， 这 对 于 应 用 程序 的 数据 也 如 此 ， 
这 是 因为 gcc (在 Multiprog 中 引起 扑 空 的 主要 应 用 ) 用 到 了 大 量 的 链表 ， 而 这 种 数据 结构 的 
空间 局 部 性 不 好 。 有 意思 的 是 ， 尽 管 我 们 只 是 运行 串 行程 序 ， 我 们 仍然 看 到 了 真 共享 扑 空 。 
这 是 由 于 进程 的 迁移 所 导致 的 (操作 系统 为 资源 管理 所 作 的 工作 )， 进 程 从 一 个 处 理 器 迁移 
到 男 一 个 处 理 器 ， 引 用 它 曾经 在 另 一 个 处 理 器 写 人 的 存储 块 。 冷 启动 和 容量 扑 空 中 的 空间 局 
部 性 是 合理 的 ， 对 于 内 核 数据 来 说 真 共享 扑 空 一 点 也 不 减少 。 这 种 情形 的 一 个 原因 可 能 是 操 
作 系 统 本 身 还 不 是 一 个 好 的 并 行程 序 。 

最 后 ， 让 我 们 考察 Ocean、Radix 和 Raytrace 在 64 KB 缓存 上 的 行为 。 所 导致 的 扑 空 率 如 
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对 这 个 应 用 要 比 对 操作 系统 好 得 多 
图 5-23 所 示 。 正 如 所 预想 的 ， 整 体 扑 空 率 较 高 并 且 容 量 性 扑 空 增加 较 明 显 。 缓 存 块 大 小 对 
于 真 共享 和 伪 共享 扑 空 的 效果 和 1 MB 缓存 相 比 没有 实质 性 的 不 同 ， 这 是 由 于 这 些 性 质 是 直 
接 针 对 程序 的 并 行 分 配 和 性 能 调试 策略 的 ， 和 缓存 的 大 小 关系 不 大 。 不 过 ， 容 量 性 扑 空 的 行 
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图 5-23 在 64 KB 缓存 上 ， 应 用 程序 在 不 同 缓存 块 大 小 下 的 扑 空 情况 。 容 量 扑 空 现在 在 整个 扑 空 率 中 
占有 较 大 的 比例 。 随 缓存 块 大 小 的 增加 ， 不 同 的 应 用 表现 出 的 容量 性 扑 空 率 下 降 的 情况 也 不 同 
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为 对 于 整个 扑 空 率 的 影响 要 大 得 多 。 例 如 ， 在 Ocean 中 ， 容 量 性 扑 空 对 于 共享 扑 空 具有 支配 
地 位 ; 由 于 它们 有 好 得 多 的 空间 局 部 性 ， 和 1 MB 缓存 相 比 整个 扑 空 率 随 块 大 小 的 增加 下 降 
很 快 。( 在 小 缓存 中 用 很 大 的 块 可 能 有 问题 ， 存 储 块 可 能 由 于 冲突 在 处 理 器 还 没有 机 会 访问 
其 中 所 有 的 字 时 就 被 蔡 换 出 去 了 。) 在 Raytrace 中 ， 容 量 扑 空 和 真 共享 扑 空 相 比 有 较 差 的 空 
间 局 部 性 ， 因 此 对 于 较 小 缓存 用 较 大 块 的 总 体 效 果 看 来 要 差 些 。 文 献 中 有 对 于 其 他 应 用 程序 
的 伪 共 享 和 空间 局 部 性 的 研究 结果 (Torrellas，Lam，and Hennessy 1994; Jeremiassen and Eggers 
1991; Woo et al. 1995), 

对 于 多 数 应 用 来 说 ， 较 大 的 缓存 块 会 减少 扑 空 率 ， 但 在 我 们 考虑 的 大 小 范围 内 ， 大 缓存 
块 有 两 个 重要 的 缺点 。 首 先 ， 它 们 会 增加 每 次 扑 空 的 开销 ， 这 是 由 于 有 更 多 的 数据 要 在 总 线 
上 传送 〈 尽 管 有 些 技术 能 缓解 这 种 情形 ， 例 如 关键 字 重启 技术 ， 只 要 所 需 的 存储 字 到 达 就 允 
许 处 理 器 继续 向 下 执行 )。 其 次 ， 如 果 不 是 整个 块 都 有 用 的 话 ， 它 们 增加 流量 ， 从 而 也 增加 
了 竞争 。 

4. 缓存 块 大 小 对 于 总 线 流 量 的 影响 

让 我 们 简略 地 考察 缓存 块 大 小 对 于 总 线 流 量 (而 不 是 补 空 率 ) 的 影响 。 尽 管 扑 空 数 和 所 
产生 的 总 流量 显然 是 相关 的 ， 它 们 对 于 所 观察 到 的 性 能 的 影响 可 能 是 相当 不 同 的 。 尽 管 现代 
处 理 器 常 通过 用 其 他 活动 来 覆盖 ， 努 力 隐藏 扑 空 所 带 来 的 延迟 ， 扑 空 所 带 来 的 代价 还 是 可 能 
直接 影响 到 性 能 。 另 一 方面 ， 流 量 影响 性 能 是 间接 的 ， 主 要 是 由 于 所 产生 的 竞争 增加 了 其 他 
扑 室 的 代价 。 例 如 ， 一 个 应 用 程序 的 扑 空 率 可 能 通过 增加 缓存 块 的 大 小 得 到 了 明显 的 减少 ， 
但 总 线 的 流量 增加 了 50% ;如 果 该 应 用 程序 最 初 只 用 到 总 线 能 力 和 存储 带宽 的 10% ， 这 可 
能 就 是 一 个 合理 的 折 中 。 增 加 总 线 和 存储 的 利用 率 到 15% 不 可 能 明显 增加 扑 空 延迟 。 然 而 ， 
如 果 应 用 程序 最 初 要 用 75% 的 总 线 和 存储 带宽 ， 那么 增 大 块 的 大 小 可 能 就 是 一 个 不 好 的 
主意 。 

图 5-24 表示 我 们 应 用 程序 随 缓存 块 大 小 变化 的 总 的 总 线 流量 ， 单 位 是 每 条 指令 的 字 节 
数 或 者 每 FLOP 的 字 节 数 。 从 这 个 图 中 可 以 看 到 三 个 要 点 。 首 先 ， 流量 的 行为 和 扑 空 率 表现 
得 相当 不 同 。 只 有 LU 表现 出 随 块 大 小 单调 递减 的 总 流量 。 多 数 其 他 应 用 随 块 大 小 的 变化 看 
到 的 是 两 倍 或 者 三 倍 的 流量 。 其 次 ， 除 Radix 外 ， 其 他 应 用 的 总 流量 需求 仍然 是 小 的 ， 即 使 
块 大 小 为 256 字 节 。Radix 对 于 带宽 较 大 的 需求 OF 128 字 节 的 缓存 块 ， 假 设 一 个 持续 200 
MIPS 的 处 理 器 ， 大 约 每 个 处 理 器 650 MBps) 反映 了 它 在 大 缓存 块 上 的 伪 共 享 问题 。 第 三 ， 
对 于 每 一 次 总 线 事务 或 者 扑 空 ， 地 址 和 命令 流量 的 固定 开销 是 小 缓存 块 情形 总 流量 的 一 个 重 
要 组 成 部 分 。 因 此 ， 尽 管 实际 应 用 数据 流量 通常 随 块 大 小 的 增加 而 增加 ， 由 于 空间 局 部 性 比 
较 差 ， 总 流量 经 常 在 16 ~ 32 字 节 ， 而 不 是 8 字 节 时 得 到 极 小 化 ， 这 是 由 于 改善 的 扑 空 率 分 
扒 了 开销 。 

图 5-25 表示 Multiprog 的 流量 数据 。 缓 存 块 从 64 ~ 128 字 节 变化 所 引起 的 流量 增加 是 
的 ， 跳 到 256 字 节 时 就 很 显著 了 (主要 是 由 于 内 核 数据 的 引用 )。 最 后 ， 图 5-26 表示 64 KB 
缓存 对 于 这 三 个 相关 应 用 的 流量 结果 。 对 Ocean 来 说 ， 即 使 64 字 节 和 128 字 节 的 缓存 块 也 不 
是 那么 差 ， 这 是 由 于 好 的 空间 局 部 性 使 得 起 支配 作用 的 容量 扑 空 较 小 。 

5. 缓解 大 缓存 块 的 缺点 

现在 的 处 理 器 倾向 于 用 较 大 的 缓存 块 。 这 个 趋势 是 由 处 理 器 性 能 和 存储 器 访问 时 间 之 间 
的 差距 变 大 带 来 的 。 较 大 的 缓存 块 ， 在 较 大 量 数据 时 能 够 分 摊 总 线 事务 和 存储 访问 的 代价 。 
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图 5-24 每 处 理 器 1 MB 缓存 情形 ， 流 量 (每 指令 字 节 数 或 每 FLOP 字 节 数 ) 随 缓 存 块 大 小 
变化 的 情况 。 当 通信 扑 空 起 支配 作用 时 ， 数 据 流量 随 缓存 块 变化 增加 得 相当 快 ; 
LU 是 个 例外 ， 它 在 所 有 类 型 的 扑 空 上 空间 局 部 性 都 很 好 。 地 址 (包括 命令 ) 总 
线 流 量 倾向 于 随 缓存 块 大 小 递减 ， 这 是 由 于 扑 空 率 和 传送 的 缓存 块 数 都 减少 了 


处 理 器 和 存储 器 芯片 的 密度 的 增加 使 得 用 很 大 的 一 级 和 二 级 缓存 成 为 可 能 ， 较 大 缓存 块 所 预 
取 的 数据 带 来 的 好 处 可 能 掩盖 由 此 带 来 的 冲突 扑 空 增加 的 问题 。 然 而 ， 这 个 趋势 对 多 处 理 器 
设计 来 说 可 能 预示 着 不 妙 ， 因 为 伪 共 享 变 成 了 一 个 较 大 的 问题 。 幸 运 的 是 ， 我 们 有 一 些 硬件 
和 软件 的 机 制 能 用 来 对 付 大 缓存 块 的 不 良 影响 。 
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图 5-26 每 个 处 理 器 64 KB 缓存 情形 ,流量 (每 指令 字 节 数 或 每 FLOP 字 节 数 ) MAF 

据 大 小 变化 的 情况 。 对 Ocean 来 说 ， 流 量 的 增加 要 比 1 MB 缓存 情形 慢 ， 这 是 

由 于 现在 起 支配 作用 的 容量 扑 空 表现 了 很 好 的 空间 局 部 性 (进程 在 子 网 格 上 的 

坦 历 )。 然 而 ， 一 旦 引起 伪 共 享 的 缓存 块 阐 值 被 超过 ，Radix 的 流量 就 增加 得 很 快 
在 本 章 的 后 面 ， 我 们 对 减少 伪 共享 ， 针 对 一 致 性 扑 空 改进 局 部 性 的 软件 技术 有 进一步 的 
详细 讨论 。 它 们 本 质 上 涉及 数据 结构 的 组 织 或 者 任务 的 分 配 ， 使 得 由 不 同 进程 访问 的 数据 不 
在 共享 地 址 空间 细 粒 度 交 织 存放 。 一 个 例子 是 用 高 维 数组 ， 使 得 存储 块 或 划分 整个 是 连续 
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的 ， 人们 也 开发 了 若干 编译 技术 来 自动 地 进行 数据 布局 ， 从 而 减少 伪 共享 (Jeremiassen and 
Eggers 1991). 

HH FARE et BEE EAS EY, ELPA AD E Ti] Jes BE D HE HEB 
据 传 送 时 用 大 的 存储 块 ， 但 在 一 致 性 管理 中 用 较 小 的 单位 。 一 种 自然 的 储 件 机 制 是 用 存储 子 
块 。 每 个 缓存 块 有 一 个 地 址 标记 ， 同 时 对 每 一 个 子 块 还 有 不 同 的 状态 位 。 一 个 子 块 可 能 是 有 
效 的 ， 而 其 他 的 子 块 同时 可 能 是 无 效 的 或 者 脏 的 。 这 种 技术 用 在 许多 单 处 理 器 系统 中 以 在 替 
换 时 减少 写 回 存储 器 的 数据 量 ， 或 者 在 读 扑 空 时 减少 存储 器 访问 时 间 (一 旦 有 关子 块 到 达 就 
重启 处 理 器 ， 称 为 关键 字 重启) 。 为 了 避免 伪 共 享 ， 一 个 处 理 器 所 做 的 写 操作 可 能 会 作废 另 
一 个 处 理 器 的 子 块 ， 但 保持 其 他 的 子 块 有 效 。 从 另 一 个 角度 来 实现 这 种 思路 ， 也 可 以 用 较 小 
的 缓存 ， 但 扑 空 发 生 时 系统 可 以 多 预 取 一 些 存储 块 。 还 有 人 提出 过 可 调整 块 大 小 缓存 的 建议 


设计 。 

一 种 更 精细 的 硬件 技术 是 延迟 从 一 个 处 理 器 发 出 的 作废 操作 的 传播 或 者 应 用 ， 等 着 有 多 
个 写 操作 后 一 起 来 作废 。 延 迟 作废 操作 ， 将 一 组 操作 集中 起 来 一 次 完成 ， 以 减少 对 那些 块 的 
干涉 读 扑 空 的 出 现 。 然 而 ， 这 种 技术 可 能 以 一 种 微妙 的 方式 改变 存储 器 同一 性 模型 。 在 第 9 
章 ， 当 我 们 考虑 可 扩展 机 器 的 弱 同 一 性 异型 的 时 候 ， 会 有 进一步 的 讨论 。 另 一 个 减少 僵 共 训 
的 硬件 技术 是 用 基于 更 新 的 协议 。 


5.4.5 基于 更 新 和 基于 作废 协议 的 对 比 


对 一 个 缓存 中 其 个 块 的 写 操作 应 该 引起 其 他 缓存 中 的 拷贝 更 新 还 是 作废 ”这 一 直 是 争论 
不 休 的 话题 。 不 同 的 厂家 有 不 同 的 态度 并 且 实 际 上 对 不 同 的 设计 用 了 不 同 的 做 法 。 这 种 矛盾 
的 起 因 是 由 于 基于 更 新 和 基于 作废 协议 的 相对 性 能 在 很 大 程度 上 取决 于 应 用 程序 负载 所 表现 
出 来 的 共享 的 模式 ， 以 及 各 种 背后 操作 的 代价 。 从 直觉 上 看 ， 如 果 处 理 器 在 更 新 之 前 使 用 数 
据 ， 并 可 能 希望 要 在 将 来 看 到 新 的 值 ， 更 新 就 会 比 作废 表现 出 更 好 的 性 能 。 然 而 ， 如 果 持 有 
老 数 据 的 处 理 器 再 也 不 会 用 它 了 ， 更 新 就 是 不 必要 的 ， 所 引起 的 流量 只 是 消耗 了 互 连 和 控制 
内 资源。 作废 则 会 清除 但 的 拷贝 ， 消 除了 明显 的 共享 ~-。 这 种 更 新 协议 的 “收集 鼠 ” 现 象 在 
多 道 程序 下 特别 令 人 难受 ， 串 行进 程 在 操作 系统 的 控制 下 在 处 理 器 之 间 迁 移 ， 于 是 无 用 的 更 
新 在 不 再 运行 该 进程 的 处 理 器 的 缓存 中 进行 。 如 例 5.12 所 示 ， 我 们 容易 构造 出 一 种 方案 明 
显 优 于 另 一 种 方案 的 情形 。 

例 5.12 考虑 下 述 两 个 程序 访问 模式 ， 

。 模式 1: ER kK; 处 理 器 1 向 变量 了 写 人 一 个 新 的 值 ， 处 理 器 2 到 处 理 器 从 P 
读 了 的 值 。 这 表现 了 一 种 单 生产 者 多 消费 者 机 制 可 能 出 现 的 情形 ， 例 如 ， 在 一 到 多 
事件 同步 中 处 理 器 访问 一 个 高 度 争 用 的 标记 变量 。 
模式 2: 重复 大 次 ; 处 理 器 1 向 变量 VV 写 WY 次 ， 然后 处 理 器 2 读 了 的 值 。 这 表示 了 
一 种 在 处 理 器 对 之 间 可 能 出 现 的 一 种 共享 模式 ， 其 中 第 一 个 处 理 器 连续 计算 并 累加 
一 个 变量 的 值 ， 当 累加 完成 后 ， 另 一 个 处 理 器 读 这 个 值 。 
用 缓存 扑 空 数 和 总 线 流 量 来 评价 ， 基 于 更 新 和 基于 作废 协议 的 相对 代价 是 什么 ? 假设 一 





〇 ”这 种 共享 是 不 必要 的 。 一 一 译 者 注 
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个 作废 /升级 过 程 要 消耗 6 个 字 节 (5 个 字 节 地 址 ，1 个 字 节 命令 )， 更 新 需 14 个 字 节 (6 个 
字 节 地 址 和 命令 ，8 个 字 节 为 更 新 的 数据 )， 且 一 个 常规 的 缓存 扑 空 要 70 个 字 节 (6 个 字 节 
地 址 和 命令 ， 加 上 64 个 字 节 的 数据 ， 对 应 一 个 缓存 块 )。 还 假设 P= 16. M=10. k= 10， 
所 有 缓存 最 初 都 是 空 的 。 

解答 : 对 于 模式 1 用 更 新 方案 ， 在 所 有 忆 个 处 理 器 上 的 第 一 次 迭代 将 引起 一 个 常规 的 
缓存 扑 空 〈 包 括 处 理 器 1 在 写 操作 的 时 候 ) 加 上 由 于 写 的 一 次 更 新 。 在 后 续 的 大- 1 次 迭代 
中 不 会 产生 更 多 的 扑 空 ， 并 且 每 次 迭代 只 有 一 次 更 新 产生 。 这 样 总体 上 将 看 到 扑 空 = P = 
16; 流量 = Px RdMiss+ (k-1) xUpdate=16x70+10x14=1260 字 节 。 

对 于 作废 方案 ， 所 有 已 个 处 理 器 在 第 一 次 迭代 将 引起 一 个 常规 缓存 扑 空 。 在 后 续 上 -1 
次 迭代 中 ,处 理 器 1 将 产生 一 次 升级 ， 但 所 有 其 他 的 处 理 器 将 经 历 一 次 读 扑 空 。 这 样 ， 将 升 
级 算 作 扑 空 ， 整 个 我 们 将 看 到 扑 空 =p+ (k-1) xp=16+9x16=160， 其 中 151 个 是 读 扑 
空 ，9 个 是 升级 ; 流量 = 读 扑 空 x RdMiss+ (k-1) x Upgrade =151x70+9x6=10 624 字 节 。 

对 于 模式 2 用 更 新 方案 ， 首 次 迭代 将 发 生 两 次 常规 缓存 扑 空 ， 处 理 器 1 一 次 ， 处 理 器 2 
一 次 。 在 后 续 -1 次 迭代 中 ， 将 没有 更 多 的 扑 空 产生 ， 但 在 每 次 迭代 会 产生 MM 次 更 新 。 这 
样 ， 总 体 上 我 们 将 看 到 扑 空 =2; 流量 =2x RdMiss+Mx (k-1) xUpdate =2x70+10x9x 
14= 1 400 字 节 。 

对 于 作废 方案 ， 首 次 迭代 将 发 生 两 次 常规 缓存 扑 空 。 在 后 续 有 -1 次 迭代 中 ， 每 次 和 迭代 
会 产生 一 次 升级 (对 于 第 一 个 写 ) 加 上 一 次 常规 读 扑 空 。 这 样 ， 将 升级 算 作 扑 空 ， 总 体 上 我 
们 将 看 到 扑 空 =2+ (k-1) x2=2+9=11; 流量 = 扑 空 x RdMiss + (k-1) x Upgrade = 11 
x70+9x6=824 F$., E 

这 些 例 子 说 明 ， 有 可 能 设计 出 方案 来 ,使 更 新 和 作废 协议 双方 的 优点 都 体现 出 来 。 这 样 
方案 的 成 功 将 取决 于 它们 的 代价 和 对 于 真实 并 行程 序 和 负载 的 共享 模式 。 我 们 下 面 先 简略 地 
探讨 一 下 设计 选项 ， 然 后 用 负载 驱动 方法 来 进行 评估 。 

1. 基于 更 新 和 基于 作废 协议 的 结合 

一 种 能 够 体现 两 种 类 型 协议 优点 的 方式 是 在 硬件 上 对 两 者 都 支持 ， 在 页 面 粒度 动态 决定 
对 给 定 的 一 个 页 一 致 性 是 通过 更 新 还 是 通过 作废 来 维护 。 关 于 协议 选择 的 决定 可 以 通过 系统 
调用 来 指出 。 这 种 方案 的 主要 优点 是 它们 相对 比较 容易 支持 ; 它们 利用 TLB 来 向 一 致 性 子 
系统 的 其 他 部 分 指明 用 哪 一 种 协议 。 这 种 方案 的 主要 缺点 是 它们 给 程序 员 增 加 了 为 页 或 者 数 
据 结构 选择 协议 的 负担 。 由 于 控制 的 粒度 较 粗 ， 也 使 得 这 种 决定 不 容易 作出 ， 因 为 适应 不 同 
协议 的 数据 结构 可 能 落 在 相同 的 页 面 上 。 

一 种 蔡 代 的 方法 是 通过 在 运行 时 观察 共享 的 行为 ， 在 缓存 块 的 粒度 来 选择 协议 。 理 想 情 
况 下 ， 对 每 一 个 写 ， 和 希望 能 够 看 到 未 来 所 有 处 理 器 要 对 当前 缓存 块 的 引用 ， 然 后 再 决定 是 否 
作废 其 他 的 拷贝 或 者 更 新 。 由 于 这 个 信息 显然 是 得 不 到 的 ， 还 由 于 有 缓存 替换 和 伪 共享 带 来 
的 严重 波动 ， 需 要 一 种 更 实际 的 方案 。 

所 谓 竞争 性 方案 ， 是 基于 运行 时 观察 到 的 模式 ， 从 硬件 上 在 作废 和 更 新 之 间 改 变 对 于 一 
个 存储 块 的 协议 。 这 种 方案 的 关键 属性 是 ， 如 果 对 一 个 缓存 块 作 了 错误 的 决定 ， 由 于 那个 错 
误 决 定 所 带 来 的 损失 应 该 保持 有 界 并 且 很 小 《Karin et al 1986)。 例 如 ， 如 果 一 个 块 当前 用 更 
新 模式 ， 一 旦 一 个 处 理 器 连续 向 它 写 ,但 没有 其 他 处 理 器 从 中 读 ， 它 就 不 应 该 保留 在 那个 模 
式 中 。 
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AAR, GER EEA, MÆ F (Grahn, Stenstrom and Dubois 1995), 
从 5.3.3 节 介 绍 的 基本 Dragon 更 新 协议 开始 ， 让 每 一 缓存 块 和 一 个 向 下 计数 器 联系 起 来 。 只 
要 一 个 缓存 块 被 本 地 处 理 器 访问 ， 那 一 块 的 计数 值 就 被 置 一 个 立 值 kt。 每 当 一 个 块 收 到 一 次 
更 新 ， 计 数 器 就 递减 。 如 果 计 数 器 到 了 0， 这 个 块 就 在 本 地 被 作废 。 本 地 作废 的 后 果 是 下 一 
次 一 个 更 新 在 总 线 上 产生 时 ， 它 可 能 找 不 到 持 有 一 个 有 效 拷贝 的 缓存 ;在 这 种 情形 ， 这 个 块 
将 切换 到 已 修改 状态 (如 Dragon 协议 那样 ) 并 且 将 停止 产生 更 新 。 如 果 现 在 某 个 其 他 处 理 器 
访问 这 一 块 ， 它 就 要 再 次 被 切换 到 共享 状态 ， 这 个 混合 协议 会 又 开始 产生 更 新 。 

一 个 在 Sun SparcCenter 2000 中 实现 的 相关 做 法 是 以 某 种 概率 有 选择 地 作废 ， 而 不 是 更 
新 ， 这 个 概率 是 在 配置 机 器 时 建立 的 〈Catanzaro 1997)。 还 可 以 有 一 些 其 他 混合 的 做 法 。 例 
如 ， 在 一 级 缓存 上 用 一 种 基于 作废 的 协议 ， 在 二 级 缓存 上 缺 省 地 用 基于 更 新 的 协议 。 然 而 ， 
如 果 对 于 一 级 缓存 中 的 一 个 有 效 块 二 级 缓存 收 到 了 第 二 次 更 新 ， 那 么 这 个 块 也 要 在 二 级 缓存 
中 作废 。 这 样 当 一 个 块 在 所 有 二 级 缓存 中 都 作废 时 ， 对 该 块 的 写 就 不 再 引起 更 新 。 

2. 利用 工作 负载 驱动 的 评估 

为 了 评价 我 们 前 面 介 绍 的 作废 ， 更 新 和 混合 协议 的 折 中 ， 图 5-27 按 类 表示 四 种 应 用 的 
扑 空 率 ,用 1 MB 四 路 组 相 联 缓存 和 64 字 节 的 块 。 所 用 的 混合 协议 是 刚才 描述 的 基于 阔 值 的 
方案 。 我 们 看 到 ， 对 于 明显 容量 性 扑 空 的 应 用 ， 扑 空 有 时 在 使 用 更 新 协议 时 增加 。 这 是 合乎 
情理 的 ， 因 为 这 个 协议 (用 LRU 替换 算法 ) 将 数据 保持 在 处 理 器 缓存 中 ， 那 些 数据 要 被 作 
废 协议 去 掉 。 对 于 那些 具有 了 明显 真 共享 或 者 伪 共享 扑 空 率 的 应 用 程序 ， 这 些 类 别 随 着 更 新 协 
议 减少 : 在 一 个 写 更 新 后 ， 持 有 该 块 的 其 他 的 缓存 能 够 访问 它们 而 不 会 扑 空 。 从 总 体 上 看 ， 
对 于 这 三 种 情形 来 说 更 新 协议 看 起 来 是 优越 的 ， 而 混合 协议 的 优越 性 居中 。 然 而 ， 那 种 没有 显 
不 在 这 个 图 中 的 类 型 是 对 于 这 些 协 议 的 升级 或 者 更 新 操作 。 这 个 数据 表示 在 图 5-28 中 。 注 意 ， 
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图 5-27 扑 空 率 及 其 在 作废 ,更 新 和 混合 协议 上 的 分 解 。 这 里 的 数据 假设 
1 MB 缓存 、64 字 节 缓 存 块 、4 路 组 相 联 、 对 混合 协议 阐 值 =4 
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图 5-28 作废 、 更 新 协议 和 混合 协议 上 的 升级 和 更 新 率 。 这 里 的 数据 假设 1 MB 缓存 ，64 字 
节 缓 存 块 、4 路 组 相 联 、 对 混合 协议 阔 值 上 = 4。 数 据 率 是 相对 于 总 的 存储 访问 数 


由 于 更 新 操作 大 概 4 倍 于 扑 空 ， 这 些 图 的 比例 已 经 改变 了 。 由 于 在 机 器 中 处 理 它们 的 方式 可 
能 不 同 ， 将 这 些 操 作 和 其 他 扑 空 分别 开 来 是 有 用 的 。 更 新 是 一 个 单字 的 写 操 作 ， 而 不 是 整个 
缓存 块 的 传送 。 因 为 数据 是 从 它 所 产生 的 地 方 被 推出 来 的 ， 它 可 能 在 被 需要 之 前 到 达 消费 
者 。 即 使 对 于 生产 者 来 说 ， 更 新 和 升级 操作 的 时 延 和 扑 空 的 时 延 相 比 ， 可 能 不 那么 关键 ， 这 
是 因为 它 很 容易 被 安排 在 处 理 器 的 关键 路 径 之 外 ( 见 第 11 章 )。 

不 幸 的 是 ， 和 更 新 相 联 的 流量 是 相当 大 的 。 这 主要 是 由 于 同一 个 处 理 器 对 相同 的 块 在 一 
个 读 之 前 发 出 的 多 个 写 操 作 都 要 产生 更 新 。 而 对 作废 协议 来 说 ， 第 一 个 写 可 能 引起 作废 ， 但 
其 他 的 可 以 简单 地 累积 在 本 地 块 中 ， 在 回 写 或 者 向 别 的 缓存 提供 数据 时 以 一 次 总 线 事务 传送 
完成 〈 见 例 5.12)。 这 种 增加 的 流量 引起 冲突 ， 能 够 大 大 增加 扑 空 的 代价 。 复 杂 的 更 新 方案 
可 能 试图 延迟 更 新 的 时 机 ， 以 取得 一 种 类 似 的 效果 〈 通 过 合并 写 缓冲 中 的 写 操作 ) 或 者 用 其 
他 的 技术 来 减少 流量 和 改进 性 能 (Dahlgren 1995)。 然 而 ， 所 增加 的 带宽 要 求 支持 更 新 所 带 来 
的 复杂 性 、 缓 存 块 变 大 的 趋势 ， 以 及 多 道 顺序 程序 负载 的 收集 鼠 现 象 ， 使 得 基于 更 新 的 协议 
在 业界 用 得 越 来 越 少 。 我 们 在 第 8 章 会 看 到 ， 更 新 协议 对 于 可 扩展 缓存 一 致 性 系统 结构 还 有 
一 些 其 他 的 问题 ， 这 进一步 使 得 它 对 多 处 理 器 系统 设计 者 的 吸引 力 越 来 越 低 。 

讨论 了 如 何 保持 数据 的 一 致 性 ， 我 们 现在 来 考虑 在 基于 总 线 的 多 处 理 器 中 同步 是 如 何 管 
理 的 。 


5.5 同步 


在 多 处 理 器 中 ， 硬 件 和 软件 一 种 关键 的 相互 作用 表现 在 对 同步 操作 的 支持 上 。 同 步 操作 
包含 互 矿 、 点 对 点 事件 和 全 局 事件 。 在 过 去 的 若干 年 里 ， 关 于 要 多 少 硬件 支持 以 及 到 底 应 该 
提供 什么 样 的 硬件 原 语 来 支持 这 些 同步 操作 ， 有 相当 多 的 争论 。 而 且 结 论 不 仅 随时 间 变化 ， 
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还 随 技 术 工 艺 和 设计 风格 的 变化 而 变化 。 硬 件 支持 有 速度 的 优越 性 ， 但 将 功能 由 软件 实现 在 
代价 、 灵 活性 和 对 不 同情 况 的 适应 性 方面 有 优越 性 ，Dijkstra (1965) 和 Knuth (1966) 的 经 
典 工 作 表明 ， 只 通过 原子 性 的 读 和 写 操 作 就 能 够 提供 互 斥 〈 假 设 一 个 顺序 同一 的 存储 器 )。 
然而 ， 所 有 实际 应 用 中 的 同步 方法 都 依赖 于 某 种 原子 性 读 - 改 - 写 操作 的 硬件 支持 ， 其 中 一 
个 存储 单元 的 值 的 读 、 修 改 和 写 回 被 原子 性 地 完成 ， 中 间 没 有 其 他 处 理 器 对 该 单元 的 访问 。 
从 简单 到 复杂 的 各 种 同步 算法 都 可 以 通过 软件 用 这 样 的 原 语 来 实现 。 

指令 集 的 历史 也 给 我 们 提供 了 硬件 对 同步 支持 的 演化 过 程 。 在 [BM370 指令 集中 的 一 个 
关键 的 增强 就 是 包含 了 一 个 复杂 的 原子 指令 (比较 并 交换 指令 ) 来 在 单 处 理 器 或 者 多 处 理 器 
系统 支持 并 发 程序 设计 中 的 同步 。 这 种 比较 并 交换 指令 将 一 个 存储 单元 的 值 和 一 个 寄存 器 的 
值 对 比 ， 如 果 相 等 ， 则 将 该 存储 单元 的 值 和 另 一 个 寄存 器 的 值 交换 。Intel x86 允许 给 任何 指 
令 设 置 一 个 前 缕 ， 相 当 于 加 锁 ， 使 它 成 为 原子 性 的 ; 由 于 源 和 目的 操作 数 是 存储 单元 ， 许 多 
这 样 的 指令 能 用 来 实现 各 种 原子 操作 ， 甚 至 涉及 到 不 只 一 个 存储 单元 。 高 级 语言 系统 结构 的 
支持 者 们 还 提出 了 用 户 层次 的 同步 操作 〈 倒 如 锁 和 顶 障 ) 也 应 该 直接 由 硬件 来 支持 ， 而 不 仅 
是 原子 性 的 读 - 改 - 写 原 语 ; 这 就 是 说 ， 同 步 “ 算 法 ”本 身 应 该 由 硬件 实现 。 对 于 这 个 问 
题 ， 在 精简 指令 集 的 讨论 中 是 很 活跃 的 ， 主 要 由 于 RISC 中 存储 访问 的 操作 只 涉及 一 个 存储 
操作 数 的 简单 的 装 人 和 存放 。Spare 的 方法 是 提供 涉及 寄存 器 和 一 个 存储 单元 的 原子 操作 ， 
用 一 个 简单 的 交换 〈 将 寄存 器 内 容 和 存储 单元 内 容 原子 性 交换 ) 和 比较 并 交换 。MIPS 在 时 
期 的 指令 集中 没有 安排 原子 性 原 语 ，IBM 的 Power 最 初 在 RS6000 也 是 如 此 ， 最 终 包含 到 
MIPS 中 的 原 语 是 一 个 新 颖 的 组 合 ， 涉 及 一 个 特别 的 装 和 信和 一 个 条 件 存放 ， 将 在 本 节 后 面 讨 
论 ， 它 使 得 各 种 高 层次 的 读 - 改 - 写 操作 都 可 以 形成 ， 不 需要 硬件 一 个 个 实现 它们 。 从 本 质 上 
讲 ， 这 一 对 指令 ， 而 不 是 单个 指令 能 用 来 实现 原子 性 的 交换 或 者 更 复杂 些 的 原子 操作 。 这 种 
做 法 后 来 也 被 PowerPC 和 DEC Alpha 系统 结构 采用 ， 现 在 是 相当 流行 的 ， 如 周 我 们 将 要 看 到 
的 那样 ,同步 引出 了 一 系列 路 通信 体系 结构 各 个 层次 的 折 中 。 不 仅 许多 高 层 的 操作 和 低层 的 
原 语 能 由 硬件 来 实现 ， 应 用 所 提出 的 同步 要 求 也 是 变化 很 大 的 。 

本 节 的 要 点 是 讨论 同步 操作 如 何 能 通过 软件 算法 和 硬件 原 语 的 组 合 ， 存 一 种 基于 总 线 的 
缓存 一 致 的 多 处 理 器 上 实现 。 特 别 地 ， 讨 论 互 斥 的 实现 ， 通 过 加 锁 - 解 锁 对 ， 通 过 标记 实现 
点 对 点 事件 同步 ， 通 过 栅 障 实现 全 局 事件 同步 。 计 我 们 从 考虑 同步 事件 的 各 个 成 分 升 始 。 这 
将 清楚 地 表明 在 硬件 直接 支持 高 层 互 斥 和 事件 操作 是 困难 的 ， 而 且 可 能 使 得 实现 很 不 灵活 。 
然后 ， 给 定 硬 件 只 对 最 基本 的 原子 操作 提供 支持 ， 我 们 能 够 考察 用 户 软件 和 系统 软件 在 同步 
操作 中 的 作用 ， 最 后 较 详细 地 考虑 硬件 和 软件 的 设计 权衡 ， 


5.5.1 同步 事件 的 组 成 部 分 


一 个 同步 事件 主要 由 三 个 成 分 组 成 : 

1) 获取 方法 : 指 的 是 进程 用 来 获得 同步 权 的 方式 (这 里 “同步 ”包括 进入 临界 区 或 者 
向 前 推进 ， 以 通过 事件 同步 机 构 )。 

2) 等 待 算 法 : 这 是 进程 用 来 等 待 同步 可 用 的 方法 ; 例如 ， 如 果 一 个 进程 试图 获取 一 把 
锁 但 该 锁 被 别 的 进程 占有 着 ,或 者 想 推进 通过 一 个 事件 但 事件 还 没有 发 生 。 

3) 释放 方法 : 这 是 进程 用 来 使 其 他 进程 推进 通过 一 个 同步 事件 的 方法 ; BA, Unlock 
操作 的 一 种 实现 ， 最 后 到 达 栅 障 的 进程 释放 等 待 进程 的 方法 ， 或 者 是 通知 一 个 等 待 在 点 对 点 
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事件 上 的 进程 事件 已 经 到 达 的 方法 。 

等 待 算法 的 选择 基本 上 是 独立 于 同步 类 型 的 。 有 两 种 主要 的 选择 : 忙 等 待 和 阻塞 。 忙 等 
待 意味 着 进程 在 一 个 循环 中 不 断 测 试 某 个 变量 是 否 改 变 了 值 。 由 另 一 个 进程 做 的 同步 事件 的 
释放 改变 这 个 变量 的 值 ， 让 等 待 进程 可 以 向 前 推进 。 在 租 塞 情形 ， 进 程 不 执行 循环 ， 而 是 简 
单 地 阻塞 ( 挂 起 ) 它 自己 ， 如 果 需 要 等 待 的 话 ， 还 要 释放 处 理 器 。 当 它 所 等 待 的 释放 信号 出 
现时 ， 它 将 被 唤醒 并 且 进 入 就 绪 状 态 。 忙 等 待 和 阻塞 相 比 的 利弊 是 显而易见 的 。 阻 塞 的 开销 
较 大 ， 这 是 由 于 挂 起 和 重启 一 个 进程 涉及 到 操作 系统 ( 挂 起 和 重启 一 个 线程 涉及 一 个 线程 包 
的 运行 支持 )， 但 这 种 做 法 使 得 处 理 器 能 为 其 他 进程 或 线程 所 用 。 忙 等 待 避 免 了 挂 起 的 开销 ， 
但 在 等 待 时 消耗 了 处 理 器 和 缓存 带宽 资源 。 阻 塞 机 制 的 功能 要 比 忙 等 待 强 ， 这 是 因为 如 果 不 
允许 正在 等 待 的 进程 或 者 线程 运行 ， 忙 等 待 就 永远 不 会 结束 ?。 在 等 待 周 期 比较 短 的 场合 ， 
忙 等 待 可 能 会 好 一 些 ， 而 如 果 等 待 时 间 比 较 长 或 者 还 有 其 他 进程 要 运行 ,阻塞 可 能 是 一 种 更 
好 的 选择 。 也 可 以 用 一 些 混合 的 方法 ， 例 如 让 进程 忙 等 待 一 会 儿 ， 如 果 超 出 了 某 个 时 间 阅 
值 ， 进 程 就 阻塞 ， 让 其 他 进程 投入 运行 〈 一 种 两 阶段 等 待 算法 )。 

用 硬件 实现 高 层 同步 操作 的 困难 不 在 于 获取 或 释放 部 分 ， 而 在 于 等 待 算法 。 这 样 ， 对 于 
获取 和 释放 方法 的 关键 之 处 在 于 提供 硬件 支持 ， 而 用 软件 将 三 者 结合 起 来 是 有 道理 的 。 不 
过 ， 如 何 从 硬件 /软件 相互 作用 方面 实现 忙 等 待 中 的 循环 操作 仍然 留 有 微妙 但 十 分 重要 的 
问题 。 


5.5.2 用 户 和 系统 的 角色 


谁 应 该 负责 实现 诸如 锁 和 栅 障 之 类 高 层 同 步 操 作 的 具体 内 容 ? 典型 地 ， 程 序 员 要 用 锁 、 
事件 或 者 更 高 层 的 操作 ， 而 不 需要 关心 它们 的 内 部 实现 。 实 现 留 给 系统 ， 系 统 来 决定 提供 多 
少 硬件 支持 ， 哪 些 功能 用 软件 来 实现 。 人 们 已 经 开发 出 了 利用 简单 原子 交换 原 语 的 软件 同步 
算法 ， 其 性 能 可 以 和 全 硬件 实现 相 媲美 ， 而 且 它 们 所 带 来 的 灵活 性 和 对 硬件 的 简化 是 很 有 吸 
引力 的 。 和 系统 设计 的 其 他 方面 一 样 ， 由 硬件 提供 更 快 操作 的 实用 性 取决 于 这 些 操作 在 应 用 
中 出 现 的 频 度 。 这 样 ， 我 们 又 一 次 体会 到 最 好 的 答案 的 作出 在 于 对 应 用 行为 的 最 好 的 理解 。 

同步 构造 的 软件 实现 通常 包含 在 系统 库 中 。 好 的 同步 库 设计 是 相当 具有 挑战 性 的 。 一 种 
淘 在 的 复杂 因素 在 于 同一 种 同步 〈 锁 ， 栅 障 ) ， 甚 至 相同 的 同步 变量 ， 可 能 在 不 同 的 时 间 用 
于 非常 不 同 的 运行 条 件 。 例 如 ， 对 一 把 锁 的 访问 可 能 是 低 冲突 的 〈 较 少 的 处 理 器 ， 其 中 可 能 
只 有 一 个 在 同一 时 间 试 图 获取 这 把 锁 ) ， 也 可 能 是 高 冲突 的 〈 许 多 处 理 器 同时 试图 获取 这 把 
锁 )。 不 同 的 情形 提出 了 不 同 的 性 能 要 求 。 在 高 争 用 情况 下 ， 大 多 数 进程 将 等 待 一 段 时间 ， 
对 锁 算法 一 个 关键 的 需求 是 要 提供 高 的 加 锁 - 开锁 传送 带宽 ;在 低 争 用 的 情况 ， 关 键 目 标 是 
对 锁 的 获取 提供 低 延 迟 。 不 同 的 算法 可 能 更 好 地 满足 不 同 的 需求 ， 于 是 我 们 必须 或 者 找到 -- 
个 好 的 折 中 算法 ， 或 者 对 不 同 的 同步 提供 不 同 的 算法 供用 户 选择 。 如 果 我 们 运气 好 ， 一 种 灵 
活 的 库 可 能 在 运行 时 根据 具体 情况 ， 选 择 最 好 的 实现 。 不 同 的 同步 算法 也 可 能 依赖 于 不 同 的 
基本 硬件 原 语 ， 这 样 ， 某 些 算法 可 能 特别 适合 一 个 特定 的 机 器 ， 而 对 其 他 机 器 并 不 适合 。 
多 道 程序 情况 下 ， 进 程 调度 和 其 他 资源 交互 可 能 改变 并 行程 序 中 进程 的 同步 行为 。 和 在 专用 条 





@ ”这 种 进程 或 线程 得 不 到 资源 的 问题 在 多 处 理 器 情形 实际 上 要 简单 些 。 当 进 程 在 一 个 处 理 器 上 分 时 的 情况 下 ， 没 
有 强占 的 已 等 待 肯定 是 个 问题 。 如 果 每 个 进程 或 线程 有 它 自己 的 处 理 器 ， 就 肯定 没有 问题 。 在 多 处 理 器 上 的 多 
道 程序 环境 可 以 看 作 是 在 上 述 两 种 情况 之 间 。 
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件 下 表现 出 低 时 延 高 带宽 的 简单 算法 相 比 ， 考 虑 到 多 道 程序 效果 的 复杂 算法 可 能 在 实践 中 给 
出 更 好 的 性 能 。 所 有 这 些 因素 使 得 同步 成 为 硬件 /软件 相互 作用 的 一 个 焦点 。 


5.5.3 互 斥 


有 许多 算法 可 用 于 实现 互 斥 〈 加 锁 -开锁 ) 操作 。 简 单 的 算法 通常 在 对 锁 的 争 用 很 小 的 
情况 下 是 快 的 ,但 在 高 争 用 情况 下 则 效率 不 高 ， 而 复杂 的 算法 对 于 争 用 处 理 得 较 好 ， 但 在 低 
争 用 时 的 代价 较 高 。 在 关于 硬件 锁 的 一 个 简略 讨论 后 ， 本 节 描 述 基于 存储 器 的 一 个 最 简单 的 
软件 锁 算法 ， 该 算法 用 了 一 种 原子 交换 指令 。 之 后 ， 我 们 讨论 这 些 简 单 的 算法 如 何 可 以 不 用 
原子 性 交换 指令 ， 而 用 专门 的 装载 -加 锁 和 条 件 存 储 指令 对 来 实现 ， 以 及 有 关 的 利 次 。 然 后 ， 
我 们 会 看 看 更 复杂 一 些 的 算法 ， 它 们 都 可 以 用 上 述 任何 实现 原子 操作 的 方法 来 构成 。 

1. 硬件 锁 

尽管 目前 锁 操 作 在 基于 总 线 的 机 器 上 不 那么 流行 ， 但 锁 操 作 能 够 完全 用 硬件 支持 。 在 某 
些 较 老 的 机 器 上 ， 一 种 做 法 是 在 总 线 上 用 一 组 锁 线 路 ， 其 中 每 一 条 线 代 表 一 把 锁 。 持 有 锁 的 
处 理 器 负责 设置 该 线 的 相应 状态 ， 等 待 该 锁 的 处 理 器 要 等 待 这 条 线 的 释放 。 当 有 多 个 请 求 者 
时 ， 一 种 优先 级 线路 决定 下 一 次 该 哪个 处 理 器 得 到 这 把 锁 。 然 而 ， 这 种 做 法 相当 不 灵活 ， 因 
为 在 同一 时 间 只 有 一 个 有 限量 的 锁 可 用 ， 并 且 等 待 算法 是 固定 的 〈 典 型 的 是 某 种 形式 的 忙 等 
待 ， 超 时 放弃 控制 )。 通 常 ， 只 是 操作 系统 为 一 些 特定 的 目的 用 这 些 硬 件 锁 ， 这 些 目的 之 一 
就 是 在 存储 器 中 实现 大 量 的 软件 锁 。CRAY Xmp 用 的 就 是 这 种 做 法 的 一 种 有 趣 的 变形 。 一 -组 
寄存 器 在 处 理 器 之 间 共 享 ， 包 括 若 于 固定 数量 的 锁 寄存 器 。 尽 管 体 系 结构 使 得 将 寄存 器 分 给 
用 户 进程 成 为 可 能 ， 但 这 样 的 寄存 器 太 少 ， 在 一 种 通用 计算 环境 下 这 样 做 很 不 方便 ， 因 此 在 
实践 中 这 些 锁 寄存 器 主要 用 来 在 存储 器 中 实现 高 层 的 锁 。 

2. 简单 的 软件 锁 算 法 

考虑 一 种 为 一 个 临界 区 代码 提供 原子 性 的 锁 操 作 。 对 于 其 获取 方法 ， 一 个 试图 获得 一 把 
锁 的 进程 必须 检测 锁 是 否 是 自由 的 ; 如 果 是 的 话 ， 还 要 声明 对 于 该 锁 的 占有 权 。 锁 的 状态 可 
以 存在 于 一 个 二 进 制 变量 中 ，0 表示 自由 ，1 表示 忙 。 考 虑 锁 的 获取 操作 的 一 种 简单 方法 是 ， 
试图 获得 该 锁 的 进程 应 该 检测 这 个 变量 是 否 为 0， 若是 则 将 它 置 1， 这 样 就 将 该 锁 标 为 忙 ; 
如 果 是 1〈 忙 )， 则 进程 应 该 按照 一 定 的 等 待 算法 等 待 该 变量 变 成 0。 解锁 (开锁 ) 操作 应 该 
简单 地 将 该 变量 置 0 (释放 方法 )。 下 面 是 试图 实现 上 述 想 法 的 汇编 层次 的 指令 。( 在 我 们 的 
伪 汇 编 记号 中 ， 如 果 有 第 一 个 操作 数 ， 则 它 总 表示 操作 的 结果 。) 


lock: lā register, location /*copy location to register*/ 








cmp register, #0 /*compare with 0*/ 
bnz lock /*if not 0, try again*/ 
st location, #1 /*store 1 into location to mark it locked*/ 
ret /*retum control to caller of lock*/ 
and 
unlock: st location, #0 /*write 0 to location*/ 
ret /*return control to caller*/ 


这 个 锁 过 程 要 为 它 后 面 的 临界 区 提供 原子 性 ， 但 它 自己 却 保证 不 了 自己 的 原子 性 。 为 认 
识 到 这 一 点 ， 假 定 锁 变 量 最 初 为 0， 两 个 进程 P 和 P 执行 上 面 的 锁 操 作 。 进 程 p) 污 到 了 0， 
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认为 锁 是 自由 的 ， 于 是 它 通 过 了 转移 指令 。 它 的 下 一 步 是 置 该 变量 为 1， 将 它 标记 为 忙 ; 但 
在 它 做 这 件 事 之 前 ， 进 程 P 读 到 了 变量 为 90， 认为 锁 是 自由 的 ， 也 通过 了 转移 指令 。 于 是 我 
们 现在 有 了 两 个 进程 ， 同 时 通过 了 锁 ， 进 入 到 同一 个 临界 区 ， 但 这 正 是 我 们 希望 用 锁 来 避免 
的 。 让 存储 指令 紧 跟 着 装载 指令 也 无 济 于 事 。 由 两 个 指令 构成 的 序列 一 一 读 (测试 ) 锁 变量 
的 值 以 检测 它 的 状态 ， 若 它 是 自由 的 则 向 它 写 (E) 1 一 一 不 是 原子 性 的 ， 并 且 没 有 任何 措 
施 来 防止 这 些 操作 在 不 同 的 进程 中 交织 执行 。 我 们 需要 的 是 一 种 方法 ， 它 可 以 原子 性 地 测试 
一 个 变量 的 值 ， 并 且 如 果 测 试 成 功 就 将 它 置 成 另 一 个 值 〈 即 ， 原 子 性 地 读 并 且 有 条 件 地 修改 
一 个 存储 单元 )， 并 且 然 后 无 论 这 个 原子 序列 执行 成 功 与 否 都 要 返回 。 向 用 户 进 程 提供 这 种 
原子 性 的 一 种 方式 是 将 锁 代码 放 在 操作 系统 中 ， 通 过 一 个 系统 调用 来 访问 它 ， 但 这 种 开销 很 
大 并 且 操 作 系统 自己 怎么 支持 锁 也 是 个 问题 。 另 一 种 可 能 性 是 在 锁 代 码 序列 前 后 用 一 把 硬件 
锁 ， 但 这 要 求 有 硬件 锁 ， 并 且 在 现代 处 理 器 上 显得 慢 。 

对 于 这 种 锁 问 题 ， 一 种 高 效 的 通用 解决 方案 是 在 处 理 器 的 指令 集合 中 支持 一 种 原子 性 的 
读 -修改 - 写 指令 。 典 型 的 做 法 有 一 种 原子 交换 指令 ， 由 指令 给 出 的 一 个 存储 单元 的 值 被 读 到 
一 个 寄存 器 中 ， 并 且 另 一 个 值 被 写 到 该 单元 中 。 操 作 是 原子 性 的 ， 其 间 不 允许 有 其 他 对 该 单 
元 的 访问 、 这 种 操作 有 许多 变形 ,通过 所 存储 的 值 的 特点 提供 不 同 的 灵活 性 。 一 种 适用 于 互 
斥 的 简单 例子 是 测试 并 设置 指令 。 在 这 种 情况 下 ， 存 储 单元 的 值 被 读 到 一 个 特殊 的 寄存 器 ， 
同时 常数 1 被 写 人 该 单元 ， 操 作 原 子 性 完成 。 这 种 测试 并 设置 指令 的 成 功 通过 考察 寄存 器 中 
的 值 来 确定 。 如 果 是 0， 则 指令 成 功 。 如 果 是 1， 就 是 不 成 功 的; 由 这 测试 并 设置 指令 写 入 
存储 器 的 1 和 其 中 原 有 的 值 是 相同 的 ， 因 此 也 没什么 害处 (1 和 0 是 典型 值 ， 其 他 常数 也 是 
可 用 的 )。 给 定 这 样 一 条 指令 ， 记 为 t&s， 可 以 写 出 如 下 加 锁 和 解锁 代码 : 


lock: t&s register, location 
/*copy location to reg, and set location to 1*/ 
bnz register, lock /*compare old value returned with 0*/ 
/*if not 0, i.e., lock already busy, so try again*/ 





ret /*return control to caller of lock*/ 
和 
unlock:st location, #0 /*write 0 to location*/ 
ret /*return control to caller*/ 


在 这 种 锁 的 实现 中 ， 程 序 不 断 试 着 用 测试 并 设置 指令 来 获取 该 锁 ， 直 到 寄存 器 中 出 现 由 
测试 并 设置 留 下 的 0 值 ， 表 示 在 测试 的 时 候 锁 是 自由 的 (当时 测试 并 设置 指令 也 将 存储 单元 
置 1 了 ， 从 而 获得 了 它 )。 解 锁 操作 简单 地 将 和 锁 相 连 的 存储 单元 置 0， 指 出 这 把 锁 现 在 自 
由 了 ， 从 而 使 得 任何 进程 在 其 后 的 锁 操 作 能 成 功 。 一 种 简单 的 互 斥 结构 于 是 用 软件 实现 了 ， 
依赖 的 硬件 支持 是 一 条 原子 性 的 测试 并 设置 指令 。 

这 种 原子 性 指令 还 有 一 些 更 复杂 的 变形 ， 如 我 们 将 会 看 到 的 ， 它 们 在 不 同 的 软件 同步 算 
法 中 可 能 用 到 。 一 个 例子 是 交换 指令 。 像 测试 并 设置 指令 一 样 ， 这 种 指令 将 特定 存储 单元 的 
值 读 人 特定 的 寄存 器 ， 但 将 该 寄存 器 开始 的 任意 值 写 到 该 存储 单元 中 。 也 就 是 说 ， 指 令 将 存 
储 单元 和 寄存 器 的 值 做 了 交换 。 很 清楚 ， 用 交换 指令 可 以 像 前 面 一 样 来 实现 一 把 锁 ， 只 要 我 
们 用 0 和 1 并且 保证 寄存 器 的 值 在 交换 指令 执行 前 为 1; 如 果 由 交换 指令 留 在 寄存 器 中 的 值 
为 0， 则 加 锁 成 功 。 

男 一 个 例子 是 一 类 取 并 操作 (fetch&op) 指令 。 这 样 的 指令 也 是 指定 一 个 存储 单元 和 -- 











338 


339 


246 HA tt ERA AEH 





个 寄存 器 。 它 原子 性 地 将 存储 单元 的 值 读 入 寄存 器 并 且 将 一 个 值 (由 这 个 取 并 操作 指令 指定 
的 一 个 操作 ， 作 用 在 读 出 来 的 值 所 产生 的 ) 写 入 该 单元 。 取 并 操作 指令 的 最 简单 形式 是 取 并 
加 1 (fetch & increment) 和 取 并 减 1 (fetch & decrement), ， 将 当前 值 增 减 1。 取 并 加 (fetch & 
add) 指令 则 用 另外 一 个 操作 数 ， 可 能 来 源 于 一 个 寄存 器 或 者 立即 数 ， 加 到 该 单元 先前 的 值 
上 去 。 一 种 更 复杂 的 原 语 是 比较 并 交换 (compare & swap) 指令 。 它 取 两 个 寄存 器 和 一 个 存 
储 单元 〈 即 ， 它 是 一 个 3 操作 数 指令 ，RISC 体系 结构 通常 不 支持 ); 它 将 存储 单元 的 值 和 第 
一 个 寄存 器 比较 ， 如 果 相 等 ， 就 将 存储 单元 内 容 和 第 二 个 寄存 器 内 容 交 换 。 

3. 简单 锁 的 性 能 

图 5-29 示 出 SGI Challenge” 中 的 一 种 简单 的 测试 并 设置 锁 的 性 能 。 性 能 是 通过 在 一 个 循 
环 中 重复 执行 下 述 微 测试 程序 来 得 到 的 : 

lock(L); 


critical~section(c); 
unlock(L); 








20 






Test&set, c=0 
Test&set, 指数 级 回 垦 ,c=3. 64 
Test&set, 指数 级 回 退 ,c=0 

理想 情况 










bet 





时 间 (us) 


处 理 器 数目 


图 5-29 在 SGI Challenge 上 ， 随 处 理 器 个 数 的 增加 ， 一 种 综合 测试 并 设置 (test & set) 
锁 的 性 能 。y 轴 是 每 加 锁 - 解锁 操作 对 所 花 的 时 间 ， 不 包括 临界 区 中 的 < 微 秒 
延迟 。 最 上 面 一 条 曲线 的 非 规 则 性 是 由 于 处 理 器 的 争 用 对 时 间 的 依赖 性 所 引起 的 





O ”事实 上 ， 用 于 本 章 来 说 明 同 步 性 能 的 SGI Challenge 上 的 处 理 器 并 不 提供 测试 并 设置 指令 。 它 所 用 的 是 另外 一 种 
原 语 ， 本 节 后 面 将 会 谈 到 。 对 于 这 些 实验 来 说 ， 我 们 用 其 他 一 些 原 语 综 合 出 一 种 在 行为 上 类 似 于 测试 并 设置 指 
令 的 实现 。 关 于 一 些 较 早 的 机 器 ， 例 如 Sequent Symmetry， 人 们 得 到 过 用 基于 真实 测试 并 设置 指令 构成 的 锁 的 结 
果 (Granuke and Thakkar 1990; Mellor-Crummey and Scott 1991), 
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其 中 c 是 一 个 延迟 参数 ， 决 定 临 界 区 的 大 小 〈 这 里 它 只 是 一 个 延迟 ， 不 做 什么 实际 的 
事情 )。 这 个 测试 程序 的 配置 使 得 无 论处 理 器 的 个 数 多 少 ， 锁 调用 的 总 数 不 变 ， 这 对 应 于 一 
个 国定 的 任务 数 在 一 个 集中 式 的 任务 队列 中 要 被 处 理 ， 独 立 于 参与 工作 的 处 理 器 的 个 数 。 人 性 
能 评价 的 单位 是 每 次 锁 的 传递 所 花 的 时 间 ， 即 所 有 处 理 器 执行 这 个 测试 程序 所 花 的 总 时 间 除 
以 锁 被 获得 的 次 数 。 在 临界 区 中 所 花 的 总 时 间 ( 即 co 乘 以 锁 被 获得 的 次 数 ) 要 从 总 执行 时 
间 中 减 掉 ， 从 而 得 到 锁 传递 所 花 的 时 间 (也 就 是 包括 了 锁 操 作 引 起 的 竞争 )。 所 有 测量 单位 
为 [So 

图 5-29 中 上 面 的 曲线 是 用 测试 并 设置 锁 、 临 界 区 很 小 的 情况 〈 暂 时 忽略 带 有 回 退 的 曲 
线 )。 理 想 情况 下 ， 我 们 希望 看 到 每 次 获取 锁 的 时 间 独 立 于 参与 竞争 的 处 理 器 的 个 数 ， 每 次 





示 了 性 能 随处 理 器 个 数 的 增加 而 降低 。 

这 里 的 问题 在 于 等 待 方法 期 间 所 产生 的 流量 : 每 次 试图 测试 锁 是 否 自 由 ， 无 论 成 功 与 
否 ， 都 产生 一 个 对 于 含有 该 锁 变 量 的 缓存 块 的 写 操作 (由 于 它 用 一 个 测试 并 设置 指令 ， 向 该 
单元 写 1); 由 于 这 个 块 当前 在 某 个 别 的 处 理 器 的 缓存 中 ( 当 它 做 测试 并 设置 时 向 该 块 写 过 
后 )， 于 是 每 一 个 写 产 生 一 个 总 线 事务 来 作废 该 块 先前 的 拥有 者 。 这 样 ， 所 有 处 理 器 不 断 发 
出 总 线 事务 ， 黄 至 在 等 待 算法 期 间 也 消耗 珍贵 的 总 线 带 宽 。 随 着 处 理 器 数 的 增加 ， 从 而 也 是 
测试 并 设置 指令 和 总 线 过 程 的 频 度 增加 ， 所 导致 的 竞争 大 大 减 慢 了 锁 的 转移 。 在 实际 中 ， 它 
将 影响 在 临界 区 中 所 做 的 工作 。 在 总 线 上 的 大 量 竞争 以 及 所 导致 的 获得 锁 的 时 间 依 赖 性 引起 
测试 时 间 随 处 理 器 数 ， 甚 至 同样 的 处 理 器 数 但 不 同 的 执行 实例 ， 大 幅度 的 变化 。 图 5-29 中 
所 表现 的 是 一 组 特殊 的 、 有 代表 性 的 执行 ， 针 对 不 同 的 处 理 器 数 的 结果 。 

4. 简单 锁 算 法 的 增强 

我 们 可 以 通过 两 个 简单 的 措施 来 减缓 这 种 流量 。 首 先 ， 我 们 可 以 减少 进程 在 等 待 时 发 出 
测试 并 设置 指令 的 频率 ; 其次， 我 们 可 以 让 进程 只 是 在 读 操 作 时 从 等 待 ， 这 样 在 锁 被 释放 前 
它们 就 不 产生 作废 和 扑 空 。 这 两 种 做 法 称 为 带 有 回 退 (backoff) 的 测试 并 设置 锁 和 测试 -测试 
并 设置 〈test- and -test & set) 锁 。 

带 有 回 退 的 测试 并 设置 锁 回 退 的 基本 思想 是 让 进程 在 一 次 试图 获取 锁 的 操作 失败 后 插 
人 一 个 延迟 。 在 测试 并 设置 指令 之 间 的 延迟 不 可 以 太 长 ; 否则 当 锁 自由 了 ， 处 理 器 还 可 能 处 
于 空闲 状态 。 但 这 个 延迟 又 应 该 足够 长 ， 以 使 得 流量 真正 降低 下 来 。 一 个 自然 的 问题 是 这 个 
延迟 量 应 该 是 国定 还 是 变化 。 实 验 结果 显示 ， 好 的 结果 是 让 延迟 按 “指数 规律 ”变化 ; 即 第 
一 次 尝试 后 的 延迟 是 一 个 小 常数 大， 它 随 次 数 按 几 何 级 数 增加 ， 这 样 在 第 i 次 尝试 后 ， 它 就 
是 kxc ,其 中 <。 是 另 一 个 常数 ， 这 样 的 锁 称 为 带 有 指数 回 退 的 测试 并 设置 锁 。 图 5-29 也 示 
出 了 两 种 这 样 的 情况 ， 不 同 之 处 在 于 交界 区 的 大 小 ， 所 选 的 对 于 性 能 测试 来 说 是 最 好 的 。 
性 能 得 到 了 改进 ,但 可 扩展 性 仍然 不 怎么 好 ， 这 是 由 于 在 释放 和 获取 时 还 是 有 大 量 的 流量 相 
干 。 在 文献 (Granuke and Thakkar 1990; Mellor-Cmmmey and Scott 1991) 中 有 关于 一 些 较 早 机 
器 用 真实 测试 并 设置 指令 带 有 回 退 的 性 能 结果 。 习 题 5.14 还 讨论 了 为 什么 用 回 退 方法 时 非 
空 临界 区 的 性 能 要 比 空 临 界 区 的 性 能 差 。 

测试 -测试 并 设置 锁 算法 的 一 个 更 精细 的 变化 是 让 它 在 忙 等 待 时 用 一 些 不 产生 这 么 多 
总 线 流 量 的 指令 。 进 程 忙 等 待 时 重复 执行 一 个 标准 装 人 指令 ， 而 不 是 测试 并 设置 ， 将 锁 变量 
EA, BAEK OB) BBO (解锁 ) 。 在 缓存 一 致 性 机 器 中 ， 所 有 处 理 器 都 可 以 在 缓存 
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中 进行 这 样 的 读 操 作 ， 而 不 产生 总 线 流 量 ， 这 是 由 于 每 个 进程 在 第 一 次 读 的 时 候 得 到 了 该 锁 
变量 的 一 个 缓存 拷贝 。 当 这 把 锁 释放 时 ， 所 有 等 待 的 进程 缓存 中 的 拷贝 都 被 作废 ， 下 一 次 读 
就 要 产生 一 次 读 扑 空 。 等 待 进程 之 后 会 发 现 锁 已 经 可 用 了 ， 然 后 就 执行 测试 并 设置 指令 来 实 
际 试图 获取 该 锁 。 其 中 之 一 将 成 功 ， 其 他 的 将 失败 ， 并 返回 到 基于 读 的 等 竺 方法。 这 样 的 测 
试 -测试 并 设置 锁 能 大 大 减少 总 线 流量 。 

5， 锁 的 性 能 目标 

在 考察 更 复杂 的 锁 算 法 和 原 语 之 前 ， 有 必要 清楚 地 指出 对 于 锁 的 性 能 目标 ， 并 且 回 顾 一 
下 我 们 关心 锁 的 哪些 表现 。 目 标 包括 : 

”。 低 时 延 。 如 果 一 把 锁 是 自由 的 并 且 没 有 其 他 处 理 器 同时 试图 获取 它 ， 一 个 处 理 器 应 
该 能 够 以 低 时 延 获得 它 。 
低 流 量 。 如 果 许 多 或 者 所 有 处 理 器 同时 试图 获取 一 把 锁 ， 它 们 应 该 能 够 一 个 接 一 个 
得 到 该 锁 ， 尽 量 不 产生 流量 或 总 线 事 务 。 如 前 面 所 讨论 过 的 ， 除 了 不 相关 的 过 程 争 
用 总 线 外 〈 包 括 在 临界 区 中 的 ) ， 由 于 高 流量 所 导致 的 竞争 能 减 慢 锁 的 获取 。 
可 扩展 性 。 时 延 和 流量 都 不 应 该 随处 理 器 数 的 变化 而 变化 太 大 。 然 而 ， 由 于 在 基于 
总 线 的 SMP 中 处 理 器 的 数目 不 会 太 大 ， 重 要 的 不 是 渐 近 可 扩展 性 ， 而 是 在 一 定 实际 
范围 的 可 扩展 性 。 
低 存 储 代价 。 一 把 锁 所 需 的 信息 应 该 很 少 并 且 不 应 该 随处 理 器 数 增加 很 多 。 
公平 性 。 理 想 上 ， 处 理 器 应 该 以 它们 发 出 请 求 的 次 序 获得 一 把 锁 。 至 少 ， 应 该 避免 
饥饿 或 者 明显 的 不 公平 。 由 于 饥饿 的 可 能 性 通常 不 大 ， 公 平 性 的 重要 性 要 和 它 对 性 
能 的 影响 权衡 考虑 。 

考虑 简单 的 原子 交换 或 者 测试 并 设置 锁 。 如 果 相 同 的 处 理 器 在 没有 竞争 的 情况 下 重复 获 
取 一 把 锁 ， 它 的 时 延 是 很 小 的 ， 这 是 由 于 所 执行 的 指令 数 很 小 并 且 锁 变量 将 在 处 理 器 的 缓存 
中 。 然 而 ,我 们 已 经 看 到 在 许多 处 理 器 竞争 的 情况 下 锁 会 产生 大 量 的 总 线 流量 。 这 种 锁 的 性 
能 随 着 处 理 器 数 的 增加 扩充 性 很 差 。 存 储 代价 低 (只 是 一 个 变量 ) 并 且 不 随处 理 器 数 变化 。 
这 种 锁 没 有 任何 措施 来 保证 公平 性 ， 运气 不 好 的 处 理 器 可 能 挨 饭 。 带 有 回 退 的 测试 并 设置 锁 
在 非 竞 争 情况 下 有 同样 的 时 延 ， 产 生 较 少 的 流量 ， 可 扩展 性 稍 好 一些 ， 不 取 更 多 的 存储 并 且 
公平 性 也 没 改善 。 和 简单 测试 并 设置 锁 相 比 ， 测 试 -测试 并 设置 锁 无 冲突 的 时 延 稍 大 一 些 
(即使 在 没有 竞争 的 情况 下 ， 它 也 要 多 做 一 个 读 操 作 )， 但 产生 的 总 线 流 量 要 小 得 多 ， 而 且 可 
扩展 性 也 好 些 。 它 要 求 的 存储 也 可 以 忽略 ， 也 不 保证 公平 性 。 (习题 5.12 让 你 计算 测试 - 测 
试 并 设置 类 型 的 锁 在 不 同 场合 下 总 线 事务 的 次 数 ， 还 有 所 花 的 时 间 。) 

在 这 种 测试 -测试 并 设置 锁 中 ， 由 于 测试 并 设置 操作 (也 就 是 对 应 一 个 总 线 事务 ) 只 是 
在 处 理 器 注意 到 锁 可 用 ， 并 且 它 在 忙 等 待 一 个 缓存 块 失败 的 情况 下 才 进 行 ， 所 以 没有 回 退 的 
需要 。 然 而 这 种 锁 也 有 问题 ， 即 当 锁 被 释放 时 ， 所 有 等 待 的 进程 几乎 会 同时 冲 出 来 ， 进 行 它 
们 的 读 扑 空 ， 执 行 它 们 的 测试 并 设置 指令 。 对 于 这 些 读 扑 空 的 总 线 事务 可 以 组 合 在 一 种 聪明 
的 总 线 协议 中 ; 然而， 每 个 测试 并 设置 指令 本 身 产 生 作废 和 后 续 扑 空 ， 对 于 p 个 处 理 器 每 
个 要 求 一 次 锁 ， 会 导致 (pP) 冲 线 流量 。 在 发 出 测试 并 设置 之 前 插入 一 个 随机 的 延迟 至 少 
能 够 有 助 于 拉 开 这 些 测 试 并 设置 指令 ， 但 它 将 增加 在 无 竞争 情况 下 获取 锁 的 时 延 。 测 试 - 测 
试 并 设置 方式 曾经 是 当时 一 个 比较 大 的 进步 ， 但 后 来 人 们 又 设计 了 更 好 的 硬件 原 语 和 更 好 的 
算法 来 减缓 它 的 流量 问题 。 
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6. 改进 的 硬件 原 语 : Load-Locked, Store-Conditional 

除了 在 忙 等 待 中 用 读 代替 读 - 改 - 写 外 ， 我 们 还 想 尝试 让 读 - 改 - 写 失 败 的 进程 不 产生 
作废 。 而 且 ， 和 希望 有 这 样 一 个 原 语 ， 能 够 实现 多 种 原子 性 的 读 - 改 - 写 操 作 ， 诸 如 测试 并 设 
置 ， 取 并 操作 ， 比 较 并 交换 等 ， 而 不 是 要 用 单独 的 指令 分 别 实 现 。 在 现代 微 处 理 器 中 ， 有 一 
种 用 得 越 来 越 多 的 方式 ， 能 达到 这 两 个 目标 。 它 的 基本 精神 是 用 一 对 特殊 指令 ， 而 不 是 单个 
读 - 改 - 写 指令 来 实现 对 一 个 变量 的 原子 性 访问 〈 让 我 们 称 这 个 变量 为 同步 变量 ) 。 第 一 条 
指令 ， 通 常 称 为 Load-Iocked (A - 加 锁 ) 或 者 Load-Linked (RA - 链接 ) 指令 (LL), 将 
同步 变量 装 人 一 个 寄存 器 。 它 后 面 可 以 跟着 任意 的 指令 ， 这 些 指令 完成 对 该 寄存 器 中 的 值 操 
作 ， 即 对 应 读 - 改 - 写 的 修改 部 分 。 这 个 序列 的 最 后 一 条 指令 是 第 二 个 特殊 指令 ， 称 为 条 件 
存放 《store-conditional) 。 它 试图 将 寄存 器 的 值 写 回去 (同步 变量 )， 条 件 是 当 且 仅 当 没 有 其 
他 处 理 器 在 本 处 理 器 完成 了 LL 后 ， 对 该 单元 (或 者 缓存 块 ) 进行 写 操作 。 这 样 ， 如 果 条 件 
存放 成 功 ， 它 意味 着 装 人 - 加 锁 、 条 件 存放 (LL-SC) 指令 已 经 原子 性 地 对 该 变量 进行 了 读 、 
可 能 的 修改 以 及 回 写 操作 。 如 果 条 件 存放 检测 到 其 间 对 该 变量 或 者 缓存 块 发 上 了 一 次 写 ， 它 
就 不 会 试图 将 值 回 写 (或 者 产生 任何 作废 )。 这 意味 着 对 于 该 变量 的 原子 操作 失败 ， 必 须 从 
于 再 开始 尝试 。 条 件 存放 的 成 功 或 者 失败 由 条 件 码 或 者 返回 值 来 确定 。LL 和 条 件 存放 是 如 
何 实现 的 将 留 在 后 面 讨论 ; 现在 ,我 们 关心 它们 的 语义 和 性 能 。 

利用 LL-SC 来 实现 原子 操作 ， 前 面 那 种 简单 的 加 锁 和 解锁 算法 能 如 下 实现 。 其 中 reg 1 
是 存储 单元 当前 值 装 人 的 寄存 器 ，reg 2 持 有 要 被 存 回 的 值 (如 同 测试 并 设置 ， 对 于 一 次 加 





锁 操作 ，reg 2 可 以 就 是 1)。 
lock: 1l regl, location /*load-locked the location to regl */ 
bnz regl, lock /*if location was locked (nonzero), 
try again*/ 
sc location, reg2 /*store reg2 conditionally into location*/ 
beqz lock /*if store-conditional failed, start again*/ 
ret /*return control to caller of lock*/ 
和 
unlock: st location, #0 /*write 0 to location*/ 
ret /*return control to caller*/ 


多 个 处 理 器 可 能 同时 执行 LL， 但 只 有 第 一 个 将 它 的 条 件 存 放 指令 放 到 总 线 上 的 才 可 获 
得 成 功 。 这 个 处 理 器 将 成 功 地 获得 这 把 锁 ， 其 他 的 将 失败 ， 不 得 不 重新 从 LLSC 开始 。 注 
E, 条件 存放 失败 的 途径 有 两 个 ,一 是 它 在 试图 访问 总 线 之 前 就 检测 到 其 间 发 生 了 一 次 写 ; 
二 是 在 它 试图 访问 总 线 ， 但 发 现 某 个 其 他 处 理 器 的 条 件 存储 已 经 先 到 达 那 儿 了 。 当 然 ， 如 果 
当 进 程 执行 LL 时 该 单元 是 1 ( 非 0) ， 它 将 把 1 装 入 reg1， 并 且 将 从 于 重新 开始 ， 根 本 不 
去 尝试 条 件 存放 。 

值得 注意 的 是 ，LL 本 身 不 是 一 种 加 锁 操 作 ， 条 件 存 放 本 身 也 不 是 解锁 。 首 先 ，IL 的 完 
成 本 身 不 意味 着 获得 了 排他 的 访问 权 ; 事实 上 ，IL 和 条 件 存放 一 起 用 来 实现 一 种 加 锁 的 操 
作 。 其 次 ， 即 使 LL-SC 对 成 功 了 ， 也 不 保证 在 它们 之 间 的 指令 (如果 有 的 话 ) 的 执行 是 原子 
性 的 ， 因 此 事实 上 这 些 指令 不 构成 一 个 临界 区 。 一 个 成 功 的 LLSC 指令 对 惟一 能 保证 的 是 在 
LL 和 条 件 存放 之 间 没 有 发 生 对 于 同步 变量 的 写 。 事 实 上 ， 由 于 在 LL 和 条 件 存放 之 间 的 指令 
是 无 条 件 执行 的 ,- 但 如 果 条 件 存放 失败 应 该 是 不 可 见 的 ， 所 以 重要 的 是 它们 不 修改 任何 其 他 
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重要 的 状态 。 典 型 地 ， 这 些 指令 只 是 操作 同步 变量 装 人 的 寄存 器 (例如 ， 完 成 取 并 操作 中 的 
操作 部 分 ) 不 修改 程序 中 任何 其 他 的 变量 (修改 这 个 寄存 器 是 没有 问题 的 ， 因 为 这 个 寄存 器 
总 是 要 由 下 一 次 LL 重新 装 入 )。 显 式 支持 LL-SC 的 微 处 理 器 厂家 鼓励 软件 编写 人 员 遵 循 这 种 
要 求 ， 并 日 还 经 常 说 明 哪些 指令 在 其 间 可 用 ， 能够 保证 它们 所 实现 的 LL-SC 操作 的 正确 性 。 
在 LL 和 条 件 存放 之 间 的 指令 数 也 应 该 很 小 ， 以 减少 由 于 别 的 处 理 器 插入 其 间 的 写 导致 的 条 
件 存 放 失 败 的 可 能 性 。 尽 管 LL 和 条 件 存 放 不 构成 一 个 加 锁 - 解锁 对 ， 它 们 可 以 直接 用 来 实 
现在 共享 数据 结构 上 的 某 些 原 子 操作 。 例 如 ， 如 果 所 希望 的 功能 是 在 一 个 全 局 变量 上 的 一 个 
小 操作 (例如 一 个 计数 器 或 者 全 局 和 ) ， 和 在 变量 更 新 周围 做 加 锁 和 解锁 相 比 ， 用 一 种 自然 
的 指令 序 AL, FFARR., RER, WE) 实现 起 来 会 显得 更 有 道理 。 

如 同 test-and-test&set 指令 ， 当 LL 指出 当前 锁 被 别人 持 有 了 时， 用 LL-SC 建立 起 来 的 锁 在 
等 待 算法 期 间 不 会 产生 总 线 流 量 。 比 test-and-test&set 优越 之 处 在 于 它 在 一 次 获得 锁 的 尝试 失 
败 后 也 不 产生 作废 〈 即 一 次 失败 的 条 件 存放 )。 然 而 ， 当 锁 被 释放 时 ， 在 一 个 装载 - 加 锁 操 
作 循 环 上 的 踏步 等 待 的 处 理 器 很 可 能 会 在 该 单元 上 扑 空 ， 并 且 向 总 线 产 生 读 事务 。 在 这 之 后 ， 
对 给 定 锁 的 一 次 获取 只 会 由 条 件 存放 成 功 的 处 理 器 产生 一 个 作废 ， 但 这 会 再 次 作废 所 有 的 组 
存 。 即 使 和 test-and-test&set 相 比 ， 流 量 大 大 地 减少 ， 并 且 没 有 读 - 改 - 写 总 线 事务 ， 但 流量 依 
然 随处 理 器 数 线性 增加 ， 即 每 次 获取 锁 意味 着 0(p ) 次 总 线 事务 。 由 于 在 一 个 上 了 锁 的 单元 
上 踏步 等 待 总 是 通过 读 来 进行 的 (装载 - 加 锁 操 作 ) ， 不 可 能 有 什么 类 似 的 情形 可 以 进一步 改 
HE test-and-test&set 指令 的 性 能 。 然 而 ， 在 LL 和 条 件 装 人 之 间 可 以 用 回 退 以 减少 突 发 性 流量 。 

简单 的 LL-SC 锁 在 时 延 和 存储 要 求 方面 也 是 低 的， 但 它 也 不 是 一 种 公平 的 锁 并 且 所 引起 
的 流量 也 不 是 最 小 的 。 更 高 级 的 锁 算法 能 够 既 提 供 公 平 性 ， 也 减少 流量 。 它 们 可 以 用 原子 性 
的 读 - 改 - 写 指 令 来 实现 ， 也 可 以 用 由 LL-SC 综合 得 到 的 等 价 语义 的 原子 操作 实现 。 当 然 ， 
这 两 种 做 法 的 优点 是 不 同 的 。 让 我 们 考虑 这 样 两 个 算法 ， 它 们 适合 于 基 总 线 的 机 器 。 

7. 高 级 的 锁 算 法 

特别 地 ， 当 用 一 种 类 似 于 测试 并 设置 的 原子 交换 指令 (不 是 LL-SC) 来 实现 锁 的 时 候 ， 
我 们 希望 当 锁 被 释放 时 只 有 一 个 进程 实际 上 试图 去 获取 该 锁 (而 不 是 像 所 有 前 面 的 算法 那 
样 ， 让 所 有 进程 都 冲 出 来 做 测试 并 设置 ， 并 且 发 出 作废 信号 )。 更 希望 的 是 当 一 把 锁 释 放 时 
只 有 一 个 进程 发 生 读 扑 空 OF LL-SC 也 希望 如 此 )。 加 号 锁 达 到 了 第 一 个 目的 ， 基 于 数组 的 
锁 两 个 目标 都 达到 了 ， 代 价 是 需要 稍 多 一 点 空间 。 和 所 有 前 面 的 锁 不 同 ， 这 样 两 种 锁 是 公平 
的 并 且 以 FIFO 序 让 处 理 器 得 到 锁 。 

加 号 锁 “加 号 锁 的 操作 就 像 在 餐馆 排队 买 三 明治 ， 或 者 像 银行 的 出 纳 队列 的 票 号 系统 。 需 
要 获得 锁 的 进程 取 一 个 票 号 ， 然 后 在 一 个 全 局 now-serving (现在 服务 ) 号 上 忙 等 待 〈 就 像 我 
们 在 买 三 明治 队列 上 刻意 观察 的 LED 显示 屏 上 的 数字 ) 直到 now-serving 号 等 于 自己 所 得 的 
票 号 。 要 释放 一 把 锁 ， 进 程 只 要 将 now-serving 号 加 1, 于 是 下 一 个 等 待 的 进程 能 够 获得 该 
锁 。 所 需 的 原子 性 原 语 是 ， 当 进程 首次 到 达 锁 操作 ， 要 从 一 个 共享 计数 器 上 获得 它 的 票 号 时 用 
到 这 个 原 语 。 由 于 只 有 票 号 等 于 now-serving 的 过 程 在 看 到 锁 被 释放 后 试图 进入 临界 区 因此 
在 实际 获得 锁 时 不 需要 做 原子 操作 。 这 样 ， 获 取 方 法 是 fetch&increment， 等 待 算法 是 用 忙 等 待 
的 方式 检查 new-serving 是 否 等 于 自己 的 票 号 ， 释 放 方法 是 增加 now-serving 。 这 种 锁 的 不 
竞争 时 延 大 约 和 test-and-test& set 锁 相 等 ， 但 所 产生 的 流量 要 小 得 多 。 尽 管 每 一 个 进程 在 到 达 该 
锁 时 都 做 到 并 加 1 操作 (假想 所 有 进程 不 是 同时 到 达 )， 在 锁 的 一 次 释放 后 测试 并 设置 就 不 必要 
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了 ， 而 那 通常 更 趋向 于 同时 性 ， 并 且 竞 争 性 要 严重 得 多 。 由 于 进程 是 以 它们 执行 fetch&increment 
操作 的 次 序 得 到 该 锁 的 ， 加 号 锁 对 存储 的 需求 是 固定 的 和 小 量 的 ， 并 且 它 还 是 公平 的 。 

加 号 锁 所 需 的 取 并 加 上 操作 可 以 用 LL-SC 实现 。 然而， 由 于 简单 的 LL-SC 锁 已 经 避免 了 
多 个 处 理 器 在 锁 被 释放 后 试图 获取 它 时 发 出 作废 信号 ， 在 流量 上 加 号 锁 和 简单 的 LL-SC 锁 没 
有 大 的 区 别 。( 简 单 的 LL-SC 锁 稍 微 差 一 些 ， 这 是 由 于 当 一 个 处 理 器 在 它 的 条 件 存 放 上 成 功 
时 ， 另 外 一 个 作废 和 一 组 读 扑 空 会 出 现 。) 在 这 两 种 锁 上 面 的 关键 区 别 在 于 公平 性 。 

像 简单 的 LL-SC 锁 ， 在 释放 中 加 号 锁 也 有 一 个 读 流量 的 问题 。 原 因 是 所 有 进程 在 相同 的 
变量 (now-serving ) 上 踏步 等 待 。 当 那个 变量 被 释放 写 人 后 ， 所 有 处 理 器 的 缓存 中 的 拷 
中 被 作废 ， 它 们 都 要 引发 一 次 读 扑 空 。 这 些 读 扑 空 在 有 些 总 线 上 可 能 结合 起 来 ， 但 如 果 没 有 
结合 功能 或 者 结合 失败 ， 则 会 引起 不 必要 的 流量 。 一 种 降低 这 种 穴 发 性 读 扑 空 流量 的 方式 是 
引入 一 种 形式 的 回 退 。 我 们 不 想 用 指数 性 回 退 ， 因 为 在 锁 被 释放 时 ， 我 们 不 想 让 所 有 处 理 器 
都 回 退 ， 从 而 过 一 会 儿 谁 都 不 想 尝试 获取 它 。 一 种 有 前 途 的 技术 是 让 每 个 处 理 器 在 试图 读 
now-serving 计数 器 时 回 退 一 段 正比 于 它 期 望 轮 到 它 所 需 的 时 间 一 一 即 正比 于 它 的 票 号 和 
它 上 一 次 读 到 的 now-serving 值 的 差 。 作 为 另 一 种 方案 ， 基 于 数组 的 锁 完全 消除 了 这 种 在 
释放 时 额外 的 读 流量 ， 办 法 是 让 每 个 进程 在 不 同 的 单元 上 循环 。 

基于 数组 的 锁 ”这 里 的 想法 是 用 一 种 fetch&inerement， 来 获得 一 个 惟一 的 单元 而 不 是 值 ， 
然后 在 这 个 单元 上 做 忙 等 待 。 如 果 有 p 个 进程 可 能 争 用 一 把 锁 ， 那 么 这 把 锁 的 数据 结构 包 
含 一 个 含有 p 个 单元 的 数组 ， 供 进程 在 上 面 循环 等 待 ， 理 想 情况 是 不 同 的 单元 分 布 在 不 同 
的 存储 块 上 ， 以 避免 伪 共 享 。 这 里 ， 获取 方法 就 是 用 一 个 fetch&inerement 操作 来 获得 该 向 量 
中 下 一 个 可 用 的 单元 ( 带 回 卷 )， 等 待 方法 则 是 在 这 个 单元 上 循环 ， 释 放 方法 是 向 下 一 个 单 
元 写 人 一 个 表示 “解锁 ”的 值 。 这 种 释放 使 得 在 下 一 个 单元 上 等 待 的 处 理 器 发 生 缓存 块 的 作 
废 ; 它 后 面 的 读 扑 空 告 诉 它 ， 它 已 经 得 到 了 这 把 锁 。 如 同 加 号 锁 的 情形 ， 在 扑 空 后 不 需要 做 
test&set， 这 是 由 于 当 锁 被 释放 时 只 有 一 个 进程 被 通知 。 显 然 ， 这 种 锁 也 是 FIFO， 因 此 是 公 
平 的 。 它 的 无 竞争 时 延 可 能 类 似 于 test-and-test&set 锁 (一 种 fetch&incerement， 跟 着 一 个 对 所 
分 配 数组 单元 的 读 ) ， 并 且 它 显然 潜在 地 要 比 加 号 锁 更 具有 可 扩展 性 ， 这 主要 是 因为 只 有 -- 
个 进程 发 生 读 扑 空 。 基 于 同样 的 原因 ， 不 同 于 加 号 锁 ， 它 不 需要 任何 形式 的 回 退 来 减少 流 
量 。 在 基于 总 线 的 机 器 上 ， 它 的 惟一 缺点 是 它 用 0O(p ) 空间 ， 而 不 是 0(1 )， 但 对 于 较 小 的 
Pp 和 比例 常数 ， 这 通常 不 是 一 个 很 重要 的 缺点 。 对 于 分 布 存储 机 器 ， 它 有 一 个 潜在 的 缺点 ， 
我 们 将 在 第 7 章 讨论 它 和 克服 它 的 锁 算 法 。 

8. 性 能 

让 我 们 简略 地 考察 SCI Challenge 上 不 同 的 锁 的 性 能 ， 如 图 5-30 所 示 。 所 有 的 锁 用 LLSC 
实现 (由 于 Challenge 只 是 提供 这 些 ， 而 没有 提供 原子 性 指令 )。 所 得 到 的 结果 是 基于 前 面 提 
到 过 的 微 基准 测试 程序 的 一 个 更 参数 化 的 版 本 ， 其 中 一 个 进程 不 仅 可 以 在 临界 区 插入 延迟 ， 
在 锁 的 释放 和 它 的 下 一 次 尝试 之 间 也 可 以 插入 〈 如 同 真 实 程序 会 发 生 的 )。 即 ， 代 码 是 一 个 
以 下 面 为 主要 部 分 的 循环 : 

lock(L); 

critical_section(c); 


unlock (L); 
delay (d); 
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基于 数组 
LL-SC 

LL-SC, 指数 级 
Ticket 
Ticket, 成 比例 


时 间 Cus) 


时 间 (us) 


时 间 (us) 





1 3 5 7 9 11 13 15 1 3 5 7 9 11 13 15 oT ss 7 9 1113 15 
处 理 器 数目 处 理 器 数目 处 理 器 数目 
a) 2 (c=0,d=0) b) 关键 部 分 (c= 3. 64 us, d=0) c) 延迟 (c= 3. 64us,d=1. 29us) 





图 5-30 对 于 三 种 不 同 的 情形 ，SGI Challenge 上 锁 的 性 能 


考虑 三 种 情形 : 1) c=0, d=0; 2) ¢=3.64us, d=0; 3) c=3.641s，d=1.29us。 € 
们 分 别称 为 空 临界 区 情形 、 非 空 临界 区 情形 和 带 有 延迟 的 非 空 临界 区 情形 。 延 迟 c Md 以 处 
理 器 周期 数 为 单位 插 人 到 代码 中 ， 转 换 为 这 里 的 微 秒 数 。 和 先前 讨论 过 的 一 样 ， 延 迟 Md 
( 乘 以 每 个 进程 获 到 锁 的 次 数 ) 要 从 总 的 时 间 中 减 掉 ， 它 只 是 来 测量 一 定数 量 的 锁 的 获取 和 
释放 所 花 的 时 间 (见习 题 5.15)。 

考虑 空 临 界 区 的 情形 。 比 较 图 5-30 和 图 5-29， 首先 观察 到 的 是 所 有 其 他 锁 的 确 都 比 测 
试 并 设置 锁 要 好 ， 这 是 已 估计 到 的 。 第 二 个 观察 是 ， 简 单 的 LL-SC 锁 实 际 上 看 来 性 能 要 好 
于 比较 复杂 的 加 号 锁 和 基于 数组 的 锁 。 对 这 些 锁 来 说 ， 它 们 所 遇 到 的 竞争 不 像 test&set HUB 
到 的 那么 多 ， 性 能 主要 由 释放 和 成 功 获取 之 间 的 总 线 过 程 数 来 决定 。 尤 其 对 于 较 少 处 理 器 的 
情况 ，LL-SC 锁 表 现 特别 好 的 原因 是 它们 的 不 公平 性 ， 体 系 结构 的 相互 作用 利用 了 这 种 不 公 
平 性 ! 特别 是 ， 当 一 个 进程 通过 一 个 写 操作 释放 了 一 把 锁 ， 紧 跟着 用 一 个 读 〈LL) 试图 进 
行 下 一 次 获取 ， 这 个 读 和 后 续 的 条 件 存放 可 能 在 它 的 缓存 中 成 功 ， 先 于 其 他 处 理 器 能 越过 总 
线 来 读 这 个 存储 块 。(SGI Challenge 上 的 偏向 实际 上 要 更 严重 ， 这 是 由 于 释放 的 处 理 器 能 够 
从 它 的 写 缓 冲 区 中 来 满足 它 的 下 一 次 读 ， 甚 至 在 对 应 于 释放 写 的 排他 读 达 到 总 线 之 前 。) BR 
的 传递 很 快 并 且 性 能 也 很 好 ， 但 同样 的 处 理 器 可 能 重复 获得 自己 释放 的 锁 。 随 着 处 理 器 数 和 
对 总 线 充 争 的 增加 ， 最 后 释放 者 的 条 件 存储 成 功 获 得 总 线 的 机 会 减少 ， 因 此 自传 送 的 可 能 性 
减少 。 除 此 以 外 ， 总 线 流量 会 由 于 作废 和 读 扑 空 增加 ， 因 此 每 次 锁 转 移 的 时 间 增 加 。 指 数 型 
回 退 有 助 于 减少 流量 的 突 发 性 ， 从 而 也 减缓 了 扩展 的 速率 。 非 空 的 临界 区 (c=3.64, d= 
0) 对 此 会 有 进一步 的 帮助 。 

对 于 在 临界 区 内 外 都 有 延迟 的 情形 (c = 3.64，d = 1.29)， 即 使 处 理 器 数 不 多 ，IL-SC 锁 





〇 ”这 里 的 测试 并 设置 是 通过 LLSC 如 下 模拟 的 ;每 当 一 个 条 件 存放 失败 ， 就 向 同一 存储 块 的 另 一 个 变量 做 一 个 写 
操作 ， 于 是 就 好 像 test&set 那样 引起 作废 。 这 种 模拟 的 方法 可 能 导致 的 性 能 要 比 真正 用 test&set 原 语 差 ， 但 它 反 
映 了 趋势 。 
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的 性 能 也 不 怎么 好 。 这 是 由 于 处 理 器 在 释放 锁 后 ， 试 图 再 次 获取 锁 之 前 需要 等 待 ， 很 可 能 使 
得 其 他 等 待 着 的 处 理 器 先 于 它 获得 了 该 锁 。 自 我 传递 不 太 可 能 ， 因 此 即使 在 两 个 处 理 器 的 情 
况 ， 锁 的 传递 也 是 比较 慢 的 。 有 意思 的 是 ,在 处 理 器 数量 少 ， 解 锁 加 锁 之 间 有 延迟 d 时 ， 
回 退 的 使 用 表现 的 性 能 特别 差 。 这 是 由 于 当 一 个 处 理 器 释放 了 锁 ， 在 等 待 a 的 期 间 ， 所 有 
其 他 处 理 器 都 在 回 退 周期 ， 根 本 还 没有 试图 来 取 锁 。 在 d = 0 情形 下 ， 释 放 锁 的 处 理 器 马上 
又 获取 锁 ， 这 种 情况 在 处 理 器 数 较 少时 特别 明显 。 从 上 面 可 以 看 到 ， 回 退 技术 必须 慎 用 才 可 
能 成 功 。 

考虑 另外 一 些 锁 。 它 们 是 公平 的 ， 因 此 每 次 都 传递 到 不 同 的 处 理 器 ， 且 在 传递 的 关键 路 
径 上 涉及 到 总 线 事 务 。 因 此 ， 即 使 内 有 两 个 处 理 器 ， 它 们 都 以 一 个 跳 转 开始 。 每 次 传递 都 在 
关键 路 径 上 大 约 跳 三 个 总 线 事务 。 时 间 方 面 的 实际 区 别 取 决 于 产生 哪 种 总 线 事务 以 及 它们 有 
多 少时 延 能 被 隐藏 起 来 ， 不 被 处 理 器 可 见 。 不 带 回 退 的 加 号 锁 可 扩展 性 相对 较 差 : 当 所 有 处 
理 器 试图 读 now-serving 计数 器 时 ， 在 释放 和 由 正确 处 理 器 读 得 之 间 的 总 线 事务 的 期 望 数 
是 p/2， 导 致 在 锁 传递 的 关键 路 径 上 的 线性 性 能 损失 。 采 用 比例 回 退 技术 ， 正 确 的 处 理 器 可 
能 是 在 释放 后 第 一 个 发 出 读 的 处 理 器 ， 这 样 每 次 传递 的 时 间 就 是 常数 ， 不 随 p 变化 。 由 于 
只 有 正确 的 处 理 器 发 出 一 个 读 ， 基 于 数组 的 锁 也 有 较 好 的 可 扩展 性 。 

这 些 结果 表现 了 在 确定 锁 的 性 能 方面 体系 结构 诸 要 素 之 间 相 互 作用 的 重要 性 。 它 们 还 表 
明 ， 只 要 总 线 有 足够 带宽 ， 简 单 的 LL-SC 锁 在 总 线 上 的 性 能 会 相当 好 。 在 这 个 特定 的 机 器 
上 ， 因 为 总 线 带宽 相当 高 ， 非 公平 LL-SC 锁 的 性 能 对 于 多 于 16 处 理 器 的 情形 ， 不 会 比 更 复 
杂 的 锁 差 多 少 。 当 采用 回 退 技术 来 降低 流量 后 ， 简 单 LL-SC 锁 在 所 有 情形 下 都 有 最 好 的 平均 
锁 传递 时 间 。 然 而 ， 这 些 结果 也 表明 了 在 评估 同步 算法 方面 有 效 实验 方法 的 难度 和 重要 性 。 
空 临界 区 展示 了 某 些 有 趣 的 效果 ,但 有 意义 的 比较 取决 于 在 实践 (真实 应 用 ) 中 同步 模式 的 
具体 情况 。 例 如 ， 临 界 区 和 延迟 大 小 ， 对 于 自传 递 的 作用 ， 对 比较 公平 和 不 公平 锁 来 说 ， 影 
响 是 实质 性 的 。 空 情形 不 具有 真实 代表 性 ， 但 有 重要 的 方法 论 意义 。 人 们 还 做 过 一 个 实验 ， 
用 LLSC 同时 通过 附加 变量 来 保证 处 理 器 (公平 性 ) 获得 锁 的 循环 ， 表 明 其 性 能 类 似 于 加 号 
锁 。 这 证 实 了 非 公平 和 自传 递 在 处 理 器 不 多 时 的 确 是 较 好 性 能 的 原因 。 特 别 是 ， 如 果 期 望 公 
平 ， 带 有 比例 回 退 的 加 号 锁 和 基于 数组 的 锁 在 基于 总 线 的 机 器 上 表现 得 很 好 。 

9. 免 锁 的 、 非 阻塞 的 以 及 免 等 待 的 同步 

当 机 串 用 在 多 道 程序 设计 的 环境 下 时 ， 涉 及 到 同步 的 还 有 对 其 他 一 些 性 能 的 考虑 。 在 这 
种 环境 下 ， 其 他 进程 会 不 时 执行 一 段 时 间 ; 即使 我 们 独占 这 个 机 器 ， 后 台 驻 留 程序 也 会 周期 
运行 ， 进 程 会 发 生 缺 页 ， 会 出 现 VO 中 断 以 及 进程 调度 器 只 能 基于 应 用 需求 不 完整 的 信息 来 
作出 调度 决定 。 这 些 事件 能 引起 进程 推进 速度 在 很 大 的 范围 内 变化 。 一 个 重要 的 问题 是 ， 当 
其 中 一 个 进程 被 减 慢 ， 并 行程 序 作为 一 个 整体 会 如 何 减 慢 。 对 于 传统 的 锁 来 说 ， 这 个 问题 可 
能 很 严重 : 如果 一 个 进程 持 有 一 把 锁 ， 在 它 的 临界 区 中 停止 或 者 减 慢 ， 所 有 其 他 进程 可 能 都 
要 等 待 。 这 个 问题 在 操作 系统 调度 器 的 研究 方面 受到 了 广泛 的 关注 。 在 有 些 情况 下 ， 人 们 试 
图 避免 剥夺 持 有 锁 的 进程 的 控制 权 。 另 外 一 些 研究 认为 基于 锁 的 操作 不 健全 ， 应 该 避免 ; 例 
如 ， 如 果 一 个 进程 在 持 有 锁 时 死 掉 ， 其 他 进程 就 都 没 法 推进 。 人 们 观察 到 ， 大 多 数 加 锁 - 解 
锁 操作 都 用 来 支持 在 典型 数据 结构 和 对 象 上 的 操作 ， 那 些 结构 是 由 多 个 进程 共享 的 ， 例 如 ， 
更 新 一 个 共享 的 计数 器 或 者 操作 一 个 共享 的 队列 。 这 些 在 数据 结构 上 的 高 层 操 作 能 够 吉 接 用 
原子 原 语 实现 ， 而 不 要 用 锁 ， 如 同 先前 讨论 LL-SC 所 提 到 的 那样 。 
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一 个 共享 数据 结构 被 称 为 是 免 锁 的 ， 如 果 在 它 上 面 定义 的 操作 不 要 求 在 多 条 指令 上 互 
斥 。 如 果 在 数据 结构 上 的 操作 ， 能 够 保证 某 个 进程 在 有 限时 间 里 ， 即 使 其 他 进程 停止 也 能 完 
成 它 的 操作 ， 这 种 数据 结构 就 是 非 阻塞 的 。 如 果 操 作 能 担保 每 一 个 进程 都 能 在 有 限 的 时 间 里 
完成 其 操作 ， 该 数据 结构 就 是 免 等 待 的 《Herlihy 1993)。 针 对 这 种 数据 结 椅 的 理论 和 实践 ， 
人 们 做 过 一 些 研究 ， 包 括 实现 它们 的 基本 原 语 (Herlihy 1988) 、 将 顺序 操作 转换 为 非 阻塞 并 
发 操作 的 通用 技术 、 各 种 专门 的 免 锁 数据 结构 (Valois 1995; Michael and Scott 1996), HER 
统 实现 以 及 对 系统 结构 支持 的 提议 等 等 。 这 里 基本 的 出 发 点 是 要 实现 对 共享 数据 结构 的 更 
新 ， 先 读 出 其 中 一 部 分 ， 做 一 拷贝 ， 更 新 该 拷贝 ， 然 后 在 没有 已 经 发 生 冲 突 更 新 的 情况 下 才 
执行 一 个 操作 ， 以 确认 这 个 改变 (这 会 使 我 们 想到 LL-SC)。 作 为 一 个 简单 的 例子 ， 考虑 一 
个 共享 计数 器 。 计 数 器 读 到 一 个 寄存 器 中 ， 给 寄存 器 拷贝 加 上 一 个 值 ， 结 果 放 到 第 二 个 寄存 
器 。 然 后 ， 只 是 当 共 享 计数 器 的 值 和 原来 是 相同 时 ， 才 用 一 个 比较 /交换 来 更 新 共享 的 计数 
器 。 对 于 更 复杂 的 链表 数据 结构 ， 就 要 创建 一 个 新 的 元 素 ， 如 果 插 人 仍然 有 效 ， 才 将 它 链 到 
共享 表 中 。 这 些 技术 用 来 限制 共享 数据 结构 处 于 非 一 致 状态 的 窗口 的 大 小 ， 于 是 它们 增强 了 
健壮 性 ;当然 ， 要 把 它们 做 得 高 效 可 能 是 困难 的 。 

根据 用 不 同 的 原子 交换 操作 来 实现 同步 变量 访问 的 时 间 复 杂 性 ， 人 们 发 现 了 这 些 原子 交 
换 操 作 的 一 些 性 质 。 特 别 是 ， 人 们 发 现 像 test&set 和 fetch&op 那样 的 简单 操作 不 足以 保证 由 
处 理 器 访问 一 个 同步 变量 的 时 间 独 立 于 处 理 器 个 数 ， 而 更 复杂 一 些 的 操作 ， 倒 如 比较 /交换 
和 交换 两 个 存储 单元 的 值 ， 就 能 够 达到 这 种 保证 (Herlihy 1988), 

讨论 了 基于 总 线 机 器 的 互 斥 方式 后 ， 下 面 来 考虑 点 对 点 事件 同步 ， 然 后 是 栅 障 事件 同步 。 


5.5.4 ”点 对 点 事件 同步 


在 一 个 并 行程 序 中 的 点 对 点 同步 ， 通 常 的 实现 方式 是 用 普通 变量 作为 标记 ， 在 上 面 做 位 
等 待 。 如 果 我 们 要 用 阻塞， 不 用 忙 等 待 ， 则 我 们 能 用 信号 灯 ， 就 像 在 并 发 程序 设计 和 操作 系 
统 中 所 用 的 那样 (Tanenbaum and Woodhull 1997), 

1. 软件 算法 

标记 是 控制 变量 ， 专 门 用 来 通报 同步 事件 的 出 现 ， 而 不 是 要 传递 值 。 如 果 两 个 进程 在 共 
享 变量 a。 上 有 一 种 生产 者 - 消费 者 关系 ,那么 就 能 使 用 如 下 一 个 标记 来 管理 同步 变量 : 


P, p> 
一 C—O 
a = fix); /*seta*/ while (flag is 0) do nothing; 
flag = 1; b = g(a); /*usea*/ 


如 果 我 们 知道 ， 变 量 a WIR ARMA (比如 ，0)， 将 被 这 个 生产 事件 变 到 一 个 我 们 感 
兴趣 的 一 个 新 值 ， 那 么 我 们 能 够 用 a 本 身 作为 同步 变量 ， 如 下 所 示 : 
P, P. 
a = f(x); /*seta*/ while (a is 0) rs nothing; 
b = gla); /*usea*/ 
这 就 消除 了 对 一 个 单独 标记 变量 的 需要 ， 节 省 了 对 那个 变量 的 读 和 写 ， 可 能 的 代价 是 程 
序 的 可 读 性 和 可 维护 性 。 
2. 硬件 支持 : 满 - 空位 
这 种 特别 标记 值 的 想法 在 有 些 研究 型 机 器 中 得 到 进一步 发 展 RPE BD TA 
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的 机 器 里 )， 以 提供 对 细 粒 度 生 产 者 - 消费 者 同步 的 硬件 支持 。 让 存储 器 的 每 个 字 都 和 称 为 
满 - 空位 的 状态 相 联 。 这 一 位 被 置 1， 表 示 “ 满 ”， 即 该 字 装 有 新 数据 〈 即 写 操 作 上 )， 置 0， 
如 果 这 个 字 被 消费 该 数据 的 处 理 器 “腾空 ”( 即 读 操作 后 )。 字 级 别 的 生产 者 - 消费 者 同步 然 
后 可 以 如 下 完成 。 当 生产 者 进程 要 向 单元 中 写 ， 如 果 看 到 满 - 空位 是 空 ， 就 将 它 置 满 。 消 费 
者 要 读 ， 如 果 看 到 满 ， 就 置 空 。 硬 件 保证 带 有 对 满 - 空位 操作 的 读 和 写 的 原子 性 。 给 定 满 - 
空位 ， 我 们 前 面 的 例子 就 可 以 写成 如 下 没有 踏步 循环 的 样子 : 
Py P2 
a= £(x); /*set a*/ b = g(a); /*use a*/ 


满 -空位 引起 关于 灵活 性 的 一 些 问题 。 例 如 ， 它 们 难以 对 付 单 生产 者 - 多 消费 者 同步 ， 
或 者 生产 者 在 消费 行为 之 前 多 次 更 新 值 的 情况 。 还 有 ， 所 有 读 和 写 都 应 该 用 满 - 空位， 还 是 
只 是 编译 到 特殊 指令 的 操作 用 ? 后 者 要 求 在 语言 和 编译 器 中 有 支持 ， 但 前 者 将 同步 强加 到 所 
有 单元 访问 中 〈 例 如， 它 不 允许 适 带 方程 求解 器 中 的 异步 放松 ， 见 第 2 BE), 局 限 性 太 大 。 
鉴于 这 些 原因 以 及 硬件 代价 ， 在 大 多 数 商 用 机 器 中 满 - 空 位 都 没有 受到 青睐 。 

3. 中断 

为 一 种 重要 的 事件 是 中 断 ， 主 要 源 于 需要 处 理 器 关注 的 WO 设备 。 在 单 处 理 器 机 器 中 ， 
中 断 该 谁 来 处 理 不 是 一 个 问题 ， 但 在 SMP 中 ， 任 何 处理 器 都 可 能 承担 中 断 任务 。 除 此 以 外 ， 
还 有 一 个 处 理 器 向 另 一 个 处 理 器 发 中 断 的 情况 。 在 早期 的 SMP 设计 中 ， 提 供 特 殊 硬件 来 管 
理 每 个 处 理 器 上 进程 的 优先 级 ， 将 IO 中 断送 到 低 优先 级 的 处 理 器 上 。 这 样 的 做 法 证 明 价值 
不 大 ， 多 数 现代 机 器 用 的 是 简单 的 仲裁 策略 。 除 此 以 外 ， 通 常 存在 一 种 存储 上 映射 的 中 断 控制 
区 ， 于 是 可 以 在 内 核 层 次 ， 通 过 在 相关 的 地 址 上 写 人 中 断 信息 ， 使 得 任何 处 理 器 能 中 断 任何 
其 他 处 理 器 。 


5.5.5 全 局 (WÈ) 事件 的 同步 


最 后 ， 我 们 考察 一 下 在 基于 总 线 机 器 上 的 栅 麻 同步 问题 。 栅 障 软件 算法 的 实现 通常 都 
用 锁 、 共 享 计数 器 和 标记 单元 。 首 先 我 们 看 p 个 进程 之 间 的 一 种 简单 的 机 障 ， 称 为 集中 式 
栅 障 ， 它 只 用 一 把 锁 、 一 个 计数 器 和 一 个 标记 位 。 

1. 集中 式 软件 栅 障 

用 一 个 共享 的 计数 器 来 记录 到 达 栅 障 的 进程 数 ， 每 一 个 到 达 的 进程 使 它 加 1。 这 些 加 1 
操作 必须 是 互 斥 的。 在 对 该 计数 器 作 了 加 1 操作 后 ， 进 程 检 查 计数 值 是 否 等 于 p， 即 它 是 否 
是 最 后 一 个 到 达 的 进程 。 如 果 不 是 ， 它 就 进入 忙 等 待 状态 ， 等 在 和 栅 障 相关 的 标记 位 上 ;如 
果 是 ， 它 就 置 标记 位 ， 释 放 p - 1 个 等 待 着 的 进程 。 于 是 ,我 们 可 能 提出 棚 障 算法 的 一 个 简 
单 实现 如 下 : 


struct bar_type { 
int counter; 
struct lock_type lock; 
int flag = 0; 

} bar_name; 


BARRIER (bar_name, p) 
{ 
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LOCK (bar_name. lock) ; 


if (bar_name.counter == 0) 
bar_name.flag = 0; /*reset flag if first to reach*/ 
mycount = bar_name.counter++; /*mycount is a private variable*/ 
UNLOCK (bar_name.lock) ; 
if (mycount == p) { /*last to arrive*/ 
bar_name.counter = 0; /*reset counter for next barrier*/ 
bar_name.flag = 1; /*release waiting processes*/ 
} 
else 
while (bar_name.flag == 0) (}; /*busy-wait for release*/ 


} 


2. 带 有 感应 逆转 的 集中 式 栅 障 
能 看 出 上 面 的 栅 障 有 什么 问题 吗 ?” 我 们 会 发 现 有 一 个 问题 。 它 发 生 在 同样 栅 障 变量 上 连 
续 进行 机 障 操作 的 时 候 一 一 例如 ， 如 果 每 个 处 理 器 执行 下 面 的 代码 : 


some computation... 
BARRIER (bari, P); 

Some more computation... 
BARRIER (bar1. Pp); 


25 — ASE AH RE ERRE — UE A eT, EA E FER 
记 位 。 为 了 从 第 一 个 栅 障 出 来 ， 进 程 踏步 在 标记 上 直到 它 为 1。 看 到 标记 为 1 的 进程 将 离开 
栅 障 ， 进 行 后 面 的 计算 ， 再 次 进入 栅 障 。 然 而 ， 假 设 一 个 处 理 器 P, 没有 来 得 及 看 见 标记 变 
成 了 1， 其 他 进程 又 进入 了 第 二 个 栅 障 ;这 种 情况 是 可 能 的 ， 例 如 由 于 等 待 时 间 太 长 而 被 操 
作 系 统 交 换 出 去 了 。 当 它 再 次 被 交换 进来 时 ， 它 就 要 继续 等 在 标记 位 上 。 同 时 ， 其 他 进程 可 
能 已 经 第 二 次 进入 栅 障 ， 它 们 中 的 第 一 个 将 把 标记 置 0。 现 在 ， 这 个 标记 位 只 有 当 所 有 进程 
都 第 二 次 进入 栅 障 后 才能 置 1， 但 这 不 可 能 发 生 ， 因 为 P, 没 办 法 离开 第 一 次 机 障 的 反复 循环 。 

如 何 解决 这 个 问题 ? 我们 要 做 的 是 防止 一 个 进程 在 所 有 其 他 进程 都 离开 先前 的 栅 障 操作 
之 前 再 次 进入 这 个 顶 障 。 一 个 办 法 是 用 另 一 个 计数 器 来 记录 离开 了 栅 障 的 进程 ， 在 这 个 计数 
器 未 达到 p 之 前 不 让 进程 在 新 的 栅 障 操作 中 对 标记 复位 。 然 而 ， 对 这 个 计数 器 的 操作 会 引 
起 进一步 的 时 延 和 和 争 用 。 另 一 方面 ， 在 日 前 的 框架 下 面 ， 我 们 没 办 法 等 所 有 进程 都 到 达 栅 障 
后 再 将 标记 置 0， 因 为 我 们 是 将 它 置 1 来 释放 进程 的 。 一 个 较 好 的 解决 方案 是 避免 显示 重 置 
标记 的 值 ， 而 让 进程 等 待 标记 在 后 面 的 栅 障 事例 中 获得 一 个 不 同 的 释放 值 。 例 如 ， 进 程 可 能 
在 一 次 事例 中 等 待 标记 变 成 1， 在 下 一 次 事例 中 等 待 变 成 0。 可 以 用 一 个 私有 变量 来 跟踪 在 
本 次 事例 中 要 等 待 的 值 。 根 据 栅 障 的 语义 ,一 个 进程 不 能 超越 其 他 进程 多 出 一 个 机 障 ， 于 是 
我 们 只 需要 两 个 值 (0, 1) 在 其 间 交 换 。 因 此 我 们 称 这 种 方法 为 感应 逆转 (sense reversal). 
现在 ， 在 前 面 的 例子 中 ， 当 第 一 个 进程 到 达 顶 障 时 ， 标 记 不 需要 复位 ; 相反 ， 停 在 老 栅 障 上 
的 进程 仍然 等 待 标记 达到 老 的 释放 值 ， 而 进入 新 事例 的 进程 等 待 另 外 的 释放 值 。 当 所 有 进程 
到 达 了 新 栅 障 事例 ， 标 记 的 值 只 改变 一 次 ， 因 此 在 老 事例 上 的 进程 看 到 之 前 将 不 会 改变 。 下 
面 是 一 段 对 应 的 代码 : 

BARRIER (bar_name, p) 


{ 
local_sense = !(local_sense) ; /*toggle private sense variable */ 
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LOCK (bar_name.lock) ; 


mycount = bar_name.counter++; /*mycount is a private variable*/ 
if (bar_name.counter == p) { /*last to arrive*/ 
UNLOCK (bar_name.lock) ; 
bar_name.counter = 0; /*reset counter for next barrier*/ 
bar_name.flag = local_sense;  /*release waiting processes */ 
) 
else { 
UNLOCK (bar_name.lock) ; 
while (bar_name.flag != local_sense) {}; /*busy-wait for 
release*/ 


} 
} 


注意 在 计数 器 增 量 后 锁 不 是 立刻 被 释放 的 ， 锁 的 释放 只 是 在 条 件 被 求 值 后 发 生 ， 这 里 的 
原因 在 习题 5.18 中 可 以 发 现 。 我 们 现在 有 了 一 个 正确 的 栅 障 了 ， 可 以 连续 重用 任何 次 数 。 
剩 下 的 问题 就 是 我 们 下 面 要 考虑 的 性 能 。( 注 意 ， 保 护 计数 器 增 量 的 LocK/UNLOCK 可 以 被 简 
BN LSC BRED, BREE.) 

+E 

RERET ， 包 括 : 

会 延迟 。( 关 键 路 径 的 长 度 要 小 ) p 个 处 理 器 通过 栅 障 所 项 的 相关 操作 的 链 和 总 线 事 
务 应 该 尽量 小 。 

低 流 量 。 由 于 栅 障 是 全 局 操作 ， 很 可 能 许多 处 理 器 会 试图 在 同一 时 间 执 行 一 个 栅 障 算法 。 
这 个 算法 应 该 减少 总 线 事务 的 总 数 无论 是 否 在 关键 路 径 上 )， 从 而 减少 可 能 的 争 用 。 

可 扩展 性 。 时 延 和 流量 应 该 只 随处 理 器 数 缓慢 增加 。 

低 存 储 代 价 。 我 们 当然 希望 存储 代价 低 。 

公平 性 。 我 们 应 该 避免 同一 个 处 理 器 总 是 最 后 一 个 离开 李 障 的 情形 (或 者 我 们 可 能 
要 保持 FIFO FF). 

在 前 面 所 描述 的 集中 式 概 障 中 ， 每 个 处 理 器 访问 一 次 锁 ， 因 此 关键 路 径 的 长 度 至 少 和 
成 比例 。 下 面 考虑 总 线 流量 。 为 了 完成 它 的 操作 ，_ 个 涉及 个 处 理 器 的 集中 式 册 障 要 做 
2p 次 总 线 事务 来 获得 锁 和 对 计数 器 加 一 ， 两 次 总 线 事务 让 最 后 一 个 处 理 器 对 计数 器 复位 ， 
写 人 释放 标记 ， 另 外 还 需 p -1 次 总 线 事务 来 在 标记 作废 后 再 读 它 。 注 意 这 要 好 于 p 个 处 理 
器 要 获取 一 把 test-and-test&set 锁 的 情况 ; 因为 在 后 面 一 种 情况 下 ， 每 次 释放 (共有 pik) 都 
引起 作废 ， 结 果 是 0(p ) 进程 要 在 此 又 一 次 完成 test&set 操作 ， 于 是 就 导致 0 ( (p?) 总 线 事 
务 。 然 而 ， 如 果 许 多 处 理 器 同时 到 达 栅 障 ， 源 于 这 些 竞争 性 总 线 事务 的 竞争 可 能 是 很 大 的 ， 
因此 ， 栅 障 的 代价 可 能 很 高 。 

4. 栅 障 算法 针对 总 线 的 改进 

集中 式 栅 障 的 部 分 问题 是 所 有 处 理 器 争 用 相同 的 锁 和 标记 变量 。 为 对 付 这 样 的 问题 ， 我 
们 可 以 构造 一 种 栅 障 ， 只 引起 少数 处 理 器 争 用 相同 的 变量 。 例 如 ， 处 理 器 能 通过 一 种 软件 结 
合 树 来 指示 它们 到 达 了 机 障 ( 见 3.3.2 节 )。 例 如 在 一 一 个 二 元 结合 树 中 ， 只 有 两 个 处 理 器 在 
树 的 节点 上 相互 通报 它们 的 到 来 。 这 样 ， 只 有 两 个 处 理 器 会 访问 一 个 给 定 变量 。 在 有 着 多 重 


并 行 通路 的 分 布 式 网 络 中 ， 诸 如 那些 可 扩展 机 器 中 所 有 的 ， 一 个 结合 树 能 比 集中 式 栅 障 性 能 [356] 
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好 得 多 。 这 是 由 于 两 对 不 同 的 处 理 器 能 在 网 络 的 不 同 部 分 并 行 通信 。 然 而 ， 对 于 像 总 线 那样 
的 集中 式 互 连 来 说 ， 即 使 处 理 器 对 通过 不 同 的 变量 通信 ， 它 们 都 要 产生 总 线 事 务 ， 于 是 就 要 
串 行 化 ， 且 在 这 条 总 线 上 和 争 用 。 由 于 含有 p 叶 节 点 的 二 元 树 大 约 有 2p 个 节点 ， 一 个 结合 
所 需要 的 总 线 事务 数 和 集中 式 栅 障 类 似 。 结 合 树 方式 还 有 较 高 的 时 延 ， 这 是 因为 除了 它 也 要 
求 OCp ) 串 行 化 总 线 事务 外 ， 即 使 没有 总 线 串 行 化 ， 每 个 处 理 器 还 至 少 等 待 logp 步 才能 从 
叶 节 点 到 达 树 的 根 ， 每 一 步 都 有 实质 性 的 工作 。 结 合 树 在 总 线 上 的 优点 是 它 不 用 锁 ， 而 只 是 
简单 的 读 写 操作 ， 如 果 总 线 上 的 处 理 器 数目 很 大 ， 这 可 能 对 它 的 较 大 的 非 竞 争 时 延 是 个 补 
偿 。 然 而 ， 如 图 5-31 所 示 ， 简 单 集中 式 栅 障 在 总 线 上 表现 很 好 。 图 5-31 中 示 出 的 其 他 一 些 
栅 障 将 在 第 7 章 讨论 可 扩展 机 器 时 和 树 栅 障 一 并 讨论 。 


有 时间 (us) 


图 5-31 SGI Challenge 上 一 些 栅 障 的 性 能 ， 
这 里 性 能 的 度量 是 在 一 个 循环 中 
ESAT SHR, Sa 
的 平均 时 间 〈 在 栅 障 之 间 没 有 工作 
或 延迟 )。 结 合 树 栅 障 在 其 关键 路 
径 上 有 和 较 高 的 时 延 ， 这 使 得 在 总 线 
上 它 的 性 能 不 好 ， 因 为 在 这 种 情况 
下 它 的 流量 和 争 用 优势 体现 不 出 来 





5. 硬件 原 语 


由 于 集中 式 栅 障 用 锁 和 普通 的 读 和 写 ， 所 需 的 硬件 原 语 取决 于 所 用 的 锁 算法 。 如 果 一 个 
机 器 不 能 很 好 支持 原 语 ， 结 合 树 栅 障 也 可 以 在 基于 总 线 的 机 器 上 用 得 很 好 。 

一 个 特别 的 总 线 原 语 可 以 用 来 减少 在 集中 式 顶 障 中 读 扑 空 引起 的 总 线 事 务 的 数量 (也 对 
处 理 器 踏步 等 待 同一 变量 的 高 度 争 用 的 锁 有 用 )。 这 个 优化 利用 了 如 下 事实 ， 当 一 个 变量 在 
释放 作废 后 ， 所 有 处 理 器 发 出 对 它 的 读 扑 空 。 不 同 于 所 有 处 理 器 发 出 分 别 的 读 扑 空 总 线 事 
务 ， 一 个 处 理 器 能 够 管理 总 线 ， 在 看 到 对 同一 单元 的 读 扑 空 〈 由 另 一 处 理 器 发 出 ， 首 先 到 达 
总 线 ) 的 响应 后 ， 将 自己 的 读 扑 空 在 到 达 总 线 前 取消 ， 然 后 简单 地 从 总 线 上 取得 返回 数据 。 
在 最 好 的 情况 下 ， 这 种 做 法 能 将 读 扑 空 总 线 事务 从 p 降 到 1。 

6. RAE HR EE 

WRAP Th A BR, WORE, ET DR, OE 
量 和 冲突 从 主要 总 线 上 分 离 出 来 ， 从 而 得 到 较 高 性 能 的 栅 障 。 从 概念 上 讲 ， 一 条 “ 线 与 ” 线 
路 就 足够 了 。 当 到 达 栅 障 时 ， 处 理 器 将 它 对 这 条 线 的 输入 置 1， 然 后 等 到 输出 为 1 后 再 向 前 
推进 〈 在 实际 中 ， 重 用 栅 障 要 求 的 线 不 只 一 根 )。 这 样 一 种 单独 的 栅 障 硬件 机 制 在 栅 障 频率 
很 高 的 情况 下 特别 有 用 ， 这 种 情况 可 能 出 现在 由 并 行 化 编译 生成 的 程序 的 内 层 循 环 里 ， 在 每 
次 内 层 循 环 完成 后 都 需要 一 次 全 局 同步 。 不 过 ， 它 的 价值 在 实际 中 尚 不 清楚 ， 而 且 在 机 器 中 
的 处 理 器 只 有 部 分 参与 栅 障 时 难于 管理 。 例 如 ， 不 容易 动态 地 改变 参与 栅 障 的 处 理 器 的 数 
量 ， 在 操作 系统 使 得 进程 在 处 理 器 之 间 迁 移 时 也 不 容易 改动 参与 处 理 器 的 配置 。 如 果 多 个 参 
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与 进程 运行 在 同一 个 处 理 器 上 也 会 造成 麻烦 。 因 此 ， 当 前 总 线 型 多 处 理 器 不 倾向 于 提供 特别 
的 硬件 支持 ， 而 是 用 锁 和 共享 变量 来 构造 软件 栅 障 。 


5.5.6 同步 问题 小 结 


有 些 基 于 总 线 的 机 器 对 诸如 锁 和 栅 障 等 同步 操作 提供 直接 的 硬件 支持 。 然 而 ， 关 于 灵活 
性 的 考虑 导致 大 多 数 现代 设计 人 员 只 在 硬件 上 提供 简单 的 原子 操作 ， 通 过 用 它们 来 构成 软件 
库 ， 来 得 到 高 层 同 步 操作 。 应 用 程序 人 员 通 常用 这 些 库 ， 可 以 不 需要 了 解 那些 由 机 器 支持 的 
底层 原子 操作 。 这 些 原子 操作 可 能 是 通过 单条 指令 实现 的 ， 或 者 通过 仔细 推荐 的 读 写 指令 对 
来 实现 的 ， 如 同 装载 -加 锁 和 条 件 存 储 。 后 者 有 和 较 大 的 灵活 性 ， 这 使 得 它们 日 益 流 行 。 我 们 
已 经 看 到 了 一 些 同 步 原 语 ， 算 法 和 系统 结构 细节 之 间 的 相互 作用 。 在 后 面 几 章 中 ， 当 我 们 讨 
论 可 扩展 共享 地 址 空间 机 器 时 ， 这 种 相互 作用 会 进一步 体现 出 来 。 


5.6 对 软件 的 影响 


迄今 为 止 ， 我 们 一 直 关注 着 基于 总 线 的 、 具 有 高 速 缓存 一 致 性 的 多 处 理 器 的 高 层 体系 结 
构 的 问题 ， 以 及 工作 负载 的 特性 对 体系 结构 和 协议 折 中 的 影响 。 现 在 ， 我 们 转 回来 探究 这 些 
小 规模 机 器 的 体系 结构 是 如 何 影响 并 行 软件 的 。 具 体 来 说 ， 我 们 不 再 是 在 固定 工作 负载 的 条 
件 下 研究 提高 机 器 性 能 或 协议 的 方法 ， 而 是 在 给 定 机 器 配置 情况 下 去 探究 怎样 提高 并 行程 序 
的 性 能 。 改 进 同步 算法 ， 以 减少 通信 和 量 和 时 延 就 是 其 中 一 个 方面 ， 下 面 先 让 我 们 更 一 般 地 看 
看 并 行程 序 设 计 的 过 程 。 

关于 负载 平衡 和 固有 通信 的 一 般 性 技术 在 第 3 章 中 已 讨论 过 了 ， 这 些 技术 也 适用 于 一 致 
性 高 速 缓存 的 机 器 中 。 除 此 以 外 ， 在 这 类 机 器 有 一 种 一 般 性 划分 原则 ， 即 在 对 计算 任务 的 分 
配 时 ， 力 图 使 得 只 有 一 个 处 理 器 对 一 组 数据 做 写 操作 (至 少 在 单个 计算 阶段 中 )。 在 很 多 计 
算 问 题 中 ， 处 理 器 要 读 某 一 共享 数据 结构 ， 但 写 另 一 个 数据 结构 ， 因 此 这 种 原则 可 以 应 用 于 
很 多 计算 领域 。 例 如 ， 在 Raytrace 应 用 中 ， 处 理 器 读 的 是 场景 ， 写 的 是 图 像 。 常 常 可 以 有 两 
种 选择 ， 一 是 划分 计算 任务 以 至 于 不 同 处 理 器 写 的 是 不 相交 的 数据 结构 ， 但 从 共享 数据 结构 
中 读 ; 或 是 从 不 相交 的 数据 结构 中 读 ， 但 写 到 同一 块 共享 存储 区 。 在 所 有 其 他 因素 相同 的 情 
况 下 诸如 负载 均衡 ， 程 序 设计 的 复杂 度 )， 我 们 认为 通常 应 该 避免 写 共享 。 写 共享 不 仅 能 
引起 作废 ， 从 而 导致 缓存 扑 空 和 流量 增加 ， 而 且 如 果 不 同 的 处 理 器 写 同 一 字 ， 很 可 能 这 样 的 
写 操作 必须 被 诸如 锁 一 样 的 同步 机 制 保护 起 来 ， 所 带 来 的 开销 于 是 更 大 。 

通信 的 结构 比较 单纯 ， 有 一 个 集中 式 存 储 器 ， 没 必要 用 显 式 的 存储 器 到 存储 器 的 数据 传 
送 ， 因 而 所 有 的 通信 都 是 通过 load 和 store 指令 隐 式 完成 的 ， 这 样 的 指令 会 导致 缓存 块 的 传 
送 。 映 射 不 是 一 个 问题 (除了 尽量 使 进程 在 不 同 处 理 器 间 少 做 迁移 )， 它 由 操作 系统 全 权 处 
理 。 人 们 最 关心 的 问题 是 在 性 能 协调 步骤 中 利用 数据 局 部 性 和 控制 附加 的 通信 ， 特 别 是 利用 
时 间 和 空间 局 部 性 来 减少 高 速 缓存 扑 空 ， 从 而 减少 时 延 、 通 信 重 和 在 共享 总 线 上 的 争 用 。 

由 于 主 存 是 集中 式 的 ， 时 间 局 部 性 体现 在 处 理 器 的 高 速 缓存 中 。 第 3 章 介绍 了 基于 总 线 
机 器 的 工作 集 曲 线 ， 其 特性 如 图 5-32 所 示 。 所 有 和 容量 有 关 的 扑 空 都 要 出 现在 同一 个 总 线 
上 ， 从 而 要 反映 到 存储 器 中 ， 其 代价 和 一 致 性 扑 空 一 样 高 。 即 使 有 无 限 大 的 高 速 缓存 ， 另 外 
三 类 扑 空 也 会 产生 总 线 流量 。 开 发 时 间 局 部 性 的 主要 目的 就 是 让 工作 集 能 放 到 高 速 缓存 的 层 
次 结构 中 ， 所 用 的 技术 和 第 3 章 中 讨论 过 的 相同 。 

对 空间 局 部 性 来 说 ， 一 个 集中 式 的 存储 器 使 数据 在 主 存 中 的 分 布 和 存储 分 配 是 无 关 紧要 
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缓存 尺寸 
图 5-32 在 共享 总 线 上 的 数据 流量 及 其 各 种 成 分 随 缓存 大 小 的 变化 。 拐 点 指出 程序 的 工作 集 


的 〈 仪 仅 在 存储 器 不 同 模块 之 间 安 排 数 据 的 交叉 存 取 以 减少 争 用 可 能 是 应 该 考虑 的 ， 这 一 点 

和 单 处理 器 情形 一 样 )。 空 间 局 部 性 不 好 的 效果 是 存储 碎片 〈 也 就 是 将 不 必要 的 数据 取 到 了 

缓存 块 中 ) 和 伪 共享 。 这 里 的 原因 是 通信 和 一 致 性 的 粒度 都 是 缓存 块 ， 要 比 一 个 字 大 。 前 者 

引起 存储 碎片 ， 后 者 引起 伪 共 享 。( 这 里 我 们 假定 没有 用 到 消除 伪 共 享 的 一 些 技术 ,例如 设 

置 子 块 的 脏 位 ， 因 为 它们 在 大 多 数 实际 机 器 中 都 没 采用 。) 我 们 考察 一 些 减轻 这 些 问 题 的 方 

法 和 有 效 地 利用 大 缓存 块 预 取 的 结果 ， 以 及 通过 更 好 的 数据 的 空间 组 织 去 减轻 缓存 冲突 的 一 
些 方法 。 在 程序 员 的 “技巧 锦 讲 ”中 能 发 现 很 多 这 样 的 方法 。 下 面 所 列 出 的 是 一 些 最 通行 的 。 

。 任务 的 分 配 应 减少 访问 模式 的 空间 交 又 。 任 务 的 分 配 应 该 是 让 每 个 处 理 器 去 访问 一 

片 相 邻 的 数据 区 。 例 如 ， 把 一 个 n 个 元 素数 组 的 计算 分 配给 p 个 处 理 器 处 理 ， 最 好 

的 分 配 是 让 每 个 处 理 器 访问 n/p 个 相 邻 的 元 素 ， 而 不 是 对 元 素 进行 精细 地 交叉 分 配 。 

这 样 提高 了 数据 的 空间 局 部 性， 减少 了 缓存 块 的 伪 共 享 。 当 然 负 载 均衡 或 其 他 一 些 


约束 可 能 迫使 我 们 不 能 这 样 做 。 
。 组织 数据 以 减少 访问 模式 的 空间 交叉 。 在 第 3 章 中 我 们 有 一 个 在 方程 求解 器 内 核 中 
| 360 | 的 例子 ， 那 里 我 们 用 高 维 的 数组 使 一 个 数组 在 一 个 处 理 器 中 的 分 配 在 地 址 空间 上 是 





连续 的 ， 于 是 在 物理 上 分 布 的 存储 器 中 ， 本 地 分 配 能 按 页 的 粒度 来 进行 。 这 种 方法 
也 可 以 帮助 减少 伪 共 享 数据 传送 的 存储 碎片 和 冲突 扑 空 ， 如 图 5-33 和 图 5-34 所 
示 ， 从 而 减少 扑 空 和 总 线 上 的 流量 。 一 个 比 网 格 元 素 大 的 缓存 块 可 能 跨越 面向 列 的 
划分 的 边界 ， 如 图 5-33a 所 示 。 如 果 一 缓存 块 比 两 个 网 格 元 素 还 大 ， 它 就 可 能 引起 由 
伪 共 享 导致 的 通信 。 如 果 我 们 暂且 假定 在 算法 中 不 存在 固有 的 数据 通信 ， 这 一 点 是 
很 容易 看 到 的 ; 例如 ， 假 设 在 每 一 次 遍历 中 一 个 进程 只 是 简单 地 把 一 常量 加 到 该 进 
程 所 分 配 到 的 网 格 元 素 上 ， 而 不 是 执行 一 次 相 邻 元 素 的 计算 。 现 在 ， 即 使 缓存 块 有 
两 个 网 格 元 素 那么 大 〈 或 更 大 ) ， 跨 越 一 个 划分 的 边界 ， 由 于 不 同 的 处 理 器 向 其 中 不 
同 的 字 做 写 操作 ， 也 将 会 出 现 伪 共 享 。 这 也 将 导致 在 通信 中 的 存储 碎片 ， 因 为 一 个 
谈 其 边界 元 素 但 扑 空 了 的 进程 会 去 取 在 同一 缓存 块 、 但 在 其 他 处 理 器 划分 中 的 其 
他 元 素 , 但 那些 数据 是 它 不 需要 的 。 图 5-34 解释 了 冲突 扑 空 的 问题 。 在 以 上 所 有 
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连续 的 存储 布局 


缓存 块 跨 过 划分 边界 缓存 块 在 一 个 划分 内 








b) 四 维 数 组 


图 5-33 利用 高 维 数组 保持 划分 在 地 址 空间 中 的 连续 ， 以 减少 伪 共 享 和 存储 碎片 。 在 二 维 
数组 的 情形 中 ， 跨 划分 边界 的 缓存 块 存储 碎片 ( 扑 空 导致 带 人 其 他 处 理 器 划分 中 
的 无 用 的 数据 ) 和 伪 共 享 。 四 维 数组 表示 使 得 划分 连续 ， 从 而 缓解 了 这 些 问题 


子 行 中 的 位 置 
CSS 并 H oz 
RN AS pA. ERR 
Se BH RA Fp OTe A ie 
ERAI GE 会 由 它 的 子 行 

映射 到 其 他 的 处 理 
器 划分 中 ， 这 样 就 会 被 浪费 了 











图 5-34 由 二 维 数组 表示 在 一 个 直接 映射 缓存 中 引起 的 高 速 缓 存 映 射 冲突 。 这 个 图 表示 最 坏 的 情况 ， 
在 处 理 器 划分 中 相继 两 个 子 行 的 间隔 〈 即 二 维 数组 中 一 行 的 大 小 ) 正好 等 于 缓存 的 大 小 ， 于 
是 相继 的 两 个 子 行 映射 到 缓存 中 的 相同 的 位 置 。 对 每 一 子 行 的 访问 将 蔡 换 出 前 面 的 子 行 。 处 
理 器 在 它 的 划分 上 做 下 一 次 遍历 时 ， 它 会 在 它 引 用 的 每 个 缓存 块 上 扑 空 ， 即 便 缓 存 大 得 能 装 
下 整个 划分 也 是 如 此 。 受 网 格 大 小 、 处 理 器 数 和 缓存 大 小 的 影响 ， 我 们 可 能 遇 到 许多 不 如 最 坏 
情况 差 的 中 间 状 况 。 由 于 缓存 大 小 是 2 的 短 次 ， 将 待 分 配 的 数组 的 维 展 定 为 2 的 宕 次 是 不 利 的 

情况 下 的 问题 都 是 划分 的 不 连续 性 。 于 是 ， 一 个 简单 的 数据 结构 变换 (如 图 5-33b 所 
示 ) 就 帮助 我 们 在 方程 求解 器 内 核 中 解决 了 所 有 与 空间 局 部 性 相关 的 问题 。 图 5-35 
表示 的 是 在 SGI Challenge 上 ， 针 对 Ocean 和 LU 应 用 用 高 维 数组 表示 网 格 或 分 块 矩 阵 
对 性 能 的 影响 。 冲 突 和 伪 共 享 对 于 单 处 理 器 和 多 处 理 器 性 能 影响 的 差别 在 此 是 很 明 
显 的 。 


”防止 冲突 扑 空 。 针 对 发 生 在 网 格 求解 器 的 冲突 扑 空 ， 图 5-34 表明 了 由 于 高 速 缓存 的 
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一 一 n = 130, 4D 数组 n= 1,024, 4D 数组 
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~ 一 0 = 514, 2D 数组 n= 2,048, 2D 数组 
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图 5-35 在 SGI Challenge 上 用 四 维 数组 和 二 维 数组 表示 和 矩阵 数据 对 性 能 的 影响 。 所 显 

示 的 数据 针对 Ocean 和 LU 的 不 同 的 问题 规模 。 对 于 0cean,“ 条 状 ” 表 示 按 连续 

行 的 条 状 划分 〈 其 中 二 维 或 四 维 数组 无 关 紧 要 ) ， 其 他 情形 表示 类 方块 状 划 分 
大 小 通常 是 2 的 整 次 协 ， 当 数组 的 存储 分 配 规模 也 是 2 的 军 时 高 速 缓存 冲突 的 严重 情 
况 。 于 是 ， 在 应 用 中 即使 数组 的 逻辑 大 小 是 2 的 整 次 宕 ， 我 们 也 常常 分 配 一 个 更 大 的 
数组 , 但 只 访问 其 中 有 效 的 部 分 。 不 过 这 种 策略 会 受到 物理 上 分 布 存 储 分 配 页 面 粒度 
EEKE) 的 影响 ， 所 以 我 们 必须 小 心 。 在 此 例 中 的 高 速 缓存 映射 冲突 发 生 
在 一 个 以 可 预 取 模 式 访 问 的 单一 数据 结构 中 ， 因 而 能 在 一 定数 据 结构 下 得 到 缓解 。 当 
映射 冲突 发 生 在 不 同 的 主 数据 结构 之 间 时 ， 映 射 冲突 是 很 难 避免 的 (例如 ， 遂 过 由 
Ocean 应 用 程序 使 用 的 不 同 网 格 )， 这 种 情况 可 能 只 利用 随意 填充 和 对 准 来 缓解 。 然 
而 ， 在 一 个 共享 地 址 空间 上 ， 当 它们 发 生 在 一 些 看 似 无 害 的 共享 变量 和 数据 结构 上 时 
《程序 员 通 常 不 太 注 意 这 些 变 量 和 数据 结构 )， 常 常 是 特别 隐伏 的 。 例 如 ， 在 一 个 直接 
映射 的 高 速 缓存 中 ， 一 个 频繁 被 访问 的 指向 重要 数据 结构 的 指针 可 能 会 与 一 个 在 同一 
计算 中 也 被 频繁 访问 的 标量 变量 发 生 缓 存 冲突 ， 导 致 很 大 的 通信 量 。 地 运 的 是 ， 在 现 
代 两 级 高 速 缓存 中 (容量 大 并 且 是 组 相 联 ) 这 些 问 题 出 现 很 少 。 总 之 ， 如 果 不 把 注意 
力 放 在 减少 冲突 扑 空 上 ， 那 么 在 开发 局 部 性 上 的 努力 就 会 白费 了 。 
。 每 个 处 理 器 都 用 单独 的 堆 。 这 是 值得 考虑 的 一 种 方法 ， 每 个 处 理 器 (或 进程 ) 都 有 
自己 独立 的 堆 用 来 动态 地 进行 数据 分 配 。 否 则 ， 如 果 一 个 程序 要 访问 很 多 非常 小 的 存 
储 区 ， 被 不 同 处 理 器 使 用 的 数据 就 可 能 落 在 同一 缓存 块 中 。 
。 通过 数据 拷贝 来 提高 空间 局 部 性 。 如 果 一 个 处 理 器 要 反复 用 到 一 组 本 来 不 是 连续 分 
配 的 数据 ， 我 们 可 以 考虑 做 适当 的 数据 拷贝 ， 使 得 它们 在 相应 的 计算 周期 中 是 连续 分 
配 的 ， 从 而 提高 数据 的 空间 局 部 性 ， 减 少 缓存 冲突 。 这 里 要 注意 的 是 ， 拷 贝 数 据 需 要 
访问 主 存 因 而 有 一 定 的 开销 ; 同时 ， 如 果 那 些 数据 可 能 都 驻 留 在 高 速 缓存 中 ， 这 种 方 
法 就 无 效 了 。 例 如 ， 在 分 块 年 阵 的 因子 分 解 或 乘法 的 计算 中 ， 用 二 维 数 组 表示 和 矩阵 ， 
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和 矩阵 中 的 每 一 分 块 在 地 址 空间 中 是 不 连续 的 (就 像 在 方程 求解 器 内 核 中 的 一 个 划分 )。 
然而 ， 二 维 表 示 能 使 程序 设计 更 简单 。 因 此 一 种 常见 的 做 法 是 用 二 维 数组 ， 但 在 相关 
的 计算 阶段 将 分 给 其 他 处 理 器 的 数据 拷贝 到 自己 的 一 片 连续 的 临时 数据 区 中 ， 来 减少 
冲突 扑 空 。 当 然 ， 拷贝 的 代价 需要 和 冲突 减少 的 利益 权衡 。 在 有 关 粒 子 的 应 用 中 ， 当 
一 个 粒子 从 一 个 处 理 器 的 划分 移动 到 另 一 处 理 器 时 ， 将 和 粒子 相关 的 数据 移动 到 一 个 
连续 、 紧 凑 的 数据 区 ， 可 以 提高 空间 局 部 性 。 

填充 数组 。 并 行程 序 设 计 者 经 常 创建 一 些 以 进程 标识 号 为 索引 的 数组 。 例 如 ， 为 了 
跟踪 负载 平衡 的 情况 ， 可 能 要 维持 一 个 p 元 整 型 数组 ， 数 组 的 每 一 项 记录 了 相应 处 
理 器 已 经 完成 的 任务 数 。 由 于 缓存 的 一 个 块 可 能 容纳 这 个 数组 中 的 大 部 分 元 素 ， 而 这 
些 元 素 经 常 要 被 不 同 的 处 理 器 更 新 ， 所 以 伪 共享 就 是 一 个 严重 的 问题 。 一 个 解决 的 办 
法 是 ， 用 一 些 无 用 元 素 填充 在 数组 的 有 用 项 之 间 ， 使 得 有 用 元 素 之 间 的 数组 段 和 缓存 
的 块 一 样 大 《预见 到 程序 可 能 在 不 同 的 机 器 上 运行 ， 也 可 以 填充 得 更 大 一 些 ) ， 然 后 
让 数组 和 一 个 缓存 抉 对 齐 。 但 是 填充 许多 大 数组 将 导致 存储 的 大 量 浪 费 ， 而 且 导 致 数 
据 传输 中 的 存储 碎片 。 一 个 更 好 的 策略 是 把 分 给 一 个 进程 的 这 种 性 质 的 变量 集中 到 一 
个 记录 中 ,将 该 记录 填充 至 一 缓存 块 ， 然 后 创建 一 个 以 这 样 的 记录 为 元 素 、 以 进程 标 
识 符 为 索引 的 数组 。 

决定 怎样 组 织 记录 数组 。 假 设 我 们 要 表示 一 些 逻 辑 记录 ， 如 在 Bames-Hut 引力 模拟 中 
的 粒子 。 我 们 应 该 是 用 一 个 数组 来 表示 粒子 集 ， 数 组 有 n 项 ， 每 一 项 为 一 个 粒子 的 
记录 ， 包 含 粒子 的 位 置 、 速 度 、 受 力 、 质 量 等 域 ， 如 图 5-36a 所 示 的 那样 呢 ? 还 是 把 
它们 表示 成 若干 n 元 数组 ， 每 个 数组 对 应 一 个 域 ， 如 图 5-36b 所 示 的 那样 ? 为 CRAY 
那样 传统 的 向 量 机 写 的 程序 常 按 一 个 对 象 的 性 质 或 域 分 类 ， 每 一 类 用 一 个 数组 (向 
量 ) 表示 一 一 实际 上 ， 甚 至 对 域 中 的 每 个 物理 维 (x、y 或 z) 都 分 别 用 一 个 数组 (向 
E) 表示 。 当 按 域 访问 数据 时 ， 如 访问 所 有 粒子 的 速度 ， 由 于 访问 跨 距 是 存储 单元 ， 
减少 了 存储 体 冲 突 ， 因 而 提高 了 向 量 操作 的 性 能 。 但 是 ， 在 缓存 一 致 性 的 多 处 理 器 
中 ， 需 要 考虑 一 些 新 的 折 中 ， 最 好 的 数据 组 织 方法 取决 于 访问 模式 。 
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图 5-36 基于 记录 数据 的 不 同 组 织 方式 
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在 Barnes-Hut 应 用 中 ， 粒 子 状 态 的 更 新 和 受 力 计算 阶段 揭示 了 一 个 引 人 注 目的 冲 
突现 象 。 先 考虑 更 新 阶段 。 在 这 一 阶段 处 理 器 读 写 被 分 配 的 所 有 粒子 的 位 置 域 和 速 
度 域 ,然而 被 分 配 的 粒子 在 同一 粒子 数组 中 是 不 连续 的 。 假 定 每 个 域 或 性 质 对 应 一 
个 n (粒子 数 ) 元 数组 。 一 个 双 精 度 三 维 的 位 置 (或 速度 ) 数据 占 24 个 字 节 ， 故 多 
个 这 样 的 数据 能 对 应 一 个 高 速 缓存 块 。 由 于 在 数组 中 邻近 的 粒子 可 能 被 不 同 的 处 理 
器 读 和 写 ， 因 而 将 引起 伪 共 享 。 在 这 个 阶段 ， 用 一 个 记录 数组 ， 数 组 中 的 每 一 项 记 
录 了 粒子 的 所 有 信息 ， 这 样 组 织 数 据 比 按 域 组 织 数据 要 好 。 

现在 我 们 考虑 受 力 计算 阶段 。 假 定 我 们 是 用 一 个 记录 数组 来 组 织 数据 ， 每 个 粒 
子 的 所 有 数据 在 其 中 的 一 个 记录 中 。 为 了 计算 一 个 粒子 的 受 力 ， 一 个 处 理 器 要 读 其 
他 许多 粒子 的 位 置 数据 ， 然 后 更 新 被 处 理 粒子 的 受 力 值 。 然 而 ， 一 个 粒子 的 受 力 值 
和 位 置 值 可 能 存在 于 同一 缓存 块 中 。 在 更 新 受 力 域 时 ， 可 能 会 同时 作废 该 粒子 在 其 
他 处 理 器 的 缓存 中 的 位 置 值 (这 个 粒子 的 记录 在 其 他 处 理 器 缓存 中 的 存在 是 由 伪 共 
享 所 导致 的 ， 其 他 处 理 器 要 用 到 该 粒子 的 位 置 数 据 ， 而 位 置 数据 在 这 个 计算 阶段 是 
不 被 修改 的 )。 在 这 种 情况 下 ， 如 果 我 们 把 以 粒子 记录 为 单元 的 数组 分 解 为 两 个 大 小 
都 为 n 的 数组 ， 一 个 以 位 置 域 (或 其 他 性 质 域 ) 为 单元 ， 一 个 以 受 力 域 为 单元 。 可 
以 如 前 所 述 填充 爱 力 数 组 ， 减 少 跨 粒 子 的 伪 共享 。 总 之 ， 把 一 个 记录 数组 分 解 为 两 
个 ， 一 个 数组 的 每 项 记录 是 在 一 个 计算 阶段 中 只 读 的 记录 域 ， 另 一 个 数组 的 每 项 记 
录 是 在 同一 阶段 中 要 更 新 的 记录 域 。 不 同 的 情况 或 计算 阶段 可 能 规定 不 同 的 数据 组 
BR, 但 最 终 的 结果 要 根据 对 性 能 起 支配 作用 的 模式 和 计算 阶段 。 
数组 的 对 准 。 结 合 前 述 的 技术 ， 将 数组 对 准 到 缓存 块 边界 能 得 到 更 多 的 好 处 。 例 如 ， 
一 个 缓存 块 的 大 小 为 64 字 节 ， 一 个 记录 域 为 8 字 节 ， 我 们 用 一 个 记录 数组 存放 粒子 
数据 ， 数 组 的 每 一 项 是 一 个 记录 ， 该 记录 有 x ys z fey fy. fe OR, TIER 
跨 粒 子 的 伪 共享 ， 我 们 为 每 一 个 记录 填充 两 个 8 字 节 的 虚 记 录 域 ， 使 每 个 记录 正好 
用 一 缓存 块 存放 。 但 如 果 数组 在 虚拟 地 址 空间 中 页 面 偏 移 32 字 节 的 地 方 起 始 ， 即 使 
利用 填充 法 也 会 导致 伪 共 享 ， 因 为 每 个 粒子 的 数据 将 跨 存 在 两 个 缓存 块 中 。 即 使 
malloc 调用 不 能 返回 和 页 或 缓存 块 对 齐 的 数据 ， 数 据 的 对 准 也 是 容易 办 到 的 ， 只 要 
在 调用 malloc 函数 时 多 要 求 一 点 额外 存储 ， 然 后 调整 数组 的 起 始 地 址 即 可 。 

通过 以 上 的 讨论 ， 数 据 的 组 织 、 对 准 和 填充 等 技术 对 于 开发 空间 局 部 性 ， 减 少 伪 共 享 和 
冲突 扑 空 都 是 很 重要 的 。 有 经 验 的 程序 员 ， 其 至 一 些 编译 器 都 使 用 这 些 方法 。 如 第 3 章 所 讨 
论 的 ， 我们 知道 局 部 性 和 附加 通信 的 问题 比 固有 数据 通信 对 性 能 更 重要 。 这 些 问 题 可 能 使 我 
们 为 了 某 个 应 用 而 重新 考虑 算法 的 划分 决策 (回顾 在 第 3 章 3.1.2 节 中 讨论 的 方程 求解 器 问 
题 ， 对 比 条 状 和 块 状 两 种 划分 ， 或 参看 图 5-35a) 。 


5.7 结论 


对 称 共享 存储 的 多 处 理 器 是 工作 站 和 个 人 电脑 的 自然 扩展 。 一 个 串 行 应 用 程序 可 以 照常 
在 其 上 运行 ,同时 享受 到 更 大 的 处 理 器 时 间 片 、 更 大 的 共享 主 存 和 在 这 种 机 器 中 典型 具备 的 
VO 能 力 所 带 来 的 好 处 。 运 行 并 行 应 用 也 相对 是 容易 的 ， 因 为 对 所 有 共享 数据 处 理 器 可 以 通 
过 普通 的 存 取 指令 直接 访问 。 在 这 样 的 机 器 上 也 容易 从 事 渐进 的 并 行 化 工作 ， 即 可 以 选择 串 
行 应 用 中 的 计算 密集 部 分 首先 并 行 化 ， 其 效果 当然 要 服从 Amdahl 定律 。 对 多 道 程序 的 工作 
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负载 ， 它 优势 的 关键 是 对 资源 共享 的 细 粒 度 ， 按 这 种 粒度 ， 系 统 的 资源 能 在 不 同 应 用 进程 之 
间 共 享 ， 并 且 由 不 同 的 操作 系统 共享 ， 因 此 能 很 容易 地 为 每 个 应 用 表现 出 一 种 熟悉 的 、 单 一 
系统 映像 。 在 时 间 上 ， 处 理 器 和 /或 主 存 页 面 时 常 被 重新 分 配给 不 同 的 应 用 进程 ; 在 空间 上 ， 
主 存 可 以 以 页 面 为 单位 分 配给 不 同 的 应 用 进程 。 因 为 这 些 吸引 人 的 特点 ， 所 有 大 型 的 计算 机 
系统 厂商 ， 从 工作 站 供应 商 Sun、Silicon Graphics, Hewlett-Packard, Digital. IBM 到 个 人 电脑 
供应 商 Intel, Compaq 都 在 生产 和 销售 这 样 的 机 器 。 事 实 上 ， 对 于 一 些 大 的 工作 站 供应 商 ， 
这 样 的 多 处 理 器 机 器 在 它们 的 销售 额 和 纯利 中 都 占 相 当 一 部 分 ， 因 为 在 这 些 高 端 机 器 上 有 更 
高 的 利润 。 

设计 对 称 多 处 理 器 的 关键 技术 难题 是 共享 存储 系统 的 组 织 和 实现 。 这 样 的 存储 系统 除了 
要 满足 常规 的 存储 访问 外 ， 还 要 用 来 在 处 理 器 之 间 的 通信 。 自 前 大 多 数 小 规模 并 行 机 用 系统 
总 线 作为 通信 的 互 连 ， 故 问题 转变 为 在 处 理 器 的 私有 缓存 中 保持 共享 数据 的 一 致 性 。 系 统 设 
计 者 有 很 多 有 效 的 选择 ， 其 中 包括 与 缓存 块 相关 联 的 状态 集 ， 所 用 到 的 总 线 事 务 处 理 和 动 
作 ， 缓 存 块 大 小 的 选择 ， 使 用 更 新 还 是 作废 策略 。 但 设计 者 关键 的 任务 是 依据 预期 的 数据 共 
享 模式 ， 在 工作 负载 的 高 效 执行 和 使 任务 实现 更 加 容易 之 间 做 出 选择 。 另 一 个 难题 是 高 效 的 
同步 技术 的 设计 和 实现 ， 要 求 即 有 高 性 能 也 有 灵活 性 。 

由 于 处 理 器 、 存 储 器 、 集 成 电路 和 封装 技术 的 持续 高 速 发 展 ， 人 们 关心 小 规模 多 处 理 器 
的 未 来 和 各 种 相关 的 设计 问题 。 我 们 依据 以 下 3 个 理由 预料 小 规模 多 处 理 器 将 继续 成 为 重要 
的 发 展 方向 。 首 先 ， 它 们 提供 了 一 个 很 吸引 人 的 性 能 价格 比 。 个 人 或 小 团体 都 能 承受 它们 ， 
把 它们 作为 一 个 共享 资源 或 一 个 计算 或 文件 服务 器 。 其 次 ， 当 今 微 处 理 器 的 设计 为 多 处 理 器 
作 好 了 准备 ， 在 设计 人 员 开 始 设计 下 一 代 多 处 理 器 的 时 候 ， 他 们 是 知道 微 处 理 器 的 未 来 趋势 
的 ， 因 此 在 新 发 布 的 微 处 理 器 和 用 其 构成 多 处 理 器 之 间 就 不 会 有 太 大 的 延迟 。 如 同 在 第 1 章 
YL, Intel Pentium Pro 微 处 理 器 就 可 以 直接 插 在 共享 总 线 上 。 其 三 ， 一 些 必要 软件 支持 正 迅 
速成 熟 起 来 。 例 如 ， 大 多 数 计算 机 系统 厂商 都 有 支持 它们 自己 基于 总 线 的 多 处 理 器 的 并 行 操 
作 系 统 版 本 。 随 着 集成 度 的 提高 ， 在 一 块 芯 片上 集成 多 个 处 理 器 将 更 加 吸引 人 。 尽 管 最 佳 的 
设计 点 会 随 技 术 和 工艺 的 发 展 变化 ， 但 在 本 章 中 讨论 的 设计 问题 是 基本 的 ， 无 论 技术 如 何 发 
展 它们 将 会 保持 其 重要 性 。 

本 章 在 逻辑 层 研 究 了 基于 总 线 多 处 理 器 的 设计 的 一 些 关键 方面 ， 包 括 缓存 块 状态 的 转换 
和 完整 的 〈 原 子 的 ) 总 线 事务 。 在 这 一 层 上 ， 设 计 和 实现 表现 在 对 传统 缓存 控制 器 的 护 展 。 
然而 ， 很 多 在 设计 上 的 困难 和 很 多 优化 与 改进 的 机 会 出 现在 下 一 层 协议 设计 和 更 具体 的 “ 物 
理 ” 层 中 。 下 一 章 将 讨论 深入 一 层 的 设计 ， 讨 论 基于 总 线 缓存 一 致 性 多 处 理 器 的 设计 和 体系 
结构 ， 包 括 一 些 自然 的 推广 。 


习题 


5.1 处 理 器 寄存 器 是 否 也 有 和 缓存 一 致 性 类 似 的 问题 ?假定 在 硬件 上 不 能 保证 寄存 器 的 同 
一 性 ， 目 前 的 系统 怎样 保证 程序 所 期 望 的 语义 ? 

5.2 下 图 表示 了 在 一 个 多 处 理 器 中 一 个 应 用 程序 的 扑 空 率 与 缓存 块 大 小 的 函数 曲线 。 与 预 
计 的 一 样 ， 曲 线 是 U 状 。 考 虑 在 曲线 上 的 A、B、C 三 点 。 指 出 在 什么 环境 下 ， 其 中 一 
点 可 能 是 机 器 的 敏感 操作 点 〈 也 就 是 说 ， 在 这 一 点 比 其 他 两 点 机 器 有 更 好 的 性 能 )。 对 
于 单 处 理 器 ， 曲 线形 状 和 位 置 有 怎样 的 变化 ? 
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5.3 


5.4 


5.5 


5.6 





A B C 


假设 一 个 基于 总 线 共 享 存储 器 的 处 理 器 的 平均 数据 存储 通信 量 : 私有 读 一 一 70% ， 私 








有 写 一 一 20% ， 共 享 读 一 一 8%， 共 享 写 一 一 2%。 同 时 50% 的 指令 (32 位 ) 是 存 和 
取 。 有 一 个 32 KB 的 数据 /指令 缓存 ， 私 有 数据 的 命中 率 是 97%， 共 享 数据 是 95% ， 指 
SHE 98. 5% RFRA 16 字 节 。 

我 们 希望 在 64 条 数据 线 和 32 条 地 址 线 的 总 线 上 放置 尽 可 能 多 的 处 理 器 。 一 个 处 理 器 
的 时 钟 是 总 线 时 钟 的 两 倍 ， 不 考虑 存储 器 的 影响 ， 处 理 器 的 CPL 是 2.0。 如 果 我 们 采用 
a) 写 分 配 策略 的 直 写 缓存 ， 总 线 最 大 能 支持 多 少 处 理 器 ? b) 如 果 是 回 写 呢 ? 忽略 组 
存 一 致 性 流量 和 总 线 争 用 。 在 回 写 缓存 中 因 扑 空 取 一 新 块 来 替换 一 脏 块 的 概率 是 0.3。 
对 于 读 ， 存 储 器 在 收 到 地 址 后 两 个 周期 给 出 数据 。 对 于 写 ， 地 址 和 数据 同时 发 给 存储 
器 。 假 定 总 线 是 原子 的 ， 处 理 器 扑 空 损失 正好 等 于 每 个 扑 空 所 需 的 总 线 周 期 数 。 

下 面 列 出 了 三 个 存储 器 访问 流 ， 比 较 执 行 它们 的 开销 ， 运 行 在 基于 总 线 机 器 上 a) Mi- 
nois MESI 协议 ，b) Dragon 协议 。 根 据 访问 流 的 特点 和 相关 协议 解释 执行 的 不 同 。 
stream I: rl wl rl wl r2 w2 12 w2 13 w3 13 w3 


stream 2: r] r2 r3 wl w2 w3 rl r2 13 w3wl 
stream 3: rl 1213 13 wl wl wl wl w2 w3 








所 有 访问 都 是 针对 同一 个 单元 的 :r/w 指明 读 或 写 ， 后面 的 数字 表示 发 出 操作 的 

处 理 器 。 假 定 所 有 缓存 初始 为 空 ， 用 下 面 的 代价 模型 : 读 / 写 缓存 命中 要 花费 1 个 周 

期 thas : 带 来 在 总 线 上 的 事务 《BusUpgr，BusUpd) 要 花费 60 个 周期 ， 扑 空 带 来 的 传送 

整个 缓存 块 要 花费 90 个 周期 。 假 定 所 有 缓存 都 是 写 分 配 的 。 

1) 随 着 扑 空 时 延 的 增加 ， 更 新 协议 和 作废 协议 哪 一 个 更 可 取 ? 为 什么 ? 

2) 在 一 个 多 级 缓存 层次 结构 中 ， 你 是 将 更 新 传播 到 第 一 级 缓存 还 是 仅仅 只 到 第 二 级 ? 
说 明 折 中 方案 。 

3) 为 什么 在 目前 基于 更 新 的 一 一 致 性 在 多 处 理 器 计算 服务 上 对 典型 的 多 道 程序 工作 负载 
不 是 一 个 好 方法 ? 

4) 为 了 提供 一 个 更 新 协议 作为 选择 ， 一 些 机 器 在 页 中 为 软件 提供 了 协议 类 型 控制 ; 也 
就 是 说 ， 给 定 的 页 能 保持 一 致 地 使 用 更 新 方式 或 作废 方式 。 另 一 种 不 是 基于 页 的 控 
制 方法 是 为 将 导致 更 新 而 不 是 作废 的 写 提供 特殊 的 操作 码 。 评 价 优 劣 。 

下 面 给 出 了 一 些 代 码 段 ， 在 顺序 同一 性 下 哪些 结果 是 可 能 的 (或 不 可 能 的 )。 假 定 在 代 

码 到 达 前 ， 所 有 变量 初始 化 为 0。 
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5.7 


5.8 


5.9 


5.10 


Py P2 P3 
A= 1 u = A v=B 
B=1 w= A 
2) 
P, P2 P3 Ps 
A=1 uta B= 1 w=B 
v=B x =a 


3) 在 下 面 的 序列 中 ,用 虚线 框 起 的 操作 是 同一 指令 的 一 部 分 : fetch&increment。 然 后 假 
定 它 们 是 独立 的 指令 。 针 对 这 两 种 情况 分 别 回答 上 面 的 问题 。 


r 一 一 一 一 一 一 ~ rr 一 一 一 ~ 一 一 一 


一 一 一 一 一 一 ~ 一 一 一 ~ 一 一 一 : 


1) 在 5.2.2 节 中 提 到 过 一 种 由 于 写 缓 冲 区 的 使 用 所 导致 的 重新 定 序 问 题 。 在 单 处 理 器 

中 并 发 程序 环境 下 它 会 不 会 是 一 个 问题 ? 如 果 是 ， 你 如 何 去 预 防 它 ? 如 果 不 是 ,为 

什么 ? 

按照 程序 执行 序 ， 对 于 同一 个 存储 单元 ， 同 一 个 处 理 器 发 出 的 读 能 否 在 前 面 的 写 之 

前 完成 (例如 ， 如 果 写 被 放置 在 写 缓冲 区 中 但 对 其 他 处 理 器 尚 不 可 见 ) 但 仍然 提供 

一 个 一 致 的 存储 系统 ?如 果 能 ， 读 返回 值 是 什么 ?如 果 不 能 ， 为 什么 ? 这样 做 能 否 

仍然 保证 顺序 同一 性 ? 

3) 如 果 我 们 只 关心 一 致 性 ， 不 关心 顺序 同一 性 (SC)， 我 们 能 否 说 处 理 器 通过 了 写 操 
作 写 就 完成 了 ? 

顺序 同一 性 (SC) 的 充分 条 件 是 必要 的 吗 ? 将 那些 约束 放松 : 1) 尽 可 能 少 约束 ，2) 

采用 一 种 适当 的 中 间 方 式 。 评 价 在 实现 复杂 度 上 的 效果 。 

考虑 下 列 SC 的 充分 条 件 : 

。 每 个 进程 按 程序 执行 序 发 出 存储 请 求 。 

”一 个 读 或 写 操作 发 出 后 ， 发 出 操作 的 进程 将 在 发 出 下 一 操作 前 等 待 当前 操作 的 

完成 。 

在 一 个 处 理 器 P, 能 够 返回 一 个 被 另外 处 理 器 P, 写 的 值 前 ， 所 有 关于 P, 的 在 其 发 出 

写 操作 之 前 完成 的 操作 也 必须 关于 P, 完成 。 

这 些 条 件 能 否 真正 保证 SC 执行 ? 如 果 能 ， 为 什么 ;如果 不 能 ， 构 造 一 个 反例 ,说 

明 为 什么 在 本 章 中 列 出 的 条 件 是 充分 的 。 [提示 : 想 想 这 些 条 件 与 本 章 中 的 那些 条 

件 有 何不 同 ] 

考虑 一 个 四 个 处 理 器 基于 总 线 的 多 处 理 器 使 用 flinois MESI 协议 。 每 个 处 理 器 执行 一 

个 test&set 锁 去 获得 访问 一 个 空 临界 区 。 假 定 test&set 指令 总 是 发 到 总 线 上 并 且 同 处 理 


2 


— 


一 般 读 过 程 的 时 间 开 销 一 样 。 初 始 时 处 理 器 1 拥有 锁 ， 处 理 器 2、3、4 在 自己 的 缓存 


中 踏步 等 待 锁 被 释放 。 每 个 处 理 器 一 旦 得 到 锁 就 退出 程序 。 只 考虑 总 线 对 上 锁 和 解锁 
操作 的 处 理 ; 


1) 从 初 态 到 终 态 所 执行 的 最 少 总 线 事务 是 多 少 ? 
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5.12 


mn 
— 
oo 


2) 最 多 总 线 事务 数 是 多 少 ? 

3) 假设 用 Dragon 协议 ，1) 和 2) 又 如 何 ? 

在 锁 中 指数 式 回 退 的 主要 优 缺 点 是 什么 ”考虑 test&set Bi, test-and-test&set 锁 ， 票 号 

锁 ， 基 于 数组 的 锁 。 如 果 LL-SC 被 用 来 代替 原子 指令 ， 情 况 会 如 何 变化 ? 

假设 所 有 16 个 处 理 器 同时 争 用 一 个 test-and-testi&set 锁 (每 个 处 理 器 只 有 一 次 )。 假 定 

在 0 时 刻 所 有 处 理 器 在 自己 的 缓存 中 的 锁 上 踏步 等 待 并 且 因 为 一 个 释放 而 被 作废 。 

1) 如 果 所 有 临界 区 为 空 〈 也 就 是 说 ， 每 个 处 理 器 在 Lock 和 UNLOCK 之 间 什 么 都 不 
做 )， 到 所 有 处 理 器 获得 锁 将 有 多 少 次 总 线 事 务 ? 

2) 假设 总 线 是 公平 的 〈 即 总 是 在 服务 新 请 求 之 前 先 服务 挂 起 的 请 求 ) ， 每 个 总 线 事 务 
的 开销 是 50 个 周期 ， 到 第 一 个 处 理 器 能 获得 和 释放 锁 要 多 长 时 间 ” 到 最 后 一 个 处 
理 器 获得 和 释放 要 多 长 时 间 ? 

3) 在 一 个 不 公平 的 总 线 上 ， 如 果 想 让 你 希望 的 处 理 器 获得 优先 权 而 不 管 请 求 的 顺序 ， 
最 多 能 做 到 什么 程度 ? 

4) 能 否 有 一 个 不 同 于 公平 总 线 的 总 线 仲 裁 方案 用 来 提高 性 能 ? 

5 如 果 用 来 实现 锁 的 变量 没有 被 缓存 起 来 ， 一 个 test-and-test&set 锁 仍 比 一 个 test&zset 
锁 产 生 的 通信 量 少 吗 ? 为 什么 ? 

对 于 同 习题 5.12 的 2) 一 样 配置 的 机 器 ， 假 设 是 公平 总 线 ， 使 用 一 个 加 号 锁 ， 第 一 个 

和 最 后 一 个 处 理 器 需要 多 少 个 总 线 事 务 和 多 长 时 间 来 获得 和 释放 锁 ? 如 果 使 用 基于 数 

组 的 锁 ， 情 况 又 如 何 ? 

考虑 图 5-29 中 使 用 指数 型 回 退 的 tesi&set 设置 锁 的 性 能 曲线 ， 为 什么 针对 非 空 临界 区 

的 曲线 比 针对 空 临界 区 的 曲线 差 ? 

1) 在 我 们 锁 的 实验 中 ， 为 什么 我 们 安排 解锁 后 的 延迟 d 后 要 比 临界 区 延迟 。 小 ?如 
R d Wee 大 将 产生 怎样 的 问题 ? [提示 : 画 出 两 个 处 理 器 的 执行 时 序 图 。] 

2) 如 果 我 们 用 大 得 多 的 数值 。 和 d ， 比 较 锁 算法 会 有 怎样 的 结果 ? 

1) 分 别 用 i) fetch&increment 和 ii) LL-SC 来 写 出 实现 票 号 锁 和 基于 数组 锁 的 伪 代 码 
(高 层 表 示 加 上 汇编 ) 。 

2) 假定 你 不 用 fetch&increment 原 语 而 用 fetch&store (一 种 简单 的 原子 交换 )。 用 这 个 原 
语 能 实现 基于 数组 的 锁 吗 ?描述 你 得 到 的 锁 算 法 。 

用 LL-SC 实现 一 个 compare&swap 操作 。 

考虑 在 5.5.5 节 中 描述 的 具有 感应 交替 功能 的 栅 障 算法 ， 如 果 把 UNLOCK 语句 放 在 计 

数 器 增值 语句 后 ， 而 不 是 在 了 条件 的 每 个 分 支 后 ， 有 问题 吗 ? 问题 是 什么 ? 

假设 有 一 个 机 器 在 每 个 机 器 字 中 都 提供 了 满 -空位 硬件 支持 9 。 这 类 机 器 允许 下 列 〔 

函数 ， 

ST_Special (loc, val) 把 val 写 到 数据 单元 loc 并 且 置 满 空 位 。 如 果 满 空位 已 

经 被 设置 ， 则 发 出 自 陷 信 和 号 。 

int LD Special (loc) 等 待 直到 loc 的 满 空 位 被 设置 ， 读 数据 ， 清 满 空 位 ， 返 回 

结果 数据 。 





可 以 想像 满 -空位 是 一 个 特别 的 二 进 制 位 置 满 空位 意 指 让 其 表示 “ 满 "， 清 满 -空位 意 指 让 其 表示 “ 空 * -~ 译 者 注 
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利用 上 述 原 语 写 一 个 C 函数 swap (1i， 门 ， 它 能 够 原子 性 地 交换 4 [i] 和 
A [用 的 内 容 。 你 应 允许 很 高 的 并 发 性 〈 如 果 多 个 处 理 器 要 交换 一 对 不 相干 的 存 
储 单元 ， 它 们 应 能 并 发 进行 ) 并 且 必 须要 避免 死 锁 。 


5.20 原子 操作 fetch&increment 能 被 用 于 实现 栅 障 、 信 号 灯 和 其 他 同步 机 制 。fetch-ana- 


5.21 


add 的 语义 是 将 第 二 个 参数 加 到 第 一 个 参数 所 指 的 存储 单元 并 且 返 回 该 存储 单元 在 加 
之 前 的 值 。 用 fetch-and-add 原 语 去 实现 栅 障 操作 适合 于 共享 存储 的 多 处 理 器 。 为 
了 使 用 栅 障 ， 一 个 处 理 器 必须 执行 BARRIER (BAR, N) ， 这 里 BAR PHRMA, N 
是 需要 到 达 栅 障 的 进程 数 。 假 定 在 BAR 的 使 用 中 N 都 是 同一 数值 。 栅 障 将 能 够 支持 下 
面 的 代码 ; 
while (condition) { 

Compute for a while 


BARRIER(BAR, N); 
} 


PRES RNA: 
BARRIER (Var B: BarVariable, N: integer) 


í if (fetch-and-add(B, 1) = N-1) then 
B := 0; 
else 
while (B != 0) do {}; 


这 段 代码 中 的 问题 是 什么 ? 写 出 避免 了 这 些 问题 的 BARRIER 函数 。 
考虑 下 面 同步 原 语 BARRIER 的 实现 ， 它 用 在 应 用 中 每 个 计算 阶段 的 尾部 。 假 设 ba- 
r.releasing 和 bar.count 的 初始 值 为 0，bar.1ock 初始 时 是 开锁 状态 。 


struct bar_struct { 
LOCKDEC (lock) ; 
int count, releasing; 
} bar; 


BARRIER (N) 

{ 
LOCK (bar. lock) ; 
bar.count++; 


if (bar.count == N) { 
bar.releasing = 1; 
bar.count--; 

} else { 
UNLOCK (bar. lock); 
while (! bar.releasing) 


LOCK (bar .lock) ; 
bar.count--; 

if (bar.count == 0) { 
bar.releasing = 0; 


} 
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} 
UNLOCK (bar. lock); 


1) 本 代码 不 能 提供 一 个 正确 的 栅 障 。 描 述 这 个 实现 中 的 问题 。 

2) 尽量 少 改动 本 例 中 的 代码 ,使 其 能 提供 一 个 正确 的 栅 障 实现 。 指 明 改 动 的 地 方 或 
仔细 描述 改动 。 

考虑 具有 移动 性 的 数据 : 在 处 理 器 之 间 来 回 窜 的 共享 数据 ， 每 个 处 理 器 读 ， 然 后 在 其 

他 处 理 器 读 之 前 写 。 在 标准 MESI 协议 下 ， 读 扑 空 和 写 都 能 导致 总 线 事务 。 

1) 根据 表 5-1 中 列 出 的 数据 ， 估 计 用 升级 (BusUpgr) 代替 BusRdX 后 能 省 下 的 最 大 
带宽 。 

2) 有 可 能 增强 缓存 块 和 状态 转换 图 的 状态 ， 使 紧 接 在 同一 块 写 操作 后 的 读 操 作 能 被 
承认 ， 使 具有 移动 性 的 块 能 在 第 一 次 读 扑 空 时 直接 把 独 享 状态 引进 缓存 中 (而 不 
是 共享 状态 )。 试 给 出 附加 状态 的 建议 和 状态 转换 表 的 扩充 。 根 据 表 5-1, 5-2, 5-3 
中 的 数据 ， 计 算 能 得 到 的 带宽 节省 。 除 了 带宽 节省 以 外 还 有 其 他 好 处 吗 ? 指 出 在 
程序 中 哪些 地 方 具 有 移动 性 的 协议 可 能 有 害 于 性 能 。 

通过 在 更 新 时 适当 地 更 新 主 存 ， Firefly 更 新 协议 删除 了 在 Dragon 协议 中 现 有 的 Sm 状 

态 。 我 们 能 否 通 过 合并 状态 下 和 M， 进 一 步 减少 Dragon 和 Firefly 协议 中 的 状态 ”有 哪 

些 折 中 的 考虑 ? 

人 们 发 现 处 理 器 有 时 只 写 一 个 字 到 一 缓存 块 中 。 为 了 优化 这 种 情况 ， 改 变 在 所 有 情况 

下 都 用 回 写 缓存 的 方式 ， 就 提出 一 个 协议 ， 它 有 下 面 的 一 些 特 点 : 1) 在 初始 写 一 块 

时 ， 处 理 器 写 直 达到 总 线 并 且 该 块 以 一 种 新 的 状态 一 -保留 状态 放置 在 缓存 中 ; 2) 

在 写 一 个 保留 状态 块 时 ， 缓 存 块 转 到 已 修改 状态 ， 用 回 写 代替 直 写 。 

D 画 出 这 种 协议 的 状态 变化 ， 状 态 为 INVALID, SFARED, RESERVED, MODIFIED, 
图 中 要 能 显示 对 每 一 状态 BusRd, BusWr, ProcWr 和 ProcRd 的 情况 。 指 明 处 理 器 在 
BHT (如 BusWr/WriteBlock) 后 的 动作 。 由 于 采用 整 字 和 整 块 写 ， 要 指明 刷新 字 
(FlushWord) 和 刷新 块 (FlushBlock) 。 

2) 如 何 区 分 这 种 协议 与 4 状态 的 Ilinois 协议 ? 

3) 简明 地 描述 你 为 什么 认为 这 种 协议 没有 用 在 像 SGI Challenge 一 样 的 系统 上 。 

考虑 一 个 处 理 器 写 一 个 被 很 多 处 理 器 共享 的 块 的 情况 〈 因 而 使 它们 的 缓存 作废 )。 如 

果 这 个 缓存 块 在 随后 被 其 他 处 理 器 反复 读 ， 每 次 都 将 在 该 块 上 扑 空 。 研 究 者 提出 了 -- 

个 广播 读 的 策略 ， 一 个 处 理 器 读 该 块 时 ， 所 有 其 他 的 被 作废 的 处 理 器 将 该 块 读 到 它们 

的 二 级 高 速 缓存 中 。 你 认为 这 是 一 个 好 的 协议 扩展 吗 ? 至少 给 出 两 条 理由 说 明 你 的 选 

择 ， 而 且 至 少 有 一 条 是 从 反面 说 明 。 

在 下 面 三 个 处 理 器 的 访问 流 中 按 图 5-20 中 的 类 别 把 扑 空 分 类 (按照 表 5-4 的 格式 )。 

假设 每 个 处 理 器 的 缓存 仅仅 由 一 个 4 字 的 缓存 块 构成 ， 字 wo 到 w 在 一 个 缓存 块 中 ， 

F w4 到 w7 在 另 一 缓存 块 中 。 


一 一 一 


操作 数 P, P, P, 
1 st w0 st w7 
2 ld w6 ld w2 

_ 3 ld w7 
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(#8) 
操作 数 P, P, P, 

4 ld w2 ld wo 

5 st w2 

6 ld w2 

7 st w2 ld w5 id w5 
8 st w5 

9 Id w3 ld w7 
10 ld w6 ld w2 
11 ld w2 st w7 
12 ld w7 

13 ld w2 

14 ld w5 

15 Id w2 
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给 你 一 个 基于 总 线 共享 存储 的 机 器 。 假 设 处 理 器 有 一 个 32 字 节 的 缓存 块 ，4 是 一 个 
数组 ， 其 中 的 元 素 是 4 字 节 长 的 整数 。 考 虑 下 面 的 循环 : 
for i ée- 0 to 16 


for j e 0 to 255 { 
A({j] © do_something(A[j]); 


1) 在 什么 情况 下 最 好 使 用 动态 调度 的 循环 ? 

2) 在 什么 情况 下 最 好 使 用 静态 调度 的 循环 ? 

3) 对 于 动态 调度 的 内 循环 ， 每 一 次 一 个 处 理 器 要 和 迭代 多 少 次 ? 

如 果 你 正在 写 一 个 图 像 处 理 程序 ， 用 一 个 二 维 像素 数组 表示 图 像 。 在 计算 中 的 基本 大 
代 如 下 : 

for i = 1 to 1024 


for j = 1 to 1024 
newA[i,j] = (A[i,j-1]+A[i-1,3]+A[i,j+1]+A[i+1,5))/4; 


假设 A 是 一 个 以 4 字 节 单 精 度 浮 点 数 为 元 素 的 数组 ， 并 且 按 行 存储 ( 即 A Ci, 3] 和 

Ali, j +1] 在 存储 中 的 地 址 是 相 邻 的 )，A 的 起 始 地 址 是 0。 你 正 写 的 这 个 代码 是 

支持 32 个 处 理 器 的 。 每 个 处 理 器 有 一 个 32 KB 的 直接 映射 缓存 ， 缓 存 块 的 大 小 为 64 

字 节 。 

1) 首先 试 着 按 交 错 分 配 法 给 每 个 处 理 器 分 配 数组 中 的 32 行 。 你 期 望 的 计算 和 总 线 通 
信 量 的 比率 是 多 少 〈 固 有 的 或 附加 的 )? 假设 每 一 次 循环 是 4 个 计算 单位 ， 忽 略 所 
有 其 他 的 控制 和 赋值 操作 ， 声 明 你 用 到 的 其 他 假设 。 

2) 如 果 分 配给 每 个 处 理 器 的 数组 行 是 相 邻 的 ， 回 答 和 1) 同样 的 问题 ? 

3) 如 果 分 配 连续 的 数组 列 给 每 个 处 理 器 ， 回 答 和 1) 同样 的 问题 ? 

4) 如 果 A 的 起 始 地 址 为 32， 而 不 是 0， 用 3) 中 的 分 配 法 ， 计 算 和 所 产生 的 通信 量 的 
比率 有 变化 吗 ? 如 果 有 ， 是 变 大 还 是 变 小 ， 为 什么 ”如果 没有 ， 为 什么 ? 

下 面 是 用 一 个 O(Y ) 算法 的 简化 的 n 体 代 码 〈 即 计算 分 子 之 间 的 相互 作用 ) ， 估 计 在 

稳定 状态 每 一 时 间 步 的 扑 空 数 。 再 用 本 章 中 讨论 的 提高 空间 局 部 性 和 减少 伪 共 享 的 方 

法 改写 代码 。 试 着 按 你 期 望 的 处 理 器 数 和 缓存 块 大 小 重 构 。 假 设 16 个 处 理 器 ，1 MB 

直接 映射 缓存 ， 缓 存 块 为 64 个 字 节 。 估 算 重 构 后 代码 的 扑 空 数 。 声 明 你 做 的 所 有 
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typedef struct moltype { 
double x_pos, y_pos, z_pos; /*position components*/ 
double x_vel, y_vel, z_vel; /velocity components*/ 
double x_f, y_f, z_f; /*force components*/ 


} molecule; 


#define numMols 4096 
#define numProcs 16 
molecule mol [numMols]} 
main() 
{ 

declarations 

for. (time=0; time < endTime; time++) 
for (i=myPID; i < numMols; i+=numProcs) 
{ 
for (j=0; j < nmumMols; j++) 


{ 
x_f[i] += x_fn(position of mols i & j); 
y-f[i] += y_fn{position of mols i & j); 
z_f[i] += z_fn(position of mols i & j); 
} 


barrier (numProcs) ; 
for (i=myPID; i < numMols; i += numProcs) 
{ 
write velocity and position components 
of mol{i] based on force on mol {il; 
} 
barrier (numProcs) ; 


第 6 章 “基于 侦 听 的 多 处 理 器 的 设计 


我 们 看 到 ， 市 场 上 对 称 多 处 理 器 在 性 能 、 价 格 和 规模 上 有 很 大 的 差异 ， 这 些 差 异 主要 不 
是 由 于 高 速 缓存 一 致 性 协议 的 不 同 选择 上 ， 而 是 在 于 支持 协议 逻辑 操作 的 组 织 结构 的 设计 和 
实现 上 。 人 们 对 协议 诸 方面 的 权衡 有 了 很 好 的 理解 ; 大 多 机 器 使 用 的 都 是 上 一 章 所 描述 协议 
的 某 种 变形 。 然 而 ， 协 议 所 导致 的 时 延 和 带宽 依赖 于 总 线 设 计 、 高 速 缓存 的 设计 以 及 和 存储 
器 系统 的 整合 ， 还 取决 于 系统 工程 的 开销 。 本 章 考 察 基于 侦 听 的 一 致 性 高 速 缓存 的 对 称 多 处 
理 器 的 详细 物理 设计 问题 。 

虽然 从 第 5 章 我 们 看 到 一 致 性 协议 对 应 的 抽象 状态 转换 图 是 相当 的 简单 ， 但 是 在 实现 层 
会 有 一 些 很 微妙 的 问题 要 解决 。 实 现 都 必须 争取 达到 至 少 三 个 相关 的 目标 ; 正确 性 、 高 性 能 
和 最 少 的 额外 硬件 。 正 确 性 问题 产生 的 原因 是 抽象 层 认 为 原子 性 的 活动 到 硬件 层 并 不 一 定 是 
原子 性 的 。 性 能 问题 产生 的 主要 原因 是 使 存 取 操作 流水 化 ， 人 允许 同一 时 间 有 多 个 操作 待 完成 
(使 用 存储 器 的 不 同 部 件 ) ， 而 不 是 必须 等 待 上 一 操作 完成 才能 开始 下 一 操作 。 不 幸 的 是 ， 正 
是 由 于 这 些 事件 关系 错综复杂 ， 使 得 正确 性 往往 难以 得 到 保证 。 因 为 一 致 性 硬件 中 难以 察觉 
的 差错 ， 一 些 商 用 系统 ， 包 括 含 有 片上 一 致 性 控制 器 的 微 处 理 器 的 发 布 时 间 都 大 大 推迟 了 。 
总 体 来 说 ， 缓 存 一 致 性 多 处 理 器 中 通信 辅助 部 件 (控制 器 ) 的 设计 提出 了 一 系列 挑战 ， 其 形 
式 和 复杂 性 和 现代 处 理 器 的 设计 不 相 上 下 ， 表 现在 大 量 的 待 完成 指令 和 乱 序 执行 。 我 们 需要 
深入 一 层 来 考察 基于 侦 听 多 处 理 器 的 设计 ， 理 解 状态 转换 图 中 所 表达 的 实际 需求 。 

本 章 首 先 列举 缓存 一 致 性 存储 系统 主要 的 正确 性 要 求 。 在 6.2 节 ， 我 们 给 出 一 个 含有 单 
级 缓存 和 单 事务 原子 总 线 的 基础 设计 ， 简 述 在 处 理 单个 总 线 事务 时 的 关键 事件 。 在 正确 性 讨 
论 中 这 一 节 假 定 的 是 作废 协议 ， 但 有 关 要 点 也 可 以 直接 应 用 于 更 新 协议 中 。6.3 节 将 这 个 设 
计 扩 展 到 多 级 高 速 缓存 ， 展 示 了 协议 事件 是 如 何在 层次 之 间 进 行 传播 的 。6.4 节 将 这 个 基础 
设计 扩展 到 使 用 事务 拆 分 型 总 线 的 情形 。 在 这 样 的 总 线 中 ， 一 个 总 线 事务 被 分 为 请 求 和 响应 
两 个 阶段 ， 这 两 个 阶段 都 要 涉及 总 线 仲裁 ， 因 此 多 个 事务 在 总 线 上 可 以 同时 处 于 待 完 成 状 
态 ， 能 够 以 流水 方式 处 理 。 然 后 ,我 们 讨论 多 级 高 速 缓存 和 事务 拆 分 型 结合 的 情形 。 从 这 一 
设计 点 来 看 ， 支 持 源 于 多 个 处 理 器 的 多 个 待 完成 扑 空 只 是 迈 出 了 一 小 步 ， 这 是 因为 所 有 事务 
已 经 能 够 流水 化 处 理 ， 一 些 事务 能 够 并 发 发 生 。 在 此 当中 潜在 的 本 质 挑战 是 要 能 保证 由 一 臻 
性 和 存储 器 同一 性 模型 所 要 求 的 操作 序 的 体现 。 随 着 设计 复杂 性 的 增加 ， 如 何 做 到 这 一 点 ， 
也 是 在 这 些 章节 中 讨论 的 。 

一 旦 理解 了 一 般 情 况 下 的 关键 设计 要 点 ， 就 能 着 手 研 究 具 体 设计 的 细节 。6.5 节 给 出 了 
两 个 案例 : SGI Challenge 和 Sun Enterprise， 用 微 基准 测试 程序 和 我 们 自己 的 例子 应 用 程序 来 
阐述 它们 的 性 能 。 最 后 ，6.6 节 考 察 了 若干 将 上 述 技术 在 功能 和 规模 上 扩展 所 涉及 的 进一步 
问题 。 


6.1 正确 性 需求 
高 速 缓存 一 致 性 的 存储 系统 理 所 应 当 要 满足 一 致 性 的 要 求 ， 并 且 要 保持 由 存储 器 同一 性 
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模型 表达 的 语义 。 尤 其 是 对 一 致 性 来 说 ， 必 须要 能 够 找到 过 时 的 副本 ， 并 且 在 写 操作 发 生 时 
使 其 作废 或 更 新 ， 还 要 提供 写 操 作 的 串 行 化 。 如 果 要 保持 顺序 同一 性 ,那么 应 当 提供 写 原子 
性 和 检测 写 操作 完成 的 能 力 。 另 外 ， 设 计 应 该 满足 任何 协议 实现 都 要 具有 的 性 质 ， 即 要 避免 
死 锁 和 活 锁 ， 消 除 挨 饿 或 使 挨 饿 发 生 的 可 能 性 极 小 。 最 后 ， 设 计 还 要 应 付 控 制 之 外 的 错误 情 
况 〈 如 奇偶 校 验 错 ) ， 并 且 尽量 从 错误 中 恢复 。 

死 锁 发 生 在 操作 仍然 待 完成 但 所 有 系统 活动 均 已 停止 时 。 多 个 并 发 的 实体 争 相 获得 共享 
资源 ， 并 以 不 可 剥夺 方式 占有 ， 产 生 资源 依赖 环 ， 这 样 就 导致 潜在 的 死 锁 产生 。 图 6-1 所 示 
交叉 路 口 的 交通 是 一 简单 类 比 。 在 此 交通 例子 中 ， 实 体 是 车 辆 ， 资 源 是 道路 。 每 辆 车 需要 两 
个 道 资 源 才能 通过 交叉 路 口 ， 缺 一 不 可 ， 但 每 辆 车 都 拥有 一 个 道 的 资源 ， 彼 此 互 不 相让 。 








i Hos 图 6-1 在 十 字 路 口 的 死 锁 。 四 辆 车 到 达 一 个 十 字 路 


日 口 ， 每 辆 车 占 一 条 道 。 由 于 每 辆 车 都 占有 着 
另 一 辆 车 得 以 前 进 所 和 需 的 资源 ， 它 们 相互 阻 
塞 。 即 使 每 辆 车 都 让 其 右边 的 那 一 辆 ， 该 十 
字 路 口 还 是 死 锁 。 为 消除 这 个 死 锁 ， 某 些 车 必 

须 后 退 ， 让 其 他 车 前 进 ， 从 而 它 自 己 才能 前 进 


在 计算 机 系统 中 ， 典 型 的 实体 是 控制 器 ， 资 源 是 缓冲 区 。 例 如 ， 图 6-2a 所 未， 有 两 个 
控制 器 4 和 8 通过 缓冲 区 通信 。4 的 输入 缓冲 区 已 满 ， 布 昌 4 拒绝 接受 任何 来 的 请 求 信和 号， 
除非 中 接受 了 来 自 4 的 一 个 请 求 ( 从 而 释放 4 的 缓冲 区 ，4 才能 接受 来 自 其 他 控制 器 的 请 
求 信 号 )。 但 是 B 的 输入 缓冲 区 也 满 了 ， 除 非 4 能 接受 来 自 的 一 个 请 求 ， 否 则 拒绝 任何 来 
的 请 求 信 号 。 两 个 控制 器 都 不 能 接受 到 请 求 ， 因 此 死 锁 形成 。 图 6-2b 所 示 的 三 个 处 理 器 例 
子 可 用 于 说 明 一 般 的 多 于 两 个 控制 器 的 情形 。 为 防止 死 锁 ， 根 本 上 是 要 避免 这 种 依赖 环 或 者 
当 其 产生 时 将 它 消除 。 


满 缓冲 区 





b) 三 个 控制 器 
图 6-2 在 计算 机 系统 中 的 死 锁 。 如 果 相 互 独立 的 控制 器 通过 有 限 缓冲 区 相互 通信 的 话 ， 死 锁 很 容易 发 
生 。 如 果 在 通信 图 上 可 能 形成 环 路 ,那么 每 个 控制 器 可 能 都 会 停 灌 ， 等 待 它 前 面 的 控制 器 释放 资源 
车 尽管 计算 过 程 仍 在 系统 中 进行 ,但 任何 处 理 器 的 计算 却 不 能 得 到 进一步 的 推进 ， 则 称 
该 系统 处 于 活 锁 中 。 继 续 考虑 上 面 的 交通 例子 ， 任 一 车 辆 可 能 原 路 返回 ， 以 清空 交叉 路 口 ， 
然后 再 试图 前 进 。 然 而 ， 如 果 车 辆 都 同时 重复 前 进 后 退 ， 那 将 有 大 量 的 活动 但 最 终 不 断 重复 
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停止 在 同一 位 置 ， 而 无 任何 实质 性 的 进展 。 在 计算 机 系统 中 ， 活 锁 典 型 发 生 于 多 个 独立 控制 
器 冯 争 某 一 共享 资源 时 ， 当 任何 一 方 未 完成 当前 操作 对 该 资源 的 使 用 时 ， 另 一 方 就 把 资源 剥 
夺 过 去 。 

挨 馈 现象 不 会 停止 全 部 的 进展 ,但 这 是 一 种 极度 不 公 的 现象 ， 即 一 个 或 多 个 处 理 器 毫 无 
进展 而 其 他 处 理 器 不 断 获得 机 会 。 例 如 ， 在 交通 例子 中 , 活 锁 问题 可 以 通过 简易 的 优先 级 安 
排 来 解决 。 如 果 向 北 去 的 车 辆 比 向 东 去 的 车 辆 优先 级 高 ， 后 者 必须 后 退让 前 者 在 后 者 重 试 之 
前 通过 交叉 路 口 。 同 样 ， 南 向 的 车 辆 可 以 比 西向 的 车 辆 优先 级 高 .2 不幸 的 是 ， 这 样 却 不 能 
解决 挨 饿 现象 : 在 繁忙 拥挤 的 交通 中 ， 东 向 车 辆 可 能 因为 总 有 新 的 北向 车 辆 准备 通过 而 总 不 
能 通过 路 口 。 北 向 的 车 辆 不 断 前 进而 东 向 的 车 辆 处 于 挨 饿 状态 。 可 能 的 解决 办 法 是 设置 一 仲 
裁 者 (警察 或 交通 灯 ) 公平 的 安排 资源 使 用 。 这 个 比喻 很 容易 扩展 到 计算 机 系统 中 。 

一 般 而 言 ， 挨 饿 的 可 能 性 被 认为 比 死 锁 和 活 锁 危 害 要 小 。 挨 人 饿 不 会 导致 整个 系统 停止 前 
进而 且 也 不 是 永久 状态 。 就 是 说 过 去 一 段 时 间 内 处 于 挨 饿 的 处 理 器 并 不 意味 着 将 来 所 有 时 间 
内 都 会 挨 饿 (在 某 些 时 候 ， 北 向 的 车 将 会 清空 了 ， 东 向 的 车 辆 就 可 以 通过 路 口 )。 事 实 上 ， 
和 这 种 无 监控 的 交通 例子 相 比 ， 挨 人 饿 现象 更 不 可 能 产生 于 计算 机 系统 中 ， 因 为 挨 狐 是 和 时 间 
相关 的 ， 而 必要 的 时 序 条 件 通常 不 会 持久 。 在 基于 总 线 的 系统 中 ， 挨 饿 现象 易 被 消除 ， 只 要 
使 用 合理 的 总 线 仲裁 设备 和 使 用 先进 先 出 队列 方式 访问 硬件 资源 就 行 了 。 然 而 ， 在 后 面 的 间 
节 讨 论 可 扩展 系统 的 时 候 ， 会 看 到 完全 消除 挨 饿 现象 会 大 大 增加 协议 的 复杂 度 ， 降 低 常见 情 
况 下 事务 的 推进 速度 。 因 此 ， 虽 然 几乎 所 有 的 系统 都 在 尽力 减少 挨 饿 现象 发 生 的 可 能 ， 但 是 
许多 系统 并 没有 完全 消除 挨 饿 。 


6.2 基础 设计 : 采用 原子 总 线 的 单 级 高 速 缓存 


在 第 5 章 中 ,我 们 讨论 了 高 速 缓 存 一 致 性 协议 如 何 保证 写 串 行 化 、 如 何 满足 顺序 同一 性 
的 充分 条 件 。 我 们 假设 总 线 是 原子 性 的 ， 给 定 进程 的 操作 相对 于 其 他 进程 也 是 原子 的 ， 而 且 
产生 总 线 事务 的 存储 器 操作 ， 从 发 出 到 完成 ， 也 是 原子 的 ， 即 使 来 自 不 同 的 处 理 器 。 本 节 
中 ,我 们 的 假设 会 稍微 实际 些 。 每 个 处 理 器 仍 只 有 单 级 高 速 缓存 ， 总 线 事务 是 原子 不 可 分 
的 。 高 速 缓存 在 执行 一 存储 操作 所 包含 的 一 系列 步骤 时 ， 它 可 以 使 处 理 器 停滞 ; 从 而 一 个 进 
程 内 的 操作 相对 都 是 原子 不 可 分 的 。 除 上 述 外 ， 再 没有 其 他 假设 了 。 本 节 讨 论 在 这 样 的 系统 
中 实现 侦 听 和 状态 转换 所 引起 的 基本 问题 和 种 种 权衡 ， 以 及 在 提供 写 串 行 化 、 检 测 写 完 成 和 
保证 写 原子 性 所 引起 的 新 闻 题 。 随 后 ， 我 们 将 讨论 更 大 胆 的 系统 设计 ， 包 括 先前 讨论 过 的 更 
复杂 的 高 速 缓存 层次 结构 和 更 复杂 的 总 线 。 不 过 ， 我 们 的 讨论 都 是 基于 回 写 高 速 缓存 的 ， 至 
少 最 接近 总 线 的 缓存 是 如 此 ， 这 样 可 以 减少 总 线 的 流量 。 

即使 是 对 简单 的 单 级 高 速 缓 存 和 原子 总 线 的 例子 ， 也 必须 做 出 一 些 设计 上 的 选择 。 首 
先 ， 给 定 处 理 器 和 总 线 端的 侦 听 部 件 都 需要 访问 高 速 缓存 中 的 标记 ， 我 们 应 该 如 何 设计 标记 
和 控制 器 呢 ? 其 次 ， 从 高 速 缓存 控制 器 得 到 的 侦 听 的 结果 需要 作为 总 线 事务 的 一 部 分 体现 出 
来 ， 这 又 如 何 和 何 时 办 到 ? 第 三 ， 即 使 总 线 有 原子 不 可 分 性 ， 满 足 处 理 器 的 存储 器 操作 的 若 
于 动作 还 要 使 用 其 他 资源 〈 如 高 速 缓存 控制 器 ) ， 而 这 些 活动 并 非 原子 不 可 分 ， 从 而 引信 
可 能 的 竞争 条 件 。 在 这 种 非 原子 性 条 件 下 ,我 们 如 何 来 设计 高 速 缓存 控制 器 的 协议 状态 机 





O 这 里 在 方向 上 的 描述 和 图 6-1 不 符 。 如 果 以 图 6-1 为 准 ， 应 沪 是 东 向 比 北向 的 优先 级 高 ， 西 向 比 南 向 的 优先 级 
高 。 一 一 译 者 注 


380 





381 


276 HATH HMA RAH 





呢 ? 这 样 对 写 串 行 化 、 检 测 写 完成 和 写 原子 性 会 产生 什么 新 的 问题 呢 ? 关 于 死 锁 、 活 锁 和 挨 
饿 又 会 产生 什么 新 问题 呢 ? 最 后 ， 从 高 速 缓存 中 回 写 也 能 引入 有 意思 的 竞争 条 件 ， 我 们 必须 
有 支持 原子 不 可 分 的 读 - 改 - 写 操作 的 机 制 。 下 面 逐个 来 考虑 这 些 问 题 。 


6.2.1 高 速 缓存 控制 器 和 标记 的 设计 


首先 考虑 传统 单 处 理 器 的 高 速 缓 存 ， 它 由 包含 数据 块 、 标 记 和 状态 位 的 存储 阵列 、 比 较 
器 、 控 制 器 和 总 线 接口 部 件 组 成 。 当 处 理 器 执行 对 高 速 缓存 的 操作 时 ， 地 址 的 一 部 分 用 来 访 
问 可 能 含有 相应 存储 块 的 一 高 速 缓存 组 。 标 记 和 其 他 的 地 址 位 进行 比较 ， 确 定 寻 址 的 存储 块 
是 否 确实 存在 。 然 后 进行 适当 的 数据 操作 和 修改 状态 位 。 例 如 ， 在 一 个 干净 的 高 速 缓存 块 上 
的 写 命中 ， 会 导致 一 个 字 被 更 新 并 且 将 状态 设置 为 已 修改 状态 。 高 速 缓存 控制 器 按 顺 序 进行 
它 的 存储 阵列 的 读 和 写 。 如 果 操 作 需 要 将 存储 块 从 高 速 缓存 传送 到 存储 器 (或 者 反之 )， 则 
高 速 缓存 控制 器 要 发 起 一 个 总 线 操 作 。 该 总 线 操 作 要 求 总 线 接口 部 件 执行 一 系列 步 又， 典型 
步骤 如 下 ; 1) 发 出 总 线 请 求 信号 ; 2) 等 待 总 线 的 认可 ; 3) 驱动 地 址 和 命令 ; 4) 等 待命 令 
被 相关 设备 接收 ; 5) 传送 数据 。 高 速 缓存 榨 制 器 所 采取 的 一 系列 动作 用 有 限 状 态 机 实现 ， 
一 个 总 线 事务 中 的 若干 步骤 的 实现 也 是 如 此 。 注 意 ， 不 要 将 这 里 的 状态 机 和 缓存 存储 块 所 遵 
循 的 协议 中 的 状态 转移 图 相 混淆 。 

为 支持 侦 听 一 致 性 协议 ， 必 须 对 基本 的 单 处 理 器 高 速 缓存 控制 器 的 设计 有 所 扩充 。 首 
先 ， 高 速 缓存 控制 器 除了 响应 处 理 器 的 操作 外 ， 还 必须 能 监控 总 线 上 的 操作 。 最 简单 方法 是 
把 高 速 缓存 看 作 有 两 个 控制 器 : 总 线 端 控制 器 和 处 理 器 端 控 制 器 ， 分 别 控制 来 自 相 应 端的 外 
部 事件 。 任 何 情况 下 ， 当 操作 发 生 时 ， 控 制 器 都 要 访问 高 速 缓存 的 标记 。 每 个 总 线 事务 中 ， 
总 线 端 控制 器 必定 要 捕获 来 自 总 线 端 的 地 址 ， 并 使 用 该 地 址 进行 标记 对 比 。 如 果 对 比 失败 
(一 次 侦 听 扑 空 )， 则 不 采取 任何 行动 : 即 该 总 线 操作 和 本 高 速 缓存 无 关 。 如 果 侦 听 “命中 ”， 
则 控制 器 可 能 会 因为 高 速 缓存 一 致 性 的 要 求 卷 人 到 该 总 线 事务 中 。 这 可 能 涉及 到 对 状态 位 的 
读 - 改 - 写 操作 或 者 是 将 一 个 存储 块 放 到 总 线 上 (或 者 两 者 兼 有 )。 

如 有 果 高 速 缓存 只 有 一 组 标记 ， 则 很 难 允许 这 两 个 控制 器 对 标记 的 同时 访问 。 于 是 ， 在 总 
线 过 程 中 ， 处 理 器 将 被 锁 在 外 面 ， 不 能 访问 高 速 缓存 ， 这 将 降低 处 理 器 的 性 能 。 如 果 给 处 理 
器 较 高 的 优先 级 ， 于 是 侦 听 控制 器 必须 在 获得 了 标记 访问 权 后 才能 进行 总 线 过 程 ， 从 而 导致 
有 效 总 线 带宽 的 降低 。 为 缓解 这 一 问题 ， 一 致 性 高 速 缓存 的 设计 对 标记 和 状态 可 以 使 用 双 站 
口 的 随机 存 取 存储 器 或 者 对 每 个 块 的 标记 和 状态 进行 拷贝 。 高 速 缓存 的 数据 部 分 不 被 复制 ， 
因为 对 它 的 访问 不 那么 经 常 。 如 果 采 用 双 标记 的 方式 ， 两 套 标记 的 内 容 是 完全 相同 的 ， 一 套 
用 于 处 理 器 端 控制 器 查询 ， 另 一 套用 于 总 线 端 控制 器 侦 听 (如 图 6-3 所 示 )。 两 个 控制 器 可 
以 同时 读 取 标记 和 进行 检验 。 当 然 ， 一 旦 某 一 存储 块 的 标记 或 状态 更 改 ( 如 当 状态 改变 或 写 
入 新 的 存储 块 时 )， 最 终 两 个 版 本 都 要 修改 ， 因 此 控制 器 之 一 可 能 被 锁 住 一 段 时 间 。 机 器 设 
计 师 们 可 以 考虑 用 一 些 技巧 来 缩短 控制 器 被 锁 住 的 时 间 。 例 如 ， 上 述 例子 中 处 理 器 端的 标记 
不 是 在 总 线 端 标记 更 新 时 立即 更 新 的 ， 而 是 仅 在 后 来 高 速 缓存 中 数据 被 修改 时 更 新 。 标 记 更 
新 的 频率 也 远 远 小 于 标记 查询 的 频率 ， 从 而 可 以 认为 总 线 端 标 记 更 新 和 处 理 器 高 速 缓存 访问 
冲突 较 小 。 

另 一 个 对 单 处 理 器 中 高 速 缓存 的 主要 扩充 是 现在 控制 器 不 仅 可 以 是 总 线 事务 的 发 起 者 ， 
还 可 以 作为 总 线 事务 的 应 答 者 。 传 统 应 答 设备 ， 如 存储 器 模块 控制 器 ， 它 要 监控 总 线 ， 看 一 
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个 过 程 是 否 和 某 个 特定 的 地 址 子 集 相 关 ， 且 可 能 在 若干 “等 待 ”周期 后 对 相关 读 写 操作 做 出 
应 答 。 传 统 应 答 设 备 甚至 可 以 把 数据 放 到 总 线 上 。 高 速 缓 存 控制 器 的 做 法 与 之 类 似 ， 只 是 高 
速 缓存 控制 器 不 对 固定 地 址 子 集 应 答 ， 而 是 对 任何 事务 都 要 监控 总 线 进行 标记 对 比 来 决定 是 
否 相关 。 对 基于 更 新 的 协议 来 说 ， 控 制 器 也 可 能 侦 听 总 线 传 出 的 新 数据 。 多 数 现代 微 处 理 器 
已 经 实现 此 种 增强 型 高 速 缓存 控制 器 ， 因 而 用 它们 能 很 方便 地 构成 多 处 理 器 。 





处 理 器 使 用 的 
标记 和 状态 
a 
| | 
|| 
| O] 
图 6-3 单 级 侦 听 缓存 的 组 织 。 对 于 单 级 高 速 缓存 ， 
总 线 俩 听 使 用 用 双 拷贝 标记 和 状态 组 来 减少 冲突 。 处 理 器 
的 标记 和 状态 用 一 组 ， 总 线 侦 听 器 用 另 一 组 。 不 过 ， 对 缓存 


内 容 或 状态 的 任何 改变 都 要 同时 更 新 两 组 标记 


6.2.2 侦 昕 结果 的 报告 


侦 听 也 给 总 线 事务 引入 了 新 的 内 容 。 在 传统 单 处 理 器 系统 的 总 线 事务 中 ， 某 一 设备 (发 
起 者 ) 将 地 址 放 到 总 线 上 ， 所 有 其 他 的 设备 监控 地 址 ， 其 中 有 一 设备 (应 答 者 ) 发 现 地 址 和 
它 相 关 。 然 后 数据 在 两 设备 之 间 传 输 。 应 答 者 发 出 “ 线 或 ”信号 来 确认 自己 的 作用 ; WEE 
一 定时 间 后 没有 设备 应 答 ， 则 产生 总 线 错误 。 对 侦 听 高 速 缓存 来 说 ， 每 个 高 速 缓存 要 用 它 的 
标记 和 地 址 对 比 ， 从 各 高 速 缓存 侦 听 的 总 结果 必须 在 总 线 事务 继续 之 前 让 总 线 得 知 。 特 别 
地 ， 这 种 侦 听 结果 的 一 个 功能 就 是 通知 主 存 是 否 要 响应 请 求 信 号 ， 或 者 某 个 高 速 缓存 是 否 持 
有 该 存储 块 的 已 修改 版 本 ， 从 而 必须 采用 另 一 行动 。 这 里 的 问题 是 ， 什 么 时 候 将 侦 听 结果 报 
告 到 总 线 上 ， 且 以 何 种 形式 ? 

首先 让 我 们 着 眼 于 “ 何 时 ”这 个 问题 。 显 而 易 见 ， 令 人 满意 的 就 是 使 延迟 时 间 尽 可 能 的 
少 ， 使 得 主 存 能 迅速 决定 如 何 行动 。 下 面 是 三 个 主要 选项 ; 

1) 保证 在 一 定 的 时 间 内 产生 侦 听 结果 ， 通 常 指 当 地 址 出 现在 总 线 上 后 菜 个 固定 的 时 钟 
周期 内 。 一 般 而 言 ， 这 需要 双 套 标记 ， 因 为 处 理 器 (一般 具 有 优先 级 ) 在 总 线 事务 发 生 时 会 
多 次 访问 标记 。 即 使 有 了 双 套 标记 ， 由 于 当 处 理 器 更 新 标记 时 两 套 标记 都 不 能 被 访问 ， 我 们 
在 完成 侦 听 所 需 的 时 延 上 还 需要 采取 一 种 保守 的 态度 ; 例如 在 MES 协议 由 执行 (E) 向 修 
改 (M) 状 态 转移 时 就 是 如 此 9 。 采 取 这 种 做 法 的 优点 在 于 主 存 设 计 不 受 影响 ,而 且 高 速 缓存 


© 注意 ， 在 原子 型 总 线 上 ， 我 们 有 办 法 让 系统 对 个 听 时 延 不 那么 敏感 。 由 于 在 任何 时 间 只 能 有 一 个 总 线 事务 ( 原 
著 中 误 为 “存储 事务 "。 一 一 译 者 注 ) 待 完成 ， 主 存 能 够 开始 访问 存储 块 ， 不 管 最 后 是 它 还 是 缓存 要 提供 数据 ， 
否则 主 存 子 系统 就 可 能 空闲 。 然 而 ， 我 们 后 面 要 讨论 到 ， 减 小 这 个 延迟 对 事务 拆 分 型 总 线 十 分 重要 。 在 那 种 情 
况 下 ， 多 个 事务 可 能 并 发 地 在 总 线 上 待 完成 ， 于 是 存储 子 系统 可 能 正在 服务 于 另 一 个 请 求 ， 为 它 (而 不 是 高 束 
缓存 ) 提供 数据 。 

Q 有 趣 的 是 ， 在 我 们 所 描述 的 基本 三 态 作废 协议 中 ， 如 果 没有 相应 的 总 线 事务 的 卷 入 ， 缓 存 块 的 状态 是 不 会 更 新 
的 。 这 通常 会 给 标记 的 更 新 留 有 足够 的 时 间 。 
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到 高 速 缓 存 之 间 的 联系 非常 简单 。 而 缺点 是 需要 额外 的 硬件 和 可 能 较 长 的 侦 听 时 延 。 一 种 由 
4 个 Pentium Pro 构成 的 多 处 理 器 就 是 用 的 这 种 方案 ， 它 能 在 必要 时 延长 或 推 壕 侦 听 阶段 〈 见 
第 8 章 )，HP 公 司 的 商业 服务 器 (Chan et al. 1993) 和 Sun Enterprise 也 是 如 此 。 

2) 设计 能 够 支持 可 变 延 返 的 侦 听 方案 。 主 存 首先 假设 的 是 某 一 个 高 速 缓存 将 提供 数据 ， 
但 提供 的 时 机 是 在 所 有 其 他 高 速 缓存 控制 器 都 完成 侦 听 并 且 指 出 不 提供 数据 以 后 。 一 定 的 担 
手 协 议 是 需要 的 ， 但 高 速 缓存 控制 器 不 用 担心 标记 访问 冲突 会 影响 及 时 的 查询 ， 且 设计 者 也 
不 用 在 侦 听 结果 延迟 时 间 的 估计 上 采用 保守 的 态度 。SGI Challenge 多 处 理 器 使 用 的 方法 是 这 
种 做 法 的 一 种 变形 ， 即 存储 子 系统 先是 针对 请 求 取出 数据 ， 然 后 停滞 ， 直 到 侦 听 完成 后 再 根 
据 情 况 相 应 动作 (Galles and Williams 1993)。 

3) 第 三 种 可 能 的 做 法 是 让 主 存 子 系统 对 每 一 存储 块 维 护 一 个 标记 位 ， 来 指示 该 块 是 否 
被 某 一 高 速 缓 存 修改 。 用 这 个 方法 ， 主 存 子 系统 不 会 被 迫 依靠 侦 听 结 果 来 决定 下 一 步行 动 。 
这 种 方法 的 缺点 是 对 主 存 子 系统 增加 了 额外 的 复杂 性 。 

侦 听 的 结果 以 何 种 格式 报告 到 总 线 上 呢 ? 对 MESI 设计 来 说 ， 请 求 的 高 速 缓存 控制 器 需 
要 知道 被 请 求 的 存储 块 是 否 在 其 他 处 理 器 的 高 速 缓存 中 ， 这 样 才 能 决定 以 独 享 CE) 还 是 共 
Z (9 状态 来 装 和 人 该 存储 块 。 另 外 ,存储 系统 也 要 知道 是 否 有 一 高 速 缓存 将 该 块 置 为 修改 
状态 ; 如 果 有 ， 存 储 器 则 不 用 应 答 。 一 种 合理 的 办 法 是 使 用 三 组 线 或 信号 ， 两 个 用 来 报告 侦 
听 结 果 的 情况 ， 另 一 个 用 作 指 示 侦 听 结 果 是 否 有 效 。 第 一 个 信号 指示 某 个 处 理 器 的 高 速 缓存 
中 ( 除 请 求 处 理 器 外 ) 含有 该 存储 块 的 副本 。 第 二 个 信和 号 指出 该 存储 块 在 某 个 处 理 器 的 高 速 
缓存 中 处 于 修改 状态 。 我 们 不 需要 知道 是 哪个 高 速 缓存 ， 因 为 高 速 缓存 本 身 知 道 该 采取 什么 
行动 。 第 三 个 信号 是 禁止 信号 ， 它 的 出 现 表 示 还 有 高 速 缓存 没有 完成 侦 昕 。 当 第 三 个 信号 未 
出 现时 ， 请 求 者 和 存储 器 能 够 安全 地 检验 其 他 两 个 信号 。MESI 协议 的 完整 的 inois 版 本 要 
更 加 复杂 些 ， 这 是 因为 即使 在 共享 状态 下 ， 存 储 块 更 优先 地 从 其 他 高 速 缓存 中 取出 而 不 是 取 
自 存储 器 。 如 果 多 个 高 速 缓存 均 有 副本 ， 优 先 级 机 制 决定 从 哪个 高 速 缓存 中 提取 数据 。 这 也 
是 为 何 大 多 数 使 用 MEST 协议 的 商业 机 型 限制 了 高 速 缓 存 到 高 速 缓存 的 传输 。Silicon Graphics 
Challenge 和 Sun Enterprise 在 数据 在 某 一 高 速 缓存 中 处 于 修改 状态 时 ， 才 使 用 高 速 缓存 到 高 速 
缓存 的 传输 ， 此 时 只 有 一 个 提供 数据 者 。Challenge 在 高 速 缓存 到 高 速 缓存 传输 中 更 新 存储 
az, Mil Enterprise 不 更 新 存储 器 ， 并 且 使 用 第 5 章 中 讨论 过 的 MOESI 协 议 所 含 的 第 五 个 状态 ， 
即 拥有 状态 。 


6.2.3 对 回 写 的 处 理 


回 写 的 实现 比较 复杂 ， 因 为 回 写 过 程 涉 及 到 一 个 要 进入 缓存 的 块 和 一 个 要 被 替换 出 的 组 
存 块 〈 已 修改 )， 因 此 包括 两 个 总 线 事务 。 一 般 来 说 ， 为 了 使 处 理 器 在 引起 回 写 的 缓存 扑 空 
发 生 后 能 尽 可 能 快 的 继续 工作 ， 我 们 愿意 推迟 回 写 的 处 理 ， 而 先 来 处 理 引起 回 写 的 扑 空 。 这 
一 做 法 给 我 们 提出 了 两 个 要 求 。 其 一 ， 需 要 机 器 提供 额外 的 存储 空间 一 个 ( 回 写 缕 冲 区 ) 当 
新 存储 块 写 人 高 速 缓存 而 总 线 还 未 能 响应 第 二 个 事务 时 ， 被 覆盖 的 存储 块 能 暂时 保存 在 回 写 
缓冲 区 中 。 其 二 ， 在 完成 回 写 前 ， 也 许 能 发 生 总 线 事务 ， 包 含 正在 回 写 的 存储 块 的 地 址 。 在 
这 种 情况 下， 控制 器 一 定 要 从 回 写 缓 冲 区 中 提取 数据 ， 且 取消 刚才 未 完成 的 回 写 总 线 请 求 。 
这 就 需要 有 地 址 比较 器 来 监视 该 回 写 缓冲 区 。 由 第 8 章 可 知 ， 在 物理 上 分 布 存储 的 机 器 中 ， 
加 与 的 正确 实现 有 更 进一步 的 问题 。 
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6.2.4 基础 系统 组 织 


图 6-4 所 示 的 是 我 们 得 到 的 基础 侦 听 结构 的 框图 。 每 个 处 理 器 有 单 级 回 写 式 高 速 缓存 。 
高 速 缓存 是 双 标 记 的 ， 从 而 总 线 端 控制 器 和 处 理 器 端 控 制 器 可 并 行 的 进行 标记 对 比 。 处 理 器 
端 控制 器 通过 将 地 址 和 命令 放 到 总 线 上 来 启动 一 个 事务 。 在 回 写 事务 中 ， 数 据 从 回 写 缓冲 区 
传输 。 在 读 事务 中 ， 数 据 被 捕获 在 数据 缓冲 区 内 。 总 线 端 控制 器 侦 听 回 写 标记 和 高 速 缓存 标 
记 。 总 线 仲裁 器 以 一 种 全 序 安排 总 线 上 运行 的 请 求 信号 。 对 于 每 个 总 线 事务 来 说 ， 请 求 阶段 
中 的 地 址 和 命令 以 这 种 全 序 来 驱动 侦 听 查找 。 线 或 侦 听 结果 用 于 向 发 起 者 确认 所 有 的 高 速 绥 
存 都 已 看 到 请 求 并 采取 了 相关 行动 。 





缓存 数据 RAM 


图 64 ”基础 机 器 的 侦 听 高 速 缓存 的 设计 。 假 设 每 个 处 理 器 有 一 个 单 级 回 写 高 速 缓 存 ， 用 一 种 作废 协议 ， 处 理 器 
只 能 有 一 个 待 完成 的 存储 请 求 ， 系 统 总 线 是 原子 的 。 为 保持 简单 ， 我 们 没有 画 出 总 线 仲裁 逻辑 和 所 
需 的 某 些 低级 信号 和 缓冲 区 。 也 没有 画 出 在 总 线 方 控制 器 和 处 理 器 方 控制 器 之 间 所 需 的 协调 信号 


用 这 种 简单 设计 ， 让 我 们 来 考虑 进一步 的 正确 性 问题 ， 这 些 问题 需要 对 状态 机 和 协议 进 
行 扩充 ， 或 者 需要 在 实现 中 有 些 特别 的 措施 。 它 们 包括 非 原 子 性 的 状态 转移 、 为 达到 一 致 性 
和 同一 性 的 序列 化 、 死 锁 、 活 锁 和 挨 俄 现象 。 


6.2.5 非 原子 性 的 状态 转移 


在 第 5 章 的 状态 转移 图 中 ， 状 态 转 移 和 相关 活动 都 被 假设 为 同时 发 生 或 至 少 是 原子 不 可 
分 的 。 事 实 上 ， 由 处 理 器 产生 的 请 求 要 花 一 段 时间 才 能 完成 ， 常 常 包括 一 个 总 线 事务 。 虽 然 
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在 我 们 的 简单 系统 中 ， 一 个 总 线 事 务 是 原子 不 可 分 的 ， 但 这 仅仅 是 要 满足 处 理 器 请 求 一 系列 
活动 的 其 中 之 一 。 这 一 系列 活动 包括 查询 高 速 缓 存 的 标记 、 总 线 仲裁 、 由 其 他 控制 器 对 相应 
高 速 缓存 采取 行动 以 及 由 请 求 处 理 器 的 控制 器 在 总 线 事 务 结束 时 采取 的 行动 (可 能 包括 实际 
地 将 数据 写 人 存储 块 中 ) 。 总 的 来 说 ， 这 一 系列 活动 不 是 原子 不 可 分 的 。 即 使 是 使 用 原子 总 
线 ， 来 自 不 同 处 理 器 的 多 个 请 求 可 能 同时 在 系统 的 各 部 分 活动 ， 或 许 当 处 理 器 〈 控 制 器 ) P 
有 一 请 求 等 待 完 成 (如 等 待 获得 总 线 访问 权 ) 而 来 自 另 一 处 理 器 的 请 求 出 现在 总 线 上 ， 并 且 
需要 由 P 提供 服务 ， 甚 至 可 能 是 和 了 请 求 待 完成 一 样 的 存储 块 。 这 类 复杂 问题 将 在 例 6.1 中 
加 以 说 明 。 

例 6.1 假定 处 理 器 P, AP, 在 它们 的 缓存 中 共享 存储 块 4， 并 且 同 时 对 4 发 出 一 个 写 
操作 。 说 明 当 P, 的 事务 出 现在 总 线 上 时 ，P 的 待 完 成 请 求 是 如 何等 待 总 线 的 ， 解 决 这 种 复 
杂 情 况 可 能 有 些 什么 办 法 。 

解答 : 这 里 是 一 种 可 能 的 情形 。P, 的 写 操 作 会 检查 它 的 高 速 缓存 ， 确 定 在 实际 向 块 中 
写 数据 之 前 ， 它 需要 将 存储 块 的 状态 从 共享 提升 到 已 修改 ， 并 且 发 出 一 个 升级 总 线 请 求 。 同 
时 ，P, 已 经 发 出 了 一 个 类 似 的 升级 或 者 排他 读 4 的 过 程 ， 它 可 能 首先 通过 仲裁 得 到 总 线 。 
P, 的 控制 器 会 看 到 总 线 事务 ， 必 须 将 4 的 状态 从 共享 降级 到 无 效 。 否 则 ， 当 P 的 事务 完成 
后 ,4 在 也 的 高 速 缓存 中 为 已 修改 状态 ， 在 P 的 高 速 缓存 中 为 共享 状态 ， 这 是 违反 协议 规 
定 的 。 但 现在 使 P, 待 完成 的 升级 总 线 请 求 不 再 是 合适 的 ， 必 须 用 排他 读 请 求 替换 。 这 样 ， 
控制 器 也 必须 要 能 够 将 它 自己 待 完 成 的 请 求 的 地 址 和 从 总 线 上 侦 听 得 到 的 地 址 对 比 ， 并 且 在 
必要 的 时 候 修改 前 者 。( 如 果 在 协议 中 没有 升级 过 程 ， 并 且 即 使 在 对 共享 状态 的 存储 块 做 写 
操作 时 也 用 排他 读 ， 那 么 在 这 种 情况 下 即便 存储 块 的 状态 改变 了 ， 请 求 也 没 必要 改变 。 因 
此 ， 当 评价 协议 优化 的 复杂 性 时 ， 我 们 应 该 考虑 这 些 实现 方面 的 需求 。) 器 

要 处 理 状态 转移 中 非 原子 性 现象 ， 而 且 有 时 需要 根据 所 观察 到 的 事件 来 修改 请 求 和 行 
动 ， 一 种 方便 的 方法 就 是 使 用 中 间或 过 渡 状 态 扩 展 协 议 状态 图 ( 原 协议 状态 我 们 已 深入 讨论 
过 ， 如 MESI， 其 状态 都 认为 是 稳 态 )。 例 如 ， 可 用 单独 的 一 个 状态 来 指示 升级 请 求 正 待 完 
成 。 图 6-5 给 出 了 MES 协议 的 一 种 状态 扩展 图 。 为 应 答 处 理 器 的 写 操 作 ， 高 速 缓 存 控制 器 
通过 确认 总 线 请 求 和 转移 到 中 间 的 SM 状态 来 开始 总 线 仲裁 。 当 总 线 仲裁 器 确认 了 给 该 设 
备 的 总 线 授予 (BusGrant) 信号 ， 则 从 中 间 状 态 转 移出 去 。 此 时 ， 总 线 升级 事务 (BusUpgr) 
放 到 总 线 上 ， 高 速 缓存 中 相应 块 的 状态 得 到 更 新 。 然 而 ， 当 处 于 S>M 状态 下 ， 如 果 总 线 上 
观察 到 对 该 存储 块 的 总 线 读 请 求 (BusRdx) 或 者 总 线 升 级 请 求 (BusUpgr)， 那 么 控制 器 将 视 
该 存储 块 在 此 过 程 和 转移 IM 状态 之 前 已 被 设置 为 无 效 。 (我们 可 以 撤回 总 线 请 求 ， 转 移 
到 了 状态 ， 让 挂 起 的 PrWz 再 度 得 到 处 理 。) 在 处 理 器 从 无 效 状态 读数 据 时 ,控制 器 转 到 中 间 
状态 (PSs, E); 而 下 一 个 要 转移 到 的 稳 态 由 读 操 作 得 到 总 线 后 共享 信号 线 的 值 决定 。 这 些 
中 间 状 态 通 常 在 高 速 缓存 块 的 状态 位 中 未 加 以 编码 ， 所 编码 的 仍然 是 稳定 的 MESI 状态 。 这 
是 因为 要 表示 可 能 出 现 处 于 暂时 状态 的 高 速 缓存 块 需 在 每 个 高 速 缓存 块 中 扩充 ， 实 在 过 于 浪 
费 。 这 些 状 态 可 以 通过 状态 位 及 控制 器 的 状态 共同 反映 出 。 可 是 当 我 们 考虑 高 速 缓存 允许 多 
个 待 完 成 过 程 时 ， 就 必须 对 可 能 处 于 过 渡 状 态 的 高 速 缓存 〈 多 个 ) 块 加 以 明确 表示 。 

协议 中 的 状态 数 的 扩充 加 大 了 证 明 实 现 过 程 正 确 性 和 测试 设计 的 难度 ， 因 此 设计 者 也 寻 
求 避 免 过 渡 状 态 的 机 制 。 例 如 Sun Enterprise 没有 使 用 MESI 协议 中 的 BusUpgr 事务 ， 而 是 使 
用 BusRdx 事 务 中 侦 听 结果 来 消除 元 余 的 数据 传输 ,回顾 在 总 线 写 操作 中 ,包含 该 存储 块 的 
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图 6-5 扩充 的 MESI 协 议 状 态 图 ， 指 出 了 总 线 获 取 中 的 过 渡 状 态 。 缓 存 控制 器 在 
其 请 求 进行 仲裁 时 监测 总 线 。 一 个 有 冲突 的 事务 可 能 改变 稳 态 之 间 的 转换 
高 速 缓存 要 将 副本 置 为 无 效 。 如 果 某 一 高 速 缓存 包含 修改 状态 下 的 存储 块 ， 它 就 会 给 出 脏 信 
号 线 ， 从 而 阻止 存储 器 提供 数据 ， 它 自己 将 数据 送 到 总 线 上 。 这 里 没有 用 到 共享 信号 线 。 当 
总 线 事务 在 总 线 实际 进行 时 ， 此 方法 将 使 发 出 总 线 读 请 求 的 处 理 器 侦 听 自身 的 标记 。 如 果 高 
速 缓存 中 该 存储 块 还 处 在 有 效 状态 下 ， 它 就 给 出 共享 信号 来 禁止 主 存 。 因 为 它 已 经 含有 有 效 
存储 块 ， 该 块 在 任何 其 他 高 速 缓存 中 都 不 可 能 处 于 已 修改 状态 ， 且 事务 中 的 数据 阶段 被 忽 
略 。 高 速 缓存 控制 器 不 需要 过 渡 状 态 ， 因 为 不 管 发 生 什 么 ， 它 只 要 做 一 件 事 一 将 BusRdx 
事务 放 到 总 线 上 。 
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鉴于 不 同 处 理 器 发 出 的 存储 操作 的 非 原子 性 ， 在 处 理 器 和 高 速 缓存 的 握手 机 制 当中 一 定 
要 注意 保持 由 总 线 事务 的 串 行 化 所 决定 的 顺序 。 对 于 读 操作 ， 处 理 器 需要 操作 结果 。 为 获得 
号 操作 上 更 高 的 性 能 ， 一 种 有 吸引 力 的 做 法 是 当 高 速 缓存 控制 器 获取 存储 块 的 独 享 权时 ， 让 
处 理 器 在 缓存 块 更 新 的 时 候 继续 执行 一 些 有 用 的 指令 ， 还 可 能 通过 -个 总 线 事务 装 人 存储 块 
的 剩余 部 分 。 这 里 的 问题 是 ， 在 处 理 器 向 高 速 缓存 发 出 写 操作 和 高 速 缓存 控制 器 获得 排他 读 
(或 者 升级 ) 事务 总 线 所 有 权 之 间 有 一 个 空当 。 正 如 我 们 所 知 ， 其 他 总 线 事务 (包括 写 操作 ) 
可 能 出 现在 这 一 空 档 中 ,这 就 可 能 改变 高 速 缓存 中 该 存储 块 或 其 他 块 的 状态 。 这 将 使 一致 性 
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写 串 行 化 (如 果 这 个 事务 针对 同一 存储 块 ) 和 SC (如 果 事 务 针 对 不 同 块 ) 复杂 起 来 。 为 提 
供 写 操作 串 行 化 或 SC， 这些 过 程 都 一 定 要 让 处 理 器 看 起 来 是 出 现在 写 操作 之 前 ， 因 为 这 就 
是 它们 通过 总 线 得 到 串 行 化 且 告知 其 他 处 理 咒 的 方式 。 为 保守 起 见 ， 高 速 缓存 控制 器 应 该 不 
允许 发 出 写 操 作 的 处 理 器 ， 在 排他 读 事 务 出 现在 总 线 上 且 使 得 写 操作 对 其 他 处 理 器 可 见 之 
前 ， 认 为 写 已 经 完成 了 从 而 可 以 去 执行 程序 中 在 写 操作 之 后 的 其 他 操作 。 

事实 上 ， 高 速 缓存 不 用 等 到 排他 读 事务 完成 之 后 ， 即 等 到 其 他 高 速 缓存 中 的 其 他 副本 实 
际 被 作废 后 ， 才 允许 处 理 器 继续 工作 ; 事务 一 旦 出 现在 总 线 上 ， 只 要 传输 中 存储 块 的 访问 能 
处 理 合理 ， 处 理 器 就 可 以 为 读 、 写 命中 服务 。5.2 节 给 出 的 一 致 性 和 顺序 同一 性 的 关键 论 
点 ， 在 于 所 有 的 高 速 缓存 控制 器 以 同样 的 顺序 观察 由 写 操作 产生 的 独 享 所 有 权 事 务 (BusRdx 
或 BusUpgr) ， 以 及 独 享 所 有 权 事 务 完 成 后 立即 将 数据 写 人 高 速 缓存 中 。 一 旦 总 线 事务 开始 ， 
在 我 们 的 基本 设计 中 写 者 认为 所 有 其 他 的 高 速 缓存 将 在 其 他 事务 发 生 之 前 将 其 副本 作废 。 我 
们 称 写 操作 被 提交 了 ， 指 的 是 在 总 线 顺 序 中 该 写 操作 的 位 置 已 完全 确定 ， 与 进一步 的 活动 无 
关 。 写 者 不 可 能 确切 知道 在 其 他 处 理 器 的 局 部 程序 顺序 中 何 处 会 被 插 和 人 作废 操作 ; 它 只 知道 
不 论 操 作 产 生 下 一 步 的 总 线 事务 如 何 ， 插 入 作废 都 在 此 之 前 且 所 有 处 理 器 以 相同 的 顺序 插入 
作废 。 同 样 ， 写 者 在 其 后 的 本 地 高 速 缓存 命中 的 顺序 也 仅仅 在 下 一 个 总 线 事 务 中 才 可 见 。 这 
些 为 保证 一 致 性 和 SC 必须 维护 的 序 关 系 是 很 重要 的 ， 它 允许 写 者 能 在 达到 SC 的 充分 条 件 下 
用 提交 代替 实际 完成 。 事 实 上 ， 这 个 基本 的 观察 结论 就 是 有 可 能 用 流水 的 方式 实现 高 速 缓存 
的 一 致 性 和 顺序 同一 性 的 关键 ; 这 里 的 流水 包括 总 线 、 多 层 存 储 器 和 每 处 理 器 的 多 个 待 完 成 
操作 。 写 原子 性 和 先前 5.3 ERHAN. 

操作 串 行 化 的 讨论 产生 一 个 重要 的 但 有 点 难以 说 清 的 观点 。 写 串 行 化 和 写 原 子 性 对 于 何 
时 把 数据 写 回 到 存储 器 ， 或 者 何 时 存储 器 单元 被 更 新 没有 任何 影响 。 任 何 读 或 写 操作 如 果 产 
生 要 被 黎 盖 的 脏 块 ， 就 会 导致 一 次 回 写 。 回 写 也 是 总 线 事 务 ， 但 它们 不 需要 按照 顺序 进行 。 
丸 一 方面 , 一 次 写 操作 并 不 一 定 导致 新 的 值 出 现在 总 线 上 ， 即 使 是 扑 空 了 ; 它 会 产生 一 次 排 
他 读 。 对 程序 来 说 重要 的 是 新 值 绑 定 到 地 址 上 的 时 间 。 写 操作 完成 ， 就 是 说 一 旦 总 线 读 事 务 
(BusRdx) 或 者 总 线 升 级 事务 (BusUper) 发 生 ， 就 会 返回 刚才 写 进去 或 者 在 其 后 写 进去 的 
值 。 通 过 作废 旧 的 高 速 缓存 块 ， 保 证 了 所 有 返回 旧 值 的 读 操作 在 这 个 事务 之 前 发 生 。 发 起 这 
个 事务 的 控制 器 能 保证 新 的 值 在 总 线 事务 后 写 人 高 速 缓存 且 无 任何 其 他 的 存 取 操 作 干 扰 。 
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一 种 如 同 存储 操作 中 请 求 -应 答 那 样 的 两 阶段 协议 表现 出 了 协议 层 死 锁 的 一 种 形式 ， 有 
时 称 作 “ 取 死 锁 ”(Leiserson et al. 1996)， 它 不 仅仅 是 缓冲 区 使 用 的 问题 。 当 一 实体 试图 发 
出 请 求 信号 ， 它 需要 为 接 妈 而 来 的 事务 服务 。 在 带 原 子 总 线 的 SMP 中 ， 当 高 速 缓存 控制 器 
等 待 总 线 时 将 产生 下 列 情况 ， 高 速 绥 存 控制 器 既 要 继续 俩 听 ， 又 要 处 理 请求 信 号， 而 请 求 信 
号 可 能 会 要 求 控制 器 把 存储 块 传输 到 总 线 上 。 如 果 两 个 控制 器 各 含有 一 待 完 成 事务 ， 而 这 两 
个 事务 都 要 求 对 方 应 答 却 同 时 拒绝 处 理 请 求 信号 ， 这 样 系统 就 可 能 死 锁 。 例 如 ， 假 设 总 线 上 
出 现 对 BRAY BusRd， 同 时 某 个 处 理 器 P 对 另外 一 块 4 的 排他 读 的 请 求 信号 被 总 线 接受 。 
E P 有 8 块 的 已 修改 副本 ， 等 待 它 控制 器 就 应 当 在 等 待 获 得 总 线 时 给 当前 总 线 事 务 提供 数 
据 〈 并 不 需要 原子 总 线 的 仲裁 ) ， 且 改变 修改 状态 为 共享 状态 。 否 则 ， 当 前 总 线 事 务 就 会 等 
fF P, 控制 器 而 P 控制 器 又 在 等 待 总 线 事 务 释放 总 线 。 
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6.2.8 EMARE 


在 基于 作废 协议 的 高 速 缓存 一 致 性 存储 系统 中 ， 典 型 潜在 的 活 锁 问 题 是 由 所 有 处 理 器 试 
图 同时 写 人 同一 存储 单元 而 产生 的 。 设 想 一 下 ， 开 始 任何 处 理 器 在 其 高 速 缓存 中 均 无 该 单元 的 
副本 。 某 一 处 理 器 的 写 操 作 有 下 列 非 原子 不 可 分 的 系列 活动 : 它 的 高 速 缓存 获得 对 应 存储 块 的 
独 亭 所 有 权 〈 即 它 将 其 他 副本 作废 ， 获 得 修改 状态 的 存储 块 ); 处 理 器 中 状态 机 确认 高 速 缓存 
中 该 块 处 于 合理 状态 下 ; 状态 机 再 进行 写 操作 。 除 非 对 处 理 器 和 高 速 缓存 握手 的 设计 非常 严 
密 ， 不 然 很 有 可 能 出 现存 储 块 以 修改 状态 进入 了 高 速 缓存 ， 但 处 理 器 还 没有 完成 写 ， 该 存储 块 
又 被 其 他 的 处 理 器 的 BusRdX 请 求 作废 了 。 处 理 器 写 操作 再 次 失败 ， 如 此 可 能 总 重复 下 去 。 为 
避免 活 锁 ， 一 个 已 获得 独 享 所 有 权 的 写 操作 一 定 要 在 所 有 权 被 拿 走 之 前 能 够 完成 。 

当 处 理 器 争 用 总 线 时 ， 有 可 能 一 些 处 理 器 反复 获得 总 线 而 另 一 些 却 由 于 不 能 获得 总 线 而 
挨 饿 。 挨 狐 现 象 可 通过 在 总 线 仲裁 和 其 他 方面 采用 先 来 先 服务 的 原则 避免 。 然 而 ， 这 往往 要 
另 加 缓冲 设备 ， 因 此 有 时 就 采用 启发 式 技术 来 减少 可 能 发 生 的 挨 饿 现象。 例如， 记录 下 该 请 
求 被 拒绝 的 次 数 ， 一 旦 超过 某 个 阐 值 ， 则 拒绝 其 他 请 求 ， 直 到 该 请 求 服务 完成 ， 才 服务 其 他 
新 请 求 ， 或 者 可 以 提高 该 请 求 的 优先 级 。 


6.2.9 原子 操作 的 实现 


在 讨论 更 实际 的 体系 结构 之 前 ,我 们 对 基本 体系 结构 还 应 了 解 的 最 后 一 项 是 原子 不 可 分 的 读 - 
改 ~ 写 指令 的 实现 ,诸如 test&set 和 fetch&op 以 及 能 合成 原子 操作 的 LL-SCO 原 语 ( 参 看 第 5.5 Y), 

考虑 简单 的 test&zset 指令 ， 该 指令 包含 读 成 分 (test) 和 写成 分 (set)。 第 一 个 问题 就 是 
test&set CNH) 指令 的 变量 是 否 可 放 人 高 速 缓存 中 从 而 可 以 在 处 理 器 的 高 速 缓存 中 执行 ， 如 
果 不 能 放 和 人 ， 则 原子 操作 在 主 存 里 执行 。5.5 节 中 有 关 同 步 的 讨论 假设 了 锁 变 量 可 以 缓存 。 
其 优点 是 允许 对 局 部 性 的 利用 ， 从 而 当 同一 个 处 理 器 反复 需要 该 锁 时 降低 时 延 和 流量 ， 锁 变 
量 以 已 修改 状态 保留 在 高 速 缓存 中 ， 不 产生 作废 和 扑 空 。 在 锁 的 状态 不 满足 要 求 时 ， 处 理 器 
还 可 以 在 其 高 速 缓 存 中 踏步 等 待 ， 从 而 减少 无 用 的 总 线 流量 。 然 而 ， 在 存储 器 上 执行 锁 操 作 
能 加 快 锁 从 一 处 理 器 传 到 另 一 处 理 器 。 对 于 可 高 速 缓存 的 锁 ， 忙 等 待 下 的 处 理 器 首先 被 置 为 
无 效 ， 然 后 试 着 从 其 他 处 理 器 的 高 速 缓存 或 者 主 存 来 访问 锁 。 对 于 不 能 高 速 缓存 的 锁 ， 锁 的 
释放 直接 反映 到 存储 器 〈 不 需要 作废 什么 )， 且 在 作废 操作 到 达 存 储 器 之 前 ， 正 在 等 待 的 处 
理 器 的 下 一 个 读 操作 可 能 也 正在 抵达 存储 器 的 路 上 ， 因 此 可 以 以 很 低 的 时 延 从 存储 器 获得 
锁 。 总 的 看 来 ， 流 量 和 局 部 性 的 因素 占 支配 地 位 ， 因 此 锁 变 量 多 为 可 高 速 缓存 的 ， 从 而 处 理 
器 在 忙 等 待 时 可 不 必 访 问 总 线 。 

如 果 可 缓存 的 test&set 命令 的 实现 不 能 由 高 速 缓存 本 身 完 成 ， 一 种 自然 的 方法 是 使 用 两 
个 总 线 事务 : 读 总 线 事务 处 理 test 部 分 和 写 总 线 事务 处 理 set 部 分 。 保 证 这 个 序列 原子 不 可 
分 的 办 法 之 一 是 在 读 事务 时 锁 住 总 线 直到 写 过 程 完成 ， 使 其 他 处 理 器 不 能 在 两 个 事务 之 间 访 问 
总 线 。 对 于 原子 总 线 来 说 ， 实 现 这 一 点 非常 容易 ， 但 对 于 事务 拆 分 型 总 线 则 有 较 大 难度 : 锁 住 
总 线 不 仅 会 有 损 效 率 ， 而 且 若 某 一 事务 不 放弃 总 线 就 不 能 立即 满足 的 话 ， 则 可 能 导致 死 锁 。 

幸运 的 是 我 们 有 更 佳 的 方法 。 研 究 一 个 回 写 式 高 速 缓存 的 基于 作废 的 协议 。 处 理 器 真正 








O BV ABER - 条 件 存储 。 一 一 译 者 注 
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要 做 的 是 获得 高 速 缓存 块 的 所 有 权 (如 通过 发 出 一 次 排他 读 总 线 事务 ) ， 然 后 执行 高 速 缓存 
中 读 成 分 和 写成 分 ， 只 要 是 两 者 之 间 不 放弃 块 所 有 权 就 可 以 ; 即使 算是 非 原子 的 总 线 ， 新 来 
的 从 总 线 到 那 一 存储 块 的 访问 也 被 禁止 且 一 直 等 到 数据 写 人 高 速 缓存 为 止 。 更 加 复杂 的 原子 
操作 ， 如 fetch&op 也 都 要 保留 独占 所 有 权 直 至 操作 结束 。 

Compare&swap 是 一 更 难 实现 的 原子 指令 。 它 要 求 在 一 存 取 指 令 中 指定 三 个 操作 数 : 存储 
单元 、 用 于 比较 的 寄存 器 以 及 要 与 存储 单元 交换 的 数值 /寄存 器 。RISC 指令 系统 一 般 不 包括 
该 指令 。 

实现 LL-SC 需要 些 特殊 的 支持 。 和 典型 的 实现 方法 是 在 每 个 处 理 器 中 使 用 硬件 锁 标 记 和 锁 
存 地 址 寄存 器 。LL 操作 读 存储 块 的 同时 也 设置 锁 标 记 和 将 块 地 址 放 和 人 锁 存 地 址 寄存 器 。 新 
的 来 自 总 线 的 作废 (或 更 新 ) 请 求 信号 和 锁 存 地 址 匹配 ， 匹 配 成 功 ( 称 冲突 写 ) 则 复位 锁 标 
记 。 条 件 存储 检查 锁 标 记 ， 判 断 是 否 发 生 冲突 写 ; 如 果 标 记 已 经 复位 ， 则 检查 失败 ， 否 则 则 
检查 成 功 。 如 果 锁 变量 从 高 速 缓存 被 蔡 换 ， 锁 标记 同样 被 复位 (条件 存 储 失 败 )。 这 是 因为 
处 理 器 无 法 看 到 对 该 变量 的 作废 或 更 新 操作 。 最 后 ， 锁 标记 还 可 能 在 上 下 文 切换 的 时 候 复 
位 ， 因 为 在 LL 和 它 的 条 件 存 储 之 间 的 上 下 文 切 换 可 能 错误 地 使 得 老 进 程 的 LL 导致 切换 进来 
的 新 进程 的 条 件 存储 执行 的 成 功 。 

在 实现 LL-SC 中 为 避免 活 锁 问 题 又 产生 了 新 的 细节 问题 : 第 一 ， 实 际 上 我 们 不 应 允许 占 
有 锁 变 量 的 高 速 缓存 块 的 玉 换 发 生 在 LL 和 SC 之 间 。 和 替换 会 清除 锁 标 记 上 且 形 成 处 理 器 不 断 试 
图 执行 SC 但 总 不 成 功 的 情况 。 由 于 在 LL 和 SC 操作 之 间 可 能 有 不 断 的 替换 发 生 。 为 了 禁止 
和 取 指 相 冲 突 的 替换 ， 我 们 可 以 使 用 拆 分 型 指令 和 数据 高 速 缓存 或 者 组 相 联 的 统一 高 速 组 
存 。 对 于 和 其 他 数据 引用 的 冲突 ， 常 见 的 解决 办 法 是 简单 在 LL 和 条 件 存储 之 间 禁 止 涉及 存 
储 器 的 指令 。 隐 藏 时 延 (如 乱 序 问题 ) 的 技术 可 能 将 问题 复杂 化 ， 因 为 程序 代码 不 在 LA 
SC 之 加 的 存储 操作 到 执行 时 ， 则 可 能 在 两 者 之 间 。 简 单 的 解决 办 法 就 是 不 允许 重 排 存 储 操 
VER [LL 或 SC 操作 发 生 。 

第 二 种 活 锁 的 潜在 情况 发 生 在 两 个 进程 连续 在 条 件 存储 上 失败 ， 而 且 每 个 进程 失败 的 条 
件 存储 使 其 他 进程 的 存储 块 作废 或 者 更 新 ， 从 而 清除 了 锁 标 记 。 如 果 这 种 错误 情况 继续 存 
在 ， 那 两 个 进程 都 不 能 成 功 。 这 也 就 是 为 什么 不 把 条 件 存储 视 为 简单 的 写 操作 和 失败 时 也 不 
能 发 出 作废 或 更 新 命令 的 重要 原因 。 

和 实现 原子 的 读 - 改 - 写 指令 相 比 ，LL-SC 在 效率 上 有 问题 ， 这 是 因为 LLA SC 即便 成 功 ， 
但 都 可 能 产生 缓存 扑 空 。 当 LL 装 人 处 于 共享 状态 下 的 存储 块 时 ， 就 会 发 生 这 种 情况 ， 导 臻 
两 个 扑 空 ， 而 不 是 一 个 。 为 提高 性 能 ， 我 们 可 能 希望 在 LL 执行 时 以 独占 或 修改 状态 获得 
《或 预 取 ) 存储 块 ， 从 而 条 件 存 储 除非 失败 否则 会 扑 空 。 然 而 ， 这 又 产生 了 第 二 种 活 锁 情况 : 
将 其 他 副本 作废 来 获得 独 享 所 有 权 ， 因 此 如 果 不 能 保证 这 处 理 器 条 件 存 储 成 功 ， 那 其 他 处 理 
右 的 条 件 存储 也 将 失败 。 如 果 引 入 这 种 优化 ， 则 应 该 在 失败 的 操作 之 间 引 入 某 种 形式 的 回 
退 ， 以 减少 (尽管 不 能 完全 消除 ) 活 锁 的 可 能 性 。 


6.3 多 级 高 速 缓存 层次 结构 


十 一 节 给 出 的 简单 设计 是 可 以 说 明 一 定 间 题 的 ， 但 它 有 两 个 简化 的 假设 并 不 适用 于 大 多 数 
现代 系统 : 即 单 级 高 速 缓存 和 原子 总 线 。 这 一 节 将 放弃 第 一 个 假设 ， 来 研究 所 导致 的 设计 问题 。 
自 20 世纪 90 年 代 早 期 开始 ， 微 处 理 器 的 设计 趋势 一 直 是 两 级 高 速 缓存 ， 第 一 级 在 片 
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内 ， 第 二 级 高 级 缓存 容量 要 大 些 ， 可 能 在 片 内 也 可 能 在 片 外 ” 。 不 少 系统 也 使 用 片 内 第 二 级 
高 速 缓存 和 片 外 第 三 级 高 速 缓 在 。 多 级 高 速 缓存 的 层次 结构 看 来 使 一 致 性 问题 更 加 复杂 ， 因 
为 由 处 理 器 对 第 一 级 高 速 缓存 做 的 修改 ， 可 能 对 负责 总 线 操作 的 更 低级 的 高 速 缓存 不 可 见 ， 
且 第 一 级 高 速 缓存 也 不 能 直接 看 见 总 线 事 务 。 然 而 ， 为 达到 高 速 缓 存 一 致 性 的 基本 机 制 可 以 
自然 地 扩展 到 多 层 高 速 缓存 上 。 让 我 们 看 看 图 6-6 所 示 的 两 级 高 速 缓存 具体 的 层次 结构 ;到 
多 级 情形 的 扩展 就 显而易见 了 。 





图 6-6 一 种 基于 总 线 、 包 含 两 级 高 速 缓存 的 处 理 器 的 机 器 


处 理 多 级 高 速 缓存 的 一 种 显然 的 方法 是 高 速 缓存 层次 结构 中 每 级 都 有 相应 独立 的 总 线 侦 
听 硬 件 。 由 于 种 种 原因 ， 此 方法 不 太 理想 。 首 先 ，L 高 速 缓存 总 是 在 处 理 器 芯片 内 ， 片 内 
侦 听 器 要 占用 珍贵 的 芯片 管 脚 来 监听 共享 总 线 上 的 地 址 。 第 二 ， 做 双 份 标记 以 允许 处 理 器 和 
侦 听 器 同时 访问 ， 也 会 消耗 过 多 的 芯片 资源 。 第 三 ， 由 于 大 多 时 候 出 现在 L 高 速 缓存 的 存 
储 块 也 出 现在 L 高 速 缓 存 上 ， 因 此 L AL 侦 听 有 重复 操作 ; 因此 ，L 高 速 缓存 的 侦 听 是 
不 必要 的 。 

实用 的 解决 办 法 就 是 基于 对 上 面 最 后 一 条 的 认识 。 当 使 用 多 级 高 速 缓存 时 ， 设 计 者 要 确 
保 所 谓 包 含 特性 ， 要 求 如 下 ; 

1) 如 果 一 存储 块 在 D 高 速 缓存 内 ， 那 它 也 必 在 L 高 速 缓存 内 。 换 名 话说 ，L 高 速 组 
存 的 内 容 是 L 高 速 缓存 的 子 集 。 

2) 如 果 该 存储 块 在 L, 高 速 缓存 中 是 拥有 状态 〈 如 MESI MOES 中 的 修改 状态 ，Drag- 
on 中 的 共享 修改 状态 和 MOESI 中 的 拥有 状态 ) ， 那 么 它 在 L 高 速 缓存 一 定 是 已 修改 状态 。 393 

第 一 条 要 求 保证 任何 与 L 高 速 缓存 相关 的 总 线 事 务必 与 L 高 速 缓存 相关 ， 因 此 让 L 
高 速 缓存 控制 器 俩 听 总 线 就 足够 了 。 第 二 条 保证 如 果 一 个 总 线 事务 向 L 高 速 缓存 或 L 高速 
缓存 请 求 某 个 已 修改 状态 的 存储 块 ，L 高 速 缓 存 能 知道 这 个 存储 块 就 在 它 那里 。 


6.3.1 包含 性 的 维护 
包含 性 的 维护 并 非 小 事 。 有 三 个 方面 要 考虑 到 。 第 一 ,与 已 高 速 缓存 有 关 的 处 理 器 引用 





O HP fi PA-RISC 微 处 理 器 是 一 个 特例 ， 在 许多 其 他 厂家 追求 较 小 的 片上 一 级 缓存 后 ， 它 在 多 年 里 一 直 用 一 个 大 容 
量 的 片 外 一 级 缓存 。 
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能 使 它 改变 状态 和 执行 替换 ， 这 就 需要 以 保证 包含 性 的 方式 来 处 理 。 第 二 ， 总 线 过 程 引起 
L 高 速 缓存 改变 状态 和 输送 存储 区 块 ， 它 们 要 反映 到 第 一 级 。 最 后 ， 已 修改 状态 必须 要 传 
播 到 L 高 速 缓存 。 

乍 一 看 ， 由 于 所 有 高 速 缓存 扑 空 都 会 到 L 高 速 缓 存 中 去 找 ， 似 乎 包含 性 能 自动 满 
足 。 然 而 问题 是 在 扑 空 时 ， 两 个 高 速 缓存 可 以 选择 不 同 的 存储 块 和 数据 来 替换 。 只 是 在 某 种 
高 速 缓存 的 组 合 配置 下 ， 包 含 件 才能 自动 维持 。 研 究 一 下 如 果 不 采 取 特 殊 措 施 ， 在 何 种 情况 
下 典型 的 高 速 缓存 层次 结构 会 导致 包含 性 被 破坏 ， 是 一 个 很 有 趣 的 练习 (Baer and Wang 
1988)。 在 知道 如 何 保持 包含 性 之 前 ， 先 研究 上 面 这 个 问题 。 为 表达 方便 ， 假 设 LL 高 速 缓存 
的 相 联 度 是 mw ， 组 数 是 n, ， 存 储 块 大 小 是 b, MRE Sisa x bi x ni1。 相 应 L 高 速 缓存 
的 参数 是 a, m, br 及 s,。 我 们 还 假设 参数 均 是 2 WRK 

。 基于 历史 的 替换 策略 ， 组 相 联 工 高 速 缓 在 。 基 于 存储 块 访 问 的 历史 纪录 的 替换 算 
E, WLRU (最 近 最 少 使 用 ) ， 其 问题 在 于 L 高 速 缓存 看 到 的 访问 历史 和 L 高速 组 
存 及 其 他 级 看 到 的 不 同 ， 因 为 处 理 器 的 所 有 存储 访问 都 要 察看 L ， 但 并 不 一 定 都 到 
更 低层 的 高 速 缓存 。 假 设 L 是 两 路 组 相 联 ， 采 用 LRU 替换 策略 ，L 和 L 高 速 缓存 
大 小 相同 (bi = 6), L 是 第 一 级 的 上 倍 (n, = 上 x ni)。 容 易 看 出 在 此 简单 例子 中 
不 能 保持 包含 性 。 假 设 三 个 不 同 的 存储 块 mm ，m 和 ms， 映像 在 第 一 级 的 同一 组 
内 ; Æ m 和 ms 都 处 在 L 内 该 组 的 两 个 有 效 位 置 上 ， 且 出 现在 L 高 速 缓存 中 。 现 
在 看 看 当 处 理 器 引用 m, E5 m Am 冲突 时 ， 会 发 生 什 么 事情 。 它 要 导致 替换 
m Alm, 之 一 ， 这 不 仅 涉 及 L 高 速 缓存 ， 而 且 也 涉及 L 高 速 缓存 。 因 为 L 高 速 组 
FERS L 高 速 缓存 的 访问 史 一 无 所 知 ， 而 这 个 访问 史 决 定 了 高 速 缓存 是 替换 m 还 
是 mys 因此 容易 发 现 有 可 能 L 高 速 缓存 蔡 换 了 m Am 之 一 ， 而 L 高 速 缓存 替换 
的 却 是 另外 一 块 。 如 果 L 是 直接 映像 方式 ， 甚 至 是 双 路 组 相 联 ， 且 m, 和 m, 在 同一 
组 ,不 同 的 替换 也 会 发 生 。 事 实 上 ， 将 该 例子 的 情形 推广 可 见 ， 如 果 PEHR 
像 方式 ， 但 采用 LRU RKR, WE L 的 相 联 度 ， 存 储 块 的 大 小 还 是 整个 忆 的 大 
小 如 何 ， 包 含 性 都 可 能 被 破坏 。 

在 一 个 层次 有 多 个 高 速 绥 在 。 当 第 一 级 高 速 缓存 将 数据 和 指令 分 开 ， 在 发 生 替 换 时 
可 能 出 现 类 似 的 问题 ， 即 便 是 采用 直接 映像 方式 ， 且 被 一 体 化 的 第 二 级 缓存 支持 。 
首先 假设 L 高 速 缓存 也 是 直接 映像 ， 在 L 高 速 缓存 发 生 冲 突 的 指令 块 m 和 数据 块 
mz 因 进 入 不 同 的 高 速 缓存 中 而 在 L 不 发 生 冲突 。 如 果 在 引用 m 时 m, TEL, 高速 组 
存 中 ，m 将 在 L 高 速 缓存 中 被 替换 ， 但 在 L 数据 高 速 缓存 中 保留 ， 这 就 违反 了 所 
含 性 。 这 就 说 明 ， 如 果 在 一 级 有 多 个 独立 的 高 速 缓存 ， 即 使 下 面 的 高 速 缓存 是 一 体 
化 的 ， 且 有 很 高 的 相 联 度 ， 包 含 性 仍 无 法 得 到 保证 (见习 题 6.72))。 

不 同 的 存储 块 大 小 。 最 后 ,不 同 的 存储 块 大 小 也 会 破坏 包含 性 。 考 虑 某 种 使 用 直接 
映像 方式 的 系统 ， 一 体 化 的 L ALL, 高 速 缓 存 (a, = a, = 1)， 存 储 块 大 小 分 别 为 一 
个 字 和 两 个 字 (5, =l, b =2)， 组 数 分 别 为 4 和 8 (ni =4，m =8)。 因 此 ，] 的 大 
小 是 4 个 字 ， 存 储 字 单 元 0，4，8，…… 映射 到 组 0。 单 元 1, 5, 9, oee 映射 到 组 
1， 依 次 类 推 。L, 的 大 小 是 16 个 字 ， 字 单元 0 和 1，16 和 17，32 A133, =e 映射 到 
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组 0; 字 单元 2 和 3，18 和 19 , 34735, =e 映射 到 组 1 ， 依 次 类 推 。 现 在 易 看 到 
L 高 速 缓存 可 以 同时 包含 单元 0 和 单元 17 的 字 (它们 分 别 映射 到 组 0 和 组 1 )， 而 
L, 高 速 缓存 因为 两 字 了 映射 到 同一 组 (第 0 组 ) 却 不 是 相继 的 字 (于 是 存储 块 大 小 为 
两 个 字 无 济 于 事 ) ， 所 以 不 能 同时 包含 它们 。 正 如 所 示 的 那样 ， 即 使 L 高 速 缓存 有 
更 大 容量 或 者 更 高 的 相 联 数 ， 只 要 存储 块 大 小 不 同 ， 包 含 性 就 可 能 被 破坏 。 而 且 我 
们 也 已 看 到 了 当 高 速 缓存 有 更 高 相 联 度 时 出 现 的 问题 。 

幸运 的 是 ， 在 最 常见 的 一 种 情形 包含 性 是 自动 保持 的 。 那 是 这 样 一 种 情况 : L 高 速 缓 [595 
存 采 用 直接 映像 方式 (al = 1); L 高 速 缓 存 可 以 是 直接 映像 ， 也 可 是 组 相 联 方式 (al), 
采用 任何 一 种 替换 算法 (如 LRU、FIFO、 随 机 ) ， 只 要 求 新 的 存储 块 同时 被 放 到 L 高 速 缓存 
AL 高 速 缓存 ， 块 的 大 小 相同 (b = b,)， 并 且 高 速 缓存 的 组 数 小 于 或 等 于 二 高 速 缓存 
的 组 数 (n, <n,)。 使 用 这 种 配置 就 是 解决 包含 性 问题 的 一 种 流行 方法 。 

然而 ， 许 多 实际 使 用 的 高 速 缓存 配置 并 不 能 自动 在 替换 时 保持 包含 性 。 解 决 的 办 法 是 通 
过 在 高 速 缓存 层次 结构 中 扩充 用 于 传播 一 致 性 事件 的 机 制 ， 使 包含 性 得 以 保持 。 一 旦 工 高 
速 缓存 内 的 存储 块 被 蔡 换 ， 该 块 地 址 则 传 到 L 高 速 缓存 ， 将 该 块 作废 或 者 送出 (如 果 已 被 
修改 )。 若 b > b,， 则 可 能 有 多 个 存储 块 受到 影响 。 

还 需要 加 强 处 理 总 线 事务 和 处 理 写 操作 的 能 力 。 考 虑 L 高 速 缓存 能 见 到 的 总 线 事 务 。 
有 些 和 高 速 缓 存 有 关 的 过 程 也 和 L 高 速 缓存 相关 ， 因 此 需要 广播 到 工 高 速 缓存 去 。 例 
M, WRL 高 速 缓存 内 存储 块 因 某 一 总 线 事 务 (WM BusRdx) 被 作废 ， 如 果 数 据 也 在 L 高 速 
缓存 ， 那 作废 也 要 广播 到 L 高 速 缓存 。 有 几 种 方法 可 以 做 到 此 点 。 其 一 是 所 有 与 L 高速 组 
存 相关 的 过 程 均 通 知 L 高 速 缓存 ， 由 L 高 速 缓存 来 忽略 地 址 与 其 任何 标记 都 不 相 匹 配 的 事 
务 。 这 种 方法 会 发 送 给 L 高 速 缓存 大 量 无 用 的 干扰 ， 而 且 由 于 高 速 缓存 的 标记 不 能 被 处 理 
器 访问 而 降低 效率 。 更 好 点 的 解决 办 法 是 在 L 高 速 缓存 内 存储 块 都 设置 一 新 状态 ( 称 为 
“包含 位 ”)， 记 录 该 块 是 否 也 在 L 高 速 缓存 内 。 这 种 方法 用 一 点 额外 的 硬件 资源 和 复杂 性 代 
价 ， 能 适当 地 过 滤 对 L 高 速 缓存 的 于 扰 。 

BUG, SL, 高 速 缓存 写 命 中 时 ， 修 改 操作 要 传播 给 L 高 速 缓存 ， 从 而 必要 时 L 高 束 
缓存 能 够 提供 给 总 线 最 新 数据 。 一 种 方法 是 使 得 L 高 速 缓存 直 写 。 这 样 做 的 优点 是 单 周期 
的 写 操作 易于 实现 (Hennessy and Patterson 1996)。 可 是 写 操作 会 消耗 L, 高 速 缓存 的 部 分 带 
宽 。 为 避免 处 理 器 停 转 ，L 高 速 缓存 和 L 高 速 缓存 之 间 需 要 一 写 缓 冲 区 。 另 一 种 满足 需求 
的 方法 是 L, 高 速 缓存 采用 回 写 式 ， 因 为 L, 高 速 缓存 的 数据 并 不 需要 立即 更 新 而 是 L 高 束 
缓存 要 知道 Li 高 速 缓存 是 何 时 有 最 近 的 数据 ， 这 样 增强 了 L 高 速 缓存 内 存储 块 的 状态 信 
和 县， 使 得 存储 块 可 以 置 为 “修改 了 但 仍 是 陈旧 的 (modified-but-stale)” KAS. L 高 速 缓存 内 
存储 块 可 以 作为 一 致 性 协议 中 已 修改 的 块 ， 但 如 果 需 要 传 到 总 线 上 ， 数 据 则 从 工 高 速 缓存 
中 提取 。 (设置 modified-but-stale 状态 的 简单 方法 是 既 置 修改 位 也 置 作废 位 )。 直 写 式 和 回 写 
式 的 Ly 高 速 缓 存 都 被 许多 基于 总 线 的 多 处 理 器 使 用 。 保 持 包 含 性 的 详细 资料 可 见 (Baer and 
Wang 1988), ` 


6.3.2 在 高 速 缓存 层次 结构 中 传播 一 致 性 的 事务 
假定 我 们 有 包含 关系 ， 并 且 可 以 根据 需要 传播 作废 信 号 以 及 发 出 请 求 到 了 高 速 缓存 ， BE 
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现在 看 有 关 的 过 程 如 何 能 够 在 缓存 层次 结构 上 下 渗透 。 层 次 内 的 协议 通过 向 下 渗透 (离开 处 
理 器 ) ， 直 到 碰 到 一 个 持 有 被 请 求 的 处 于 适当 状态 的 存储 块 或 者 到 达 总 线 ， 来 处 理 响 应 器 的 
请 求 。 对 这 些 处 理 器 请 求 的 回应 沿 着 缓存 层次 向 上 传送 ， 随 着 向 处 理 器 方向 的 推进 ， 依 次 对 
缓存 进行 更 新 。 对 读 操 作 的 应 答 ， 将 数据 装载 到 层次 中 的 每 个 处 于 共享 或 者 独 享 状态 的 缓存 
中 ， 而 对 于 排他 读 的 响应 ， 要 装 人 除了 最 内 层 (L 高 速 缓存 ) 外 的 所 有 处 于 已 修改 但 陈旧 
状态 的 层次 中 。 在 最 内 层 缓存 ， 排 他 读数 据 以 已 修改 状态 装 入 ， 就 好 像 是 写 人 了 新 数据 ， 这 
就 是 最 新 的 找 贝 。 

从 总 线 来 的 请 求 从 外 部 界面 (总 线 ) 向 上 渗透 ， 修 改 一 路 上 缓存 块 的 状态 。 有 些 请 求 要 
使 得 一 个 存储 块 送 回 到 总 线 上 ， 这 样 的 请 求 可 以 分 成 丙种， 一 种 是 “ 送 回 请 求 "， 它 也 使 得 
该 块 被 作废 ; 另 一 种 是 “ 反 拷贝 请 求 ”"， 不 要 求 作废 。 这 些 请 求 向 上 渗透 ， 直 到 遇 到 已 修改 
的 拷贝 ， 在 这 一 点 ， 为 其 外 部 界面 的 请 求 产 生 一 个 响应 。 对 于 简单 的 作废 ， 没 有 必要 让 总 线 
事务 停滞 直 到 所 有 的 拷贝 被 作废 。 最 底层 的 缓存 控制 器 (最 接近 总 线 的 ) 能 够 看 见 这 个 事务 
在 总 线 上 的 出 现 ， 对 请 求 者 来 说 ， 这 可 以 保证 作废 将 会 以 适当 的 次 序 完 成 。 一 旦 作废 请 求 出 
现在 总 线 上 ， 对 这 种 作废 的 响应 可 能 通过 它 自己 的 总 线 界面 被 送 到 请 求 处 理 器 ， 这 样 就 没有 
响应 在 目的 缓存 层次 中 产生 。 所 要 求 的 只 是 要 在 进来 的 作废 信号 和 其 他 通过 缓存 层次 的 事务 
之 闻 保 持 某 种 次 序 ， 我 们 将 在 介绍 事务 拆 分 型 总 线 时 进一步 讨论 ， 这 种 类 型 的 总 线 允 许多 个 
事务 在 同一 时 间 处 于 待 完成 状态 。 

有 趣 的 是 ， 在 多 层 缓存 的 情况 下 ， 双 标记 不 是 那么 关键 。L, 高 速 缓存 的 作用 相当 于 是 
L, 高速 缓存 的 一 个 过 滤器 ， 筛 取 从 总 线 来 的 不 相关 的 过 程 ， 从 而 高 速 缓存 的 标记 几乎 全 
被 处 理 器 可 用 。 类 似 地 ， 由 于 L 高 速 缓存 可 以 看 作 是 L 高 速 缓存 和 处 理 器 之 间 的 一 个 过 滤 
器 (期 望 能 满足 大 多 数 处 理 器 的 请 求 )，L, 标记 几乎 全 部 为 总 线 侦 听 器 的 查询 所 用 (图 6-7)。 
尽管 如 此 ， 许 多 机 器 在 多 层 缓存 设计 中 依然 保持 双 标记 。 


主要 由 处 理 器 


使 用 的 标记 
标记 高 速 缓存 缓存 
-一 
dL ae 


高 速 组 一 
存 的 数据 | | 标记 


图 67 两 级 侦 听 式 高 速 缓存 的 组 织 。 对 
seam tine 每 个 缓存 来 说 只 需要 一 组 标记 





对 于 在 一 个 时 刻 总 线 上 只 能 有 一 个 事务 进行 的 设计 ， 只 要 包含 关系 得 以 保持 ， 主 要 的 正 
确 性 问题 并 不 由 于 多 层次 的 应 用 改变 多 少 。 必 要 的 事务 在 层次 的 上 下 传播 ， 总 线 事务 可 能 停 
滞 ， 直 到 必要 的 传播 发 生 。 当 然 ， 保 持 总 线 直 到 得 到 一 个 响应 所 导致 性 能 的 惩罚 是 更 加 重 
的 ， 因 此 我 们 试图 将 这 些 操 作 分 开 。 在 沿 着 这 条 路 线 进一步 下 去 之 前 ， 让 我 们 去 掉 第 二 个 简 
化 假设 ， 即 总 线 是 原子 性 的 假设 ， 考 察 更 大 胆 些 的 事务 拆 分 型 总 线 。 为 简单 起 见 ， 首 先 回 到 
单 级 缓存 的 情形 ， 然 后 再 考虑 多 级 缓存 的 层次 结构 。 
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6.4 事务 拆 分 型 总 线 


对 于 原子 型 总 线 来 说 ， 在 地 址 从 总 线 上 取 走 后 ， 直 到 存储 系统 或 者 另 一 个 缓存 提供 数据 
响应 之 前 ， 总 线 的 线路 是 闲置 的 ， 因 此 原子 型 总 线 大 大 限制 了 可 以 发 挥 出 来 的 总 线 带宽 。 在 
事务 拆 分 型 总 线 的 情形 ， 要求 得 到 响应 的 总 线 事务 被 分 成 两 个 独立 的 子 事务 一 一 一 个 请 求 事 
务 和 一 个 响应 事务 。 其 他 的 总 线 事务 (或 者 子 事务 ) 允许 在 这 两 个 子 事务 之 间 发 生 ， 这 样 在 
产生 对 一 个 请 求 的 响应 的 时 候 ， 总 线 就 可 能 被 其 他 活动 利用 。 在 总 线 和 缓存 控制 器 之 间 设 置 
缓冲 ， 使 得 总 线 上 有 多 个 活动 同时 存在 ， 等 待 来 自控 制 器 的 侦 听 和 /或 数据 响应 。 当 然 ， 这 
里 的 优点 是 可 以 通过 总 线 操作 的 流水 ， 能 更 有 效 地 利用 总 线 ， 从 而 有 更 多 的 处 理 器 能 共享 相 
同 的 总 线 。 缺 点 是 增加 了 复杂 性 。 

作为 请 求 -响应 关系 的 例子 ， 一 个 BusRd 事务 现在 就 是 需要 一 个 数据 响应 的 请 求 。 
BusUpgr 不 需要 数据 响应 ， 但 它 要 求 一 个 认可 信和 号 来 指出 它 已 经 被 确认 了 从 而 已 经 被 安排 在 
待 完成 的 序列 中 。 为 保证 这 个 认可 信号 不 作为 一 个 单独 的 事务 出 现在 总 线 上 ， 它 通常 是 在 得 
到 相对 于 BusUpgr 请 求 的 总 线 控制 权 后 被 直接 送 给 请 求 处 理 器 。BusRdX 需要 一 个 数据 响应 以 
及 一 个 提交 的 确认 ; 典型 地 ， 它 们 作为 数据 响应 的 部 分 出 现 。 最 后 ， 回 写 通常 没有 响应 。 

拆 分 型 总 线 所 带 来 的 主要 新 问题 有 : 

1) 在 侦 听 和 服务 一 个 前 面 的 请 求 完成 之 前 ， 一 个 新 的 请 求 可 能 出 现在 总 线 上 。 特 别 地 ， 
有 冲突 的 请 求 〈 两 个 要 求 同 一 存储 块 ， 至 少 一 个 是 写 操 作 ) 可 能 在 总 线 上 同时 处 于 待 完成 状 
态 ， 这 是 一 种 必须 非常 仔细 处 理 的 情形 。 注 意 这 是 不 同 于 先前 用 原子 型 总 线 的 活动 ， 但 宏观 
上 可 能 出 现 的 非 原子 性 情形 。 在 那里 ， 相 互 冲 突 的 请 求 ， 在 它 获得 总 线 之 前 ， 可 以 被 一 个 组 
存 控制 器 看 到 ， 于 是 就 可 能 在 放 上 总 线 之 前 做 适当 地 修改 。 而 这 里 ， 两 个 请 求 的 子 事务 都 已 
经 出 现在 总 线 上 了 。 例 6.2 给 出 了 其 中 的 差别 。 

2) 在 总 线 和 缓存 控制 器 之 间 ， 请 求 和 数据 响应 缓冲 区 的 大 小 通常 是 固定 的 ， 并 且 也 很 
小 ， 于 是 我 们 必须 面 对 缓 冲 器 充满 的 问题 ， 要 么 想 办 法 不 让 其 发 生 ， 要 么 有 一 个 方法 来 处 理 
它 的 发 生 。 由 于 它 影响 了 通过 系统 的 总 线 事务 流 ， 称 为 是 流 控 问题 。 

3) 由 于 来 自 总线 的 请 求 被 缓冲 了 ,我们 需要 重新 考虑 何 时 、 如 何在 总 线 上 产生 侦 听 响 
应 和 数据 响应 。 例 如 ， 它 们 的 顺序 是 否 按 请 求 出 现在 总 线 上 ， 侦 听 和 数据 是 不 是 同一 个 响应 
过 程 的 不 同 部 分 ? 

例 6.2 考虑 前 面 两 个 处 理 器 P ALP, 的 例子 ， 存 储 块 的 缓存 状态 是 共享 ， 并 且 同 时 决 
定 对 它 进行 写 操作 〈 例 6.1)。 说 明 拆 分 型 总 线 可 能 会 引 和 人 哪 些 在 原子 型 总 线 不 会 出 现 的 复 
杂 性 。 

解答 : 对 于 事务 拆 分 型 总 线 来 说 ，P 和 P, 可 能 产生 BusUpgr 请 求 ， 这 些 请 求 在 后 续 周 
期 中 得 到 总 线 。 例 如 ，P 可 能 在 缓存 中 查询 到 P 的 请 求 ， 并 且 在 测 得 会 发 生 冲 突 之 前 得 到 
总 线 。 如 果 它 们 两 者 都 假设 它们 已 经 获得 了 排他 的 所 有 权 ， 这 个 协议 就 出 问题 了 ， 因 为 此 时 
两 个 处 理 器 都 认为 它们 拥有 处 于 已 修改 状态 的 存储 块 。 在 原子 总 线 上 ， 这 种 事情 是 不 会 发 生 
的 ， 因 为 第 一 个 BusUpgr 事务 会 在 第 二 个 处 理 器 得 到 总 线 以 前 完成 (包括 侦 昕 、 响 应 等 阶 
段 )， 于 是 这 第 二 个 处 理 器 就 必须 将 它 的 请 求 从 BusUpgr 变 到 BusRdX。( 注 意 ， 即 使 在 例 6.1 
中 讨论 的 原子 总 线 出 问题 的 情况 下 ， 也 是 只 有 一 个 处 理 器 中 的 存储 块 处 于 已 修改 状态 ， 其 他 
处 理 器 中 存储 块 为 共享 状态 。) B 
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事务 拆 分 、 缓 存 一 致 性 总 线 的 设计 有 很 大 的 空间 ， 并 且 许 多 改进 正在 工业 界 进行 。 也 
许 ， 从 一 致 性 协议 的 角度 看 ， 最 关键 的 问题 是 如 何 建立 一 个 序 以 及 报告 侦 听 结果 的 时 机 。 它 
们 是 请 求 阶段 的 一 部 分 还 是 响应 阶段 的 一 部 分 ? 所 采取 的 立场 事实 上 会 影响 到 对 冲突 操作 的 
处 理 方 式 ， 即 ， 前 面 描述 的 第 一 个 主要 问题 。 关 于 流 控 的 决定 〈 以 及 冲突 操作 ) 是 受 同 时 在 
总 线 上 人 允许 的 未 完成 请 求 数 影响 的 。 通 常 ， 较 大 的 未 完成 请 求 数 使 总 线 的 利用 率 较 高 ， 但 要 
求 更 多 的 缓冲 和 设计 复杂 性 。 剩 下 的 高 层 设计 决策 是 数据 响应 是 否 需要 以 和 请 求 发 出 相同 的 
顺序 返回 。 Intel Pentium Pro 和 DEC Turbo Laser 总 线 是 “ 保 序 ” 的 例子 ， 而 SGI Challenge 和 Sun 
Enterprise 总 线 允 许 变 序 的 响应 。 后 者 对 于 存储 访问 时 间 差 异 的 容忍 更 强 (由 于 存储 模块 的 
冲突 或 者 页 外 的 DRAM 访问 ， 存 储 器 可 能 会 先 满足 后 提交 的 请 求 )， 但 更 加 复杂 。 让 我 们 先 
完整 地 考察 一 个 具体 的 例子 ， 看 这 些 问 题 是 如 何 解决 的 ， 然 后 讨论 可 能 的 其 他 方案 。 


6.4.1 事务 拆 分 型 总 线 设计 的 一 个 例子 


这 个 例子 主要 基于 SGI Challenge 的 总 线 体系 结构 ， 即 Powerpath-2。 它 在 三 个 设计 和 间 题 上 
采取 如 下 做 法 。 对 有 冲突 的 请 求 的 处 理 非常 简单 或 者 说 保守 : 这 种 设计 不 允许 对 一 个 存储 块 
同时 有 多 个 请 求 在 总 线 上 处 于 待 完成 状态 。 事 实 上 ， 它 只 允许 在 总 线 土 最 多 同时 有 8 个 待 完 
成 请 求 ， 这 样 就 使 得 必要 的 冲突 检测 可 行 。 在 总 线 和 缓存 控制 器 之 间 提 供 少 量 缓冲 ， 对 于 组 
冲 的 流量 控制 通过 总 线 上 的 否认 回答 ， 即 NACK 线 来 实现 。 即 ， 如 果 在 看 到 一 个 请 求 或 者 响 
应 事务 时 缓冲 区 是 满 的 ( 它 一 旦 出 现在 总 线 上 就 能 被 检测 出 来 )， 这 个 事务 就 要 被 拒绝 ， 给 
出 NACK 信号 ; 这 就 显示 该 事务 无 效 ， 要 发 起 者 重新 再 试 。 最 后 ， 人 允许 响应 的 次 序 和 最 初 请 
求 出 现在 总 线 上 的 次 序 不 同 。 在 这 种 设计 中 ， 一 致 性 过 程 中 全 (总 线 ) 序 的 建立 发 生 在 请 求 
阶段 ; 然而 ， 从 缓存 控制 器 来 的 侦 听 结果 作为 响应 阶段 的 一 部 分 和 数据 一 起 〈 如 果 有 的 话 ) 
出 现在 总 线 上 。 

现在 进一步 考察 这 个 总 线 体 系 结构 设计 的 例子 。 首 先 考虑 高 层 总 线 设计 以 及 响应 如 何 同 
请 求 匹配 起 来 ， 然 后 深入 看 看 流 控 和 侦 听 结果 的 问题 。 最 后 ， 考 察 一 个 请 求 通过 系统 的 通 
路 ,包括 如 何 避 免 相 互 竞争 的 请 求 在 总 线 上 同时 呈现 待 完成 状态 的 。 


6.4.2 总 线 设 计 和 请 求 -~ 胞 应 的 匹配 


事务 拆 分 型 总 线 的 设计 在 本 质 上 是 用 两 条 分 离 的 总 线 ， 一 条 是 请 求 总 线 用 于 命令 和 地 
址 ,一 条 是 用 于 数据 的 响应 总 线 。 请 求 总 线 提供 请 求 的 类 型 (例如 ，BusRd、BusWB) 和 日 
的 地 址 。 由 于 响应 可 以 以 和 请 求 不 同 的 次 序 到 达 ， 应 该 有 一 个 方式 来 让 返回 的 响应 和 它们 的 
待 完 成 的 请 求 匹配 。 当 仲裁 器 将 总 线 控制 权 给 予 一 个 请 求 〈 命 令 -地 址 对 ) 时 ， 这 个 请 求 还 
得 到 一 个 惟一 的 标记 (由 于 这 个 设计 允许 8 个 待 完成 请 求 ， 这 个 标记 为 3 位 )。 响 应 包含 数 
据 总 线 上 的 数据 和 3 位 宽 的 标记 总 线 上 的 原始 请 求 标记 。 标 记 的 使 用 意味 着 响应 不 需要 用 地 
址 总 线 ， 这 就 使 得 它们 可 为 其 他 请 求 所 用 。 因 此 地 址 和 数据 总 线 就 能 分 别 仲裁 。 仲 裁 以 及 流 
控 和 侦 听 结果 也 都 有 分 别 的 总 线 线路 。 

在 这 个 设计 中 ,缓存 块 是 128 字 节 (1 024 位 )， 数据 总 线 是 256 位 宽 ， 于 是 4 个 总 线 周 
期 和 一 个 1 周期 的 往返 时 间 要 用 在 响应 阶段 。 下 面 会 讨论 一 种 统一 的 流水 策略 ， 因 此 请 求 阶 
段 也 是 5 个 总 线 周期 : 仲裁 、 冲 突 解 决 、 地 址 、 译 码 和 确认 。 总 的 来 说 ， 一 个 完整 的 请 求 - 
响应 过 程 要 用 到 这 其 中 至 少 3 个 周期 的 活动 一 一 至 少 是 地 址 请 求 阶段 (用 到 地 址 总 线 )， 数 





BOP ATARGI ZAR B69 Kit 29] 





据 请 求 阶段 〈 用 到 数据 总 线 仲裁 逻辑 ， 为 响应 子 事务 获得 数据 总 线 的 访问 ) ， 以 及 一 个 数据 
传送 或 响应 (用 到 数据 总 线 )。 三 种 不 同 的 存储 器 操作 可 能 同时 出 现在 三 个 不 同 的 周期 中 。 
这 种 基本 流水 策略 是 若干 高 层 设计 决策 的 基础 。 

为 理解 这 种 策略 ， 让 我 们 考虑 一 个 读 操作 的 全 过 程 ， 如 图 6-8 所 示 。 我 们 从 地 址 请 求 阶 
段 开始 。 在 请 求 仲裁 周期 ， 缓 存 控制 器 向 总 线 提交 请 求 。 在 请 求解 决 周 期 ， 要 考虑 所 有 请 
求 ， 但 只 有 一 个 会 被 受理 ， 并 分 配 一 个 标记 。 胜 者 在 下 面 的 地 址 周期 驱动 地 址 线 ， 然 后 所 有 
控制 器 用 一 个 周期 来 对 它 译 码 并 察看 缓存 标记 ， 查 看 是 不 是 有 侦 听 命中 〈 侦 听 结 果 将 在 后 面 
提交 到 总 线 上 )。 这 时 ， 缓 存 控制 器 可 以 做 相应 的 动作 ， 使 这 些 操 作对 处 理 器 可 见 。 对 于 
BusRd， 一 个 独 享 的 存储 块 降级 到 共享 ; 对 于 BusRdX 或 BusUpgr， 存 储 块 就 要 被 作废 。 在 所 
有 情况 下 ， 如 果 一 个 缓存 拥有 的 存储 块 处 于 脏 状态 ， 就 需要 它 在 响应 阶段 将 那个 块 送 上 总 
线 。 如 果菜 个 缓存 控制 器 在 地 址 阶段 不 能 完成 侦 听 ， 并 且 采 取 必 要 的 行动 (比如 ， 如 果 它 没 
能 得 到 缓存 标记 的 访问 )， 它 可 以 在 确认 周期 冻结 这 一 阶段 的 继续 ， 直 到 完成 它 的 侦 听 。( 在 
确认 周期 ， 前 一 次 存储 操作 的 第 一 次 数据 传送 周期 可 以 进行 ， 占 用 数据 总 线 的 4 个 局 期 ; 见 
图 6-8). 
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图 6-8 事务 拆 分 型 总 线 的 完整 的 读 事务 。 一 对 相继 的 读 操 作 在 相继 的 阶段 完成 ， 由 阴影 框 区 分 。 每 一 个 
阶段 由 五 个 特定 的 周期 组 成 : 仲裁 、 冲 突 解决 、 地 址 、 译 码 、 确 认 。 事 务 被 分 为 三 个 阶段 ; 地 址 
请 求 〈 用 到 地 址 总 线 )， 数 据 请 求 〈 用 到 数据 总 线 仲裁 和 相应 逻辑 ) ， 数 据 响应 〈 用 到 数据 总 线 ) 

在 整个 总 线 事务 的 地 址 周期 之 后 ， 我 们 就 知道 了 是 该 存储 器 还 是 该 缓存 提出 数据 响应 。 
响应 者 可 能 在 下 5 个 周期 阶段 的 仲裁 周期 请 求 数据 总 线 。 (注意 在 这 个 周期 请 求 者 也 在 地 址 
总 线 上 发 出 一 个 新 的 请 求 。) 数据 总 线 仲裁 在 下 一 个 周期 解决 ， 并 且 在 这 个 地 址 周期 可 以 检 
查 标记 。 如 果 目 标准 备 好 了 ， 数 据 传送 就 从 确认 周期 开始 ， 并 在 下 3 个 周期 继续 〈 即 进入 数 
据 传 送 或 响应 阶段 )。 在 一 个 来 回 后 ， 就 可 以 开始 下 一 次 数据 传送 〈 其 仲裁 并 行进 行 )。 缓 存 
块 的 共享 状态 ( 侦 昕 结果 〉 被 带 到 响应 阶段 ， 当 数据 在 缓存 中 被 更 新 后 ， 设 置 状态 位 。 

如 前 面 所 讨论 的 ， 回 写 (BusWB) 只 有 请 求 阶段 。 它 们 要 一 起 用 到 地 址 和 数据 线 ， 这 样 
就 必须 仲裁 对 这 两 种 资源 的 同时 使 用 。 最 后 ， 更 新 (BusUpgr) 用 来 获取 对 一 个 块 的 排他 所 
有 权 ， 由 于 不 需要 在 总 线 上 有 数据 响应 ， 也 只 有 一 个 请 求 部 分 。 对 于 通过 一 个 写 操作 产生 了 
BusUpgr 的 处 理 恬 ， 在 这 个 BusUpgr 出 现在 总 线 后 ， 将 得 到 一 个 由 它 自己 的 总 线 控制 器 发 出 
的 响应 ， 指 出 这 个 写 操作 已 被 受理 并 且 已 安排 在 总 线 操作 的 序列 中 。 

为 了 跟踪 总 线 上 8 个 已 受理 的 请 求 ， 每 个 缓存 控制 器 维护 一 个 有 8 个 条 目的 表 ， 称 为 请 
求 表 〈 见 图 6.9)。 只 要 一 个 新 的 请 求 发 到 总 线 上 ， 它 就 以 同样 的 索引 被 加 到 所 有 的 请 求 表 
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中 ， 作 为 仲裁 过 程 的 一 部 分 。 索 引 是 在 仲裁 期 间 分 给 那个 请 求 的 3 位 标记 。 (请 求 也 被 单独 
缓冲 在 缓存 层次 中 ) 请 求 表 项 包含 和 请 求 相 联 的 存储 块 的 地 址 、 请 求 类 型 、 存 储 块 在 本 地 组 
存 中 的 状态 〈 如 果 它 已 经 被 确定 了 的 话 ) ， 以 及 其 他 几 位 。 由 于 请 求 表 是 全 相 联 的 ， 因 此 要 
考察 所 有 请 求 表 项 和 请 求 的 匹配 ， 包 括 本 地 处 理 器 发 出 的 请 求 和 在 总 线 上 看 到 的 其 他 请 求 
(用 地 址 域 》 和 啊 应 (用 标记 )。 当 对 于 某 个 请 求 的 响应 出 现在 总 线 上 时 ， 相 应 的 请 求 表 项 就 
被 释放 。 只 是 在 此 时 ， 和 请 求 相 联 的 3 位 标记 值 才 由 总 线 仲裁 器 重新 分 配 ， 因 此 在 请 求 表 里 
没有 冲突 。 


, 来 自 $ 的 
请 求 和 响应 
队列 侦 听 状态 到 /来 自 $ 的 数据 
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图 6-9 图 6-4 所 示 的 总 线 接口 逻辑 的 扩充 ， 以 完成 事务 拆 分 型 总 线 的 功能 。 关 键 的 增加 
是 一 个 有 8 个 条 目的 请 求 表 ， 跟 踪 所 有 在 总 线 上 待 完成 的 请 求 。 当 一 个 新 请 求 
发 到 总 线 上 ， 它 就 被 加 到 所 有 处 理 器 请 求 表 中 的 相同 的 索引 处 。 请 求 表 服 务 于 
多 个 目的 ， 包 括 请 求 归并 和 保证 对 任何 给 定 的 存储 块 来 说 只 能 有 一 个 请 求 待 完成 





6.4.3 侦 听 结果 和 冲突 的 请 求 


如 同 SGI Challenge， 这 个 设计 例子 用 的 是 可 变 延 迟 侦 听 法 。 前 边 讨 论 过 ， 总 线 的 侦 听 部 
分 由 三 根 线 或 线 构成 : 共享 、 脏 和 禁止 〈 它 延长 当前 响应 阶段 的 期 间 )。 当 在 地 址 请 求 阶段 
末尾 确定 出 哪个 模块 应 该 给 出 数据 响应 ， 在 数据 准备 好 和 响应 者 获得 总 线 访问 之 前 可 能 还 有 
许多 周期 。 在 这 个 期 间 ， 侦 听 响 应 保持 在 请 求 表 中 ， 其 他 的 请 求 和 响应 有 可 能 发 生 。 为 了 简 
化 请 求 和 侦 听 结果 的 匹配 ， 在 这 个 设计 中 ， 当 所 有 的 控制 器 看 到 对 一 个 请 求实 际 的 响应 被 放 
到 总 线 上 时 ， 即 在 响应 阶段 ， 它 们 就 将 侦 听 结果 呈现 到 总 线 上 。 回 写 和 升级 请 求 没有 数据 响 
应 ， 它 们 也 不 要 求 侦 听 响应 。 

避免 请 求 冲突 是 容易 的 : 由 于 每 个 控制 器 都 在 它 的 请 求 表 中 有 一 个 记录 ， 表 示 那 些 发 送 
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到 总 线 上 但 未 完成 的 事务 ， 它 就 不 会 发 出 对 某 个 还 有 待 完 成 事务 存储 块 的 请 求 。 这 样 ， 即 使 
总 线 是 流水 操作 ， 对 各 个 存储 单元 的 操作 也 是 串 行 化 的 ， 同 原子 情形 一 样 。 写 操作 的 确认 在 
请 求 阶段 期 间 ， 它 影响 着 串 行 化 。 


6.4.4 流 控制 


除了 对 来 源 于 总 线 的 入 向 请 求 外 ， 在 系统 的 其 他 部 分 也 可 能 需要 流 控 。 除 了 前 面 讨论 过 
的 回 写 缓冲 区 外 ， 缓 存 子 系统 有 一 个 缓冲 区 ， 其 中 可 以 存放 对 它 请 求 的 响应 。 如 果 处 理 器 或 
者 缓存 每 次 只 允许 一 个 待 完成 请 求 ， 如 我 们 隐 含 假设 的 那样 ， 这 个 响应 缓冲 区 的 深度 只 有 一 
项 。 由 于 响应 缓冲 区 项 不 仅 含有 一 个 地 址 ， 还 包含 一 个 缓存 块 数据 ， 因 此 容量 就 比较 大 ， 于 
古 缓 冲 区 项 数 通常 都 是 很 少 的 。 缓 存 控 制 器 通过 限制 它 所 有 的 待 完 成 请 求 数 来 进行 流 控 ， 使 
得 对 每 个 响应 都 有 缓冲 空间 。 

主 存 也 是 需要 流 控 的 。 除 请 求 本 身 外 ，8 个 中 的 每 个 挂 起 请 求 会 产生 一 个 主 存 必须 接受 
的 回 写 。 由 于 回 写 事务 不 需要 响应 ， 它 们 可 能 在 总 线 上 迅速 连续 发 生 ， 可 能 使 主 存 子 系统 的 
缓冲 区 溢出 。 

由 于 总 线 允 许 对 于 不 同 部 分 进行 独立 仲裁 ，SGI Challenge 为 总 线 的 地 址 和 数据 提供 分 别 
的 NACK 线 。 在 一 个 请 求 或 者 一 个 响应 子 事务 到 达 它 的 确认 周期 和 完成 之 前 ， 主 存 或 任何 其 
他 处 理 器 能 给 出 一 个 NACK 信号 ， 例 如， 如 果 它 发 现 其 缓冲 区 满 。 然 后 这 个 子 事务 在 每 个 地 
方 被 取消 ， 而 且 必 须 重新 开始 。 在 Challenge 中 ， 一 种 常用 的 选择 方案 是 让 那个 子 事务 的 请 
求 者 做 周期 性 的 尝试 ， 直 到 成 功 。 回 退 和 优先 级 技术 能 用 来 减少 失败 的 重 试 对 带宽 的 消耗 ， 
避免 “ 挨 俄 ”进程 。 对 于 遇 到 缓冲 区 满 的 数据 传送 ，Sun Enterprise 用 另 一 种 有 趣 的 方案 。 在 
这 种 情形 下 ， 接 受 者 〈 它 不 能 在 第 一 次 尝试 时 接纳 数据 ) 当 有 足够 缓冲 时 启动 重 试 过 程 。 最 
初 的 提供 者 只 是 简单 地 看 着 总 线 上 重 试 事务 ， 把 数据 放 到 总 线 上 。Enterprise 总 线 的 操作 保 
证 了 当 数 据 到 达 时 ， 在 目的 缓冲 区 的 空间 是 可 用 的 。 这 就 保证 了 数据 传送 的 成 功 ， 只 需 一 次 
重 试 总 线 事务 。 


6.4.5 一 次 缓存 扑 空 的 路 线 


给 定 这 个 例子 设计 ， 我 们 可 以 来 考察 如 何 处 理 各 种 请 求 ， 以 及 会 出 现 什 么 竞争 条 件 。 首 
先 看 看 这 种 情况 ， 一 个 处 理 器 在 缓存 中 有 一 个 读 扑 空 ， 于 是 应 该 产生 一 个 BusRd 事务 的 请 求 
部 分 。 这 个 请 求 首先 检查 当前 在 请 求 表 中 挂 起 的 项 。 如 果 发 现 一 个 地 址 匹配 ， 取 决 于 挂 起 请 
求 的 性 质 ， 它 可 能 做 两 种 不 同 的 动作 。 

1) 如 果 当 前 的 请 求 是 针对 相同 块 的， 这 对 处 理 器 来 说 是 一 个 好 消息 : 这 个 请 求 不 需要 
送 上 总 线 ， 而 可 以 在 对 先前 请 求 的 响应 出 现在 总 线 上 时 直接 获得 数据 。 为 做 到 这 一 点 ， 我 们 
在 请 求 表 中 的 每 一 项 加 上 两 位 ， 这 表示 : 我 希望 获得 这 个 请 求 的 数据 响应 吗 ? 我 是 这 个 请 求 
的 最 初 产生 者 吗 ? 在 我 们 的 情形 中 ， 这 些 位 被 分 别 置 1 和 0。 第 一 位 的 目的 是 明显 的 ; 第 二 
位 的 目的 是 要 帮助 确定 在 哪个 状态 下 〈 独 享 还 是 共享 ) 这 个 数据 响应 被 装 入 。 如 果 一 个 处 理 
器 不 是 最 初 的 请 求 者 ， 那 么 它 必须 在 它 从 总 线 获得 相应 数据 时 ， 在 侦 听 总 线 上 声明 共享 线 ; 
从 而 所 有 缓存 都 将 这 一 存储 块 以 共享 态 装 入 ， 而 不 是 独 享 。 如 果 某 个 处 理 器 是 最 初 的 请 求 
者 ， 它 从 总 线 得 到 响应 后 不 会 给 出 共享 信号 ; 如 果 共 享 信号 根本 没有 出 现 ， 那 它 就 以 独 享 态 
装 人 该 存储 块 。 
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2) 如 果 前 面 的 请 求 和 BusRd 冲突 (例如 BusRdqX)， 控 制 器 就 必须 保持 请 求 ， 直 到 它 看 
到 在 总 线 上 有 一 个 对 先前 请 求 的 响应 ， 而 且 在 那 之 后 才 尝 试 这 个 请 求 。 处 理 器 方 的 控制 器 通 
常 对 此 人 负责 。 

如 果 控 制 器 在 请 求 表 中 找 不 到 匹配 项 ， 它 就 可 以 直接 向 总 线 发 请 求 。 不 过 ， 它 必须 关注 
前 面 提 过 的 那 种 竞争 条 件 。 当 控制 器 首先 检查 请 求 表 时 ， 它 可 能 找 不 到 冲突 请 求 ， 因 此 它 可 
能 请 求 总 线 仲裁 。 然 而 ， 在 它 被 赋予 总 线 控制 权 之 前 ， 一 个 冲突 请 求 可 能 出 现在 总 线 上 ， 然 
后 它 可 能 被 赋予 紧 接着 的 下 一 次 总 线 使 用 权 。 由 于 这 个 设计 不 允许 总 线 上 有 冲突 请 求 ， 当 控 
制 器 看 到 在 它 前 面 的 时 隙 中正 好 有 一 个 冲突 请 求 的 时 候 ， 它 应 该 1) 向 总 线 发 出 一 个 空 请 求 
(没有 动作 的 请 求 )， 以 占据 它 已 被 赋予 的 时 隙 ; 2) 从 后 面 的 仲裁 中 退出 ， 直 到 对 这 个 冲突 
请 求 的 响应 产生 。 

假设 处 理 器 来 管理 在 总 线 上 发 出 BusRd 请 求 ， 其 他 缓存 控制 器 和 主 存 控 制 器 应 该 干 什 
Al 请 求 一 旦 出 现在 总 线 上 ， 就 进 人 所 有 缓存 控制 器 的 请 求 表 ， 包 括 发 出 请 求 的 那 一 个 。 控 
制 器 开始 检查 它 的 缓存 ， 看 有 没有 被 请 求 的 存储 块 。 主 存 子 系统 根本 不 知道 这 个 块 是 否 在 某 
个 处 理 器 缓存 中 是 脏 的 ， 因 此 独立 地 开始 取出 这 一 存储 块 。 现 在 要 考虑 三 种 不 同 的 情况 。 

1) 某 个 缓存 可 能 发 现 它 的 相应 存储 块 处 于 修改 状态 ， 于 是 可 能 在 主 存 响 应 之 前 得 到 总 
线 ， 从 而 产生 一 个 响应 。 在 总 线 上 一 看 到 这 个 响应 ， 主 存 就 放弃 它 所 启动 的 到 数据 动作 ， 等 
待 着 这 一 存储 块 的 缓存 控制 器 将 数据 装载 进来 ， 其 状态 取决 于 侦 昕 线 上 的 值 。 如 果 一 个 缓存 
控制 器 在 响应 出 现在 总 线 上 之 前 没有 完成 侦 听 ， 它 就 会 保持 禁止 线 的 作用 状态 ， 响 应 周期 就 
被 延长 〈 即 将 呆 在 总 线 上 )。 由 于 这 个 块 在 缓存 中 是 脏 的 ， 主 存 也 接收 这 个 响应 。 如 果 主 存 
没有 所 需 的 缓冲 空间 ， 它 就 给 出 用 于 流 榨 的 NACK 信号， 控制 器 有 责任 保持 存储 块 的 脏 态 并 
在 以 后 重 试 这 个 响应 事务 。 

2) 在 持 有 脏 块 的 缓存 控制 器 完成 它 的 侦 听 和 /或 获取 总 线 之 前 ， 主 存 可 能 要 取 数 据 并 获 
得 总 线 。 持 有 及 块 的 控制 器 将 首先 置 禁 止 线 ， 直 到 它 完成 它 的 侦 听 ; 然后 置 脏 线 并 且 释 放 禁 
止 线 ， 这 就 告诉 存储 器 ， 它 有 最 新 的 拷贝 ， 而 且 存 储 器 不 应 该 将 数据 放 到 总 线 上 。 观 察 到 这 
脏 线 后 ， 存 储 器 取消 它 的 响应 事务 ， 从 而 不 将 数据 放 到 总 线 上 。 带 有 脏 块 的 缓存 稍 后 将 获得 
总 线 并 将 数据 响应 放 到 总 线 上 。 

3) 最 简单 的 情形 是 ， 没 有 缓存 有 脏 块 。 主 存 将 获得 总 线 并 产生 这 个 响应 。 没 有 完成 它 
们 侦 听 的 缓存 控制 器 在 看 到 来 自 存储 器 的 响应 后 将 给 出 禁止 信 叶 ， 但 一 旦 它们 取消 ， 存 储 器 
就 可 以 提供 数据 。( 在 这 个 系统 中 ， 缓 存 到 缓存 之 间 的 共享 技术 没有 用 于 共享 态 的 数据 ) 

处 理 器 写 操作 的 处 理 类 似 于 读 。 如 果 进 行 写 操 作 的 处 理 器 在 它 自己 的 缓存 中 没有 发 现 处 
于 有 效 状 态 的 数据 ， 就 会 产生 BusRdX。 和 前 面 一 样 ， 它 检查 请 求 表 ， 然 后 到 总 线 上 。 除 了 
主 存 不 会 接受 来 自 另 一 个 缓存 的 数据 响应 (由 于 它 将 被 写 者 再 次 修改 ) 以 及 没有 其 他 处 理 器 
能 抓 住 这 个 数据 外 ， 各 个 方面 都 和 总 线 读 相同 。 如 果 被 写 的 存储 块 是 有 效 的 但 处 于 共享 状 
态 ，BusUpgr 就 会 被 发 出 。 这 不 要 求 有 响应 事务 (当前 有 效 的 存储 块 在 主 存 ， 也 在 写 者 的 组 
存 ); 然而 ， 如 果 任何 其 他 处 理 器 正 准 备 对 同一 存储 块 发 BusRdX， 它 现在 就 要 将 请 求 转换 为 
BusRdX， 这 和 原子 总 线 是 一 样 的 。 


6.4.6 串 行 化 和 顺序 同一 性 
考虑 对 单个 存储 单元 操作 的 串 行 化 问题 。 如 果 出 现在 总 线 上 的 一 个 请 求 子 事务 是 读 ， 在 
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这 个 读 后 面 出 现在 总 线 上 的 写 应 该 不 能 改变 由 这 个 读 返 回 的 值 。 尽 管 在 总 线 上 有 多 个 待 完成 
的 事务 ， 由 于 对 相同 单元 的 冲突 请 求 不 允许 同时 出 现在 总 线 上 ， 做 到 这 一 点 也 是 不 难 的 ; 因 
此 读 响 应 子 事务 将 优先 于 这 个 写 请 求 ， 它 将 在 写 操作 能 影响 缓存 的 值 之 前 完成 。 如 果 出 现在 
总 线 上 的 事务 是 由 一 个 写 操 作 产 生 的 BusRdX 或 者 BusUpgr， 请 求 缓存 将 对 缓存 阵列 完成 这 个 
写 ， 在 响应 阶段 后 和 发 出 任何 其 他 存储 操作 之 前 发 生 ; 从 任何 其 他 处 理 器 来 的 对 该 存储 块 其 
ja (RY) 的 读 只 允许 在 该 写 的 响应 阶段 之 后 的 总 线 上 发 生 ， 因 此 它们 保证 得 到 的 是 新 数 
fio (回顾 前 面 讨论 过 的 ， 写 操作 的 响应 阶段 可 能 是 总 线 上 的 一 个 单独 的 操作 ， 如 同 
BusRdX， 或 者 是 在 请 求 赢得 仲裁 后 隐 式 产生 的 ， 如 同 BusUpgr. ) 

现在 考虑 对 不 同 单元 操作 的 串 行 化 所 涉及 的 顺序 同一 性 问题 。 总 线 过 程 逻 辑 全 序 的 建立 
是 通过 对 地 址 总 线 请 求 所 赋予 的 序 来 确立 的 。 一 旦 BusRdX 或 BusUpgr 得 到 了 总 线 ， 相 联 的 
写 就 被 认可 了 。 然 而 ， 对 于 总 线 上 有 多 个 待 完成 请 求 的 情况 ， 作 废 也 被 缓冲 起 来 ， 可 能 在 它 
们 被 实际 应 用 到 缓存 上 之 前 还 有 一 段 时 间 (不 同 于 原子 总 线 ， 那 里 作废 是 立即 发 生 ) 写 操作 
的 认可 不 担保 由 这 个 写 所 产生 的 值 已 为 所 有 其 他 处 理 器 可 见 ; 只 有 实际 的 完成 才能 保证 。 
《针对 一 个 处 理 器 的 动作 对 该 处 理 器 有 保证 ) 需要 有 进一步 的 机 制 来 保证 所 需 的 序 在 总 线 和 
处 理 融 之 间 能 够 维持 。 例 6.3 将 这 一 点 具体 化 了 。 

例 6.3 考虑 如 下 所 示 的 两 个 代码 段 。 在 SC BORE, (a, B) 的 什么 结果 是 不 允许 的 ? 
假设 每 个 处 理 器 只 有 一 级 缓存 ， 总 线 上 有 多 个 待 完成 事务 ， 没 有 特别 的 机 制 来 保持 总 线 和 组 
存 或 者 处 理 器 之 间 的 次 序 ， 表 明 如 何 能 得 到 不 允许 的 结果 。 假 定 一 种 基于 作废 的 协议 ， 在 两 
个 缓存 中 A 和 B 的 初 值 都 是 0。 


py p> P, P2 
= 1 rà B A=1 B=1 
B = 1 rd A rd B rd A 


解答 : 在 左边 的 第 一 个 例子 中 ，SC 条 件 下 不 允许 的 结果 是 (A，B ) = (0, 1) RT, 
考虑 下 面 的 情形 。P, 对 A 的 写 认可 ， 于 是 它 继续 写 B (在 修订 后 的 SC 充分 条 件 之 下 )。 在 和 
之 前 ，B 的 作废 应 用 到 P, 的 缓存 ， 这 是 由 于 它们 在 缓冲 区 中 重新 定 序 。P 在 B 上 引起 一 个 
读 扑 空 ， 得 到 新 的 值 1。 然 而 ，& 的 作废 仍然 是 在 缓冲 区 中 ， 即 使 在 P 发 出 读 A 之 前 也 应 用 
不 到 P, 的 缓存 。 读 A 是 一 个 命中 ， 它 的 完成 使 A 从 缓存 中 得 到 旧 值 0。 

右边 的 例子 对 于 破坏 SC 并 不 需要 作废 的 重新 排序 。 不 允许 的 结果 是 (0，0)。 然 而 ， 考 
谍 下 面 的 情形 。P, 发 出 并 认可 它 对 A 的 写 ， 然 后 完成 对 B 的 读 ， 读 进 旧 值 0。P, 然后 写 B 
并 认可 ， 因 此 P, 继续 读 A 。 对 8 的 写 出 现在 总 线 上 (认可 ) 是 在 A 的 写 之 后 ， 因 此 它们 应 该 
以 这 种 次 序 捉 行 化 ，P, 应 该 读 到 A 的 新 值 。 然 而 ， 对 应 于 P 写 A 的 作废 仍 在 P, 的 输入 缓冲 
区 ， 还 没有 被 应 用 到 P, 的 缓存 中 。P, 看 到 A 上 的 一 个 读 命中 ， 并 完成 返回 A 的 旧 值 0。 国 

如 有 果 我 们 用 认可 代替 完成 ， 并 且 人 允许 在 总 线 和 处 理 器 之 间 有 多 个 待 完 成 操作 缓冲 起 来 ， 
此 时 为 保持 顺序 同一 性 必须 的 关键 性 质 是 : 不 应 该 允许 一 个 处 理 器 在 先前 的 写 (总 线 序 ) 为 
它 所 见 之 前 ， 实 际 看 到 的 是 由 于 当前 写 所 产生 的 新 值 。 有 两 种 保持 这 种 性 质 的 方式 : 不 让 某 
些 从 总线 到 缓存 的 输入 过 程 在 输入 队列 中 重 定 序 ; 允许 重 定 序 ， 但 其 后 要 保证 重要 的 序 在 机 
器 中 的 必要 点 得 到 维持 。 王 面 简单 考察 这 两 种 做 法 。 

一 种 遵循 第 一 种 策略 简单 的 方法 是 保证 所 有 从 总 线 来 的 事务 (作废 、 读 扑 空 答复 、 写 提 
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交 确 认 等 ) 以 FIFO 序 传播 到 处 理 器 。 然 而 ， 这 样 一 种 严格 的 定 序 是 不 必要 的 。 针 对 一 种 基 
于 作废 的 协议 ， 考 虑 维持 刚才 描述 过 的 所 期 望 的 性 质 。 这 里 ， 有 两 种 方式 让 新 的 值 读 到 缓存 
中 ， 并 且 使 它 为 处 理 器 可 读 而 不 引起 另外 的 总 线 操作 。 一 种 是 通过 一 个 读 扑 空 ， 另 一 个 是 通 
过 那个 处 理 器 的 一 个 写 。 另 一 方面 ， 一 个 处 理 器 可 以 通过 其 他 处 理 器 的 作废 操作 ， 来 看 见 那 
些 处 理 器 的 写 (即使 这 个 值 在 本 地 还 不 可 用 )。 为 了 使 写 操作 定义 成 前 面 那样 提供 新 值 的 操 
作 ， 它 们 必须 在 操作 前 出 现在 总 线 上 (在 写 命中 的 情形 ， 则 是 一 个 先前 发 自 那 个 处 理 器 的 总 
线 事务 )。 因 此 ， 在 相关 事务 出 现在 总 线 上 的 时 候 ， 也 就 是 当 它 的 响应 回来 时 ， 这 些 写 所 产 
生 的 作废 就 已 经 在 输入 队列 中 了 ， 或 考 兑现 到 缓存 中 了 。 因 此 ， 我 们 需要 保证 的 是 一 个 答复 
《 读 扑 空 或 者 写 提交 确认 ) 在 总 线 和 缓存 之 间 不 越过 一 个 作废 ， 即 所 有 先前 的 作废 都 兑现 ， 
先 于 缓存 接收 到 这 个 答复 。 

注意 ， 进 人 队列 中 的 作废 可 能 会 被 重新 定 序 。 这 是 因为 对 应 于 一 个 作废 的 新 值 只 有 通过 
相应 的 读 扑 空 时 才 被 看 见 ， 而 对 读 扑 空 的 答复 不 允许 相对 先前 的 作废 重新 定 序 。 另 一 方面 ， 
在 一 种 基于 更 新 的 协议 下 ， 一 旦 进来 的 更 新 被 兑现 ， 就 能 够 看 见 相 应 写 的 新 值 。 这 意味 着 ， 
不 仅 答复 不 应 该 超越 更 新 ， 更 新 之 间 也 不 应 该 相互 超越 。 

一 个 备 选 方案 是 允许 从 总 线 来 的 入 向 事务 在 它们 到 达 缓 存 的 路 上 随机 重新 定 序 ， 但 要 保 
证 的 是 : 如 果 一 个 来 自 本 地 处 理 器 的 操作 使 它 能 看 见 一 个 新 值 ， 则 在 这 个 操作 被 完成 之 前 ， 
所 有 事先 认可 的 写 被 兑现 到 缓存 中 (通过 从 入 向 队列 提供 服务 )。 毕 竞 ， 重 要 的 不 是 作废 或 
者 更 新 被 兑现 的 次 序 ， 而 是 相应 的 新 值 能 被 处 理 器 看 到 的 顺序 。 有 两 种 自然 的 方法 能 达到 这 
一 点 。 其 一 是 每 当 处 理 器 试图 完成 一 个 向 缓存 写 信 新 值 的 操作 时 ， 处 理 从 队列 中 来 的 人 向 作 
废 和 更 新 。 在 基于 作废 的 协议 ， 这 意味 着 要 首先 处 理 队 列 ， 先 于 允许 处 理 器 来 完成 一 个 读 扑 
空 或 者 一 个 要 产生 总 线 过 程 的 写 ; 在 基于 更 新 的 协议 中 ， 它 意味 着 对 每 次 读 命中 都 要 服务 。 
男 一 个 方式 是 当 一 个 处 理 器 真正 快要 访问 一 个 值 的 时 候 (完成 一 个 污 命 中 或 扑 空 来 处 理 队 
列 ， 如 果 一 个 新 值 〈 即 一 个 答复 或 一 个 自从 上 次 队列 被 服务 后 的 一 次 更 新 ) 的 确 兑 现 到 了 组 
存 。 从 总 线 到 缓存 的 操作 重新 定 序 ， 以 及 一 个 新 值 被 兑现 到 缓存 的 事实 意味 着 ， 作 废 或 者 更 
新 可 能 在 队列 中 ， 对 应 于 先前 和 那个 新 值 有 关 的 写 ; 这 些 写 现在 应 该 在 读 能 够 完成 之 前 总 
现 。 这 些 技术 不 会 引起 如 例 6.3 所 讲 的 不 希望 的 结果 ， 见 本 章 的 习题 。 这 些 习题 可 能 有 助 于 使 
这 些 技术 更 具体 化 。 正 如 我 们 即将 能 看 到 的 ， 将 这 些 技术 扩充 到 多 层 缓存 结构 是 相当 自然 的 。 

不 管用 哪 种 方法 ， 写 的 原子 性 由 总 线 的 广播 特性 自然 地 得 到 保证 。 这 个 总 线 隐 含 着 写 操 
作 被 认可 的 顺序 对 所 有 处 理 器 都 是 相同 的 ， 并 且 在 写 对 于 所 有 处 理 器 都 认可 之 前 ， 一 个 读 没 
法 看 到 由 它 产生 的 值 。( 注 意 到 写 处 理 器 也 在 本 地 保证 这 一 点 )。 用 前 面 这 些 技术 ,我 们 就 能 
用 完成 来 其 代 提交 ， 从 而 保证 原子 性 。 对 于 事务 拆 分 型 总 线 的 另 一 些 主要 的 正确 性 问题 一 一 
死 锁 、 活 锁 、 挨 饿 一 一 在 我 们 介绍 了 多 层 缓存 之 后 会 有 讨论 。 首 先 ， 让 我 们 看 看 在 事务 拆 分 
型 总 线 上 协议 设计 的 一 些 方法 。 


6.4.7 其 他 设计 选择 
针对 请 求 - 响应 的 定 序 、 请 求 冲突 的 处 理 和 流 控 ， 人 们 还 研究 了 其 他 一 些 方法 ， 不 同 于 
我 们 用 作 例子 的 事务 拆 分 型 总 线 设 计 。 例 如 ， 保 证 响应 在 总 线 上 产生 的 次 序 和 请 求 的 次 序 一 


致 一 一 缓存 控制 器 倾向 于 此 一 一 将 简化 设计 。 为 了 请 求 - 响应 的 匹配 ， 全 相 联 的 请 求 表 可 以 
被 一 个 简单 的 FIFO 缓冲 区 代替 (如 果 不 允 许 冲突 的 请 求 ， 全 相 联 查询 可 能 依然 是 需要 的 )。 
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如 前 所 述 ， 只 有 当 一 个 请 求实 际 出 现在 总 线 上 时 ， 它 才 被 放 到 FIFO 中 ,保证 所 有 实体 (处 
理 器 和 存储 系统 ) 对 未 决 请 求 都 有 完全 相同 的 看 法 。 缓 存 控制 器 和 存储 系统 按 FIFO 序 处 理 
请 求 。 当 响应 出 现 的 时 候 (如 前 面 的 设计 )， 如 果 其 他 的 处 理 器 还 没有 完成 它们 的 侦 昕 ， 它 
们 就 要 置 禁止 线 ， 延 长 其 事务 的 周期 ， 即 侦 听 依然 和 响应 一 起 报告 出 来 。 区 别 在 于 ， 尽 管 一 
个 处 理 器 在 它 的 缓存 中 有 一 脏 块 ， 但 存储 器 先 产 生 了 一 个 响应 。 在 先前 无 序 设计 的 情况 下 ， 
有 着 脏 块 的 缓存 控制 器 释放 禁止 线 ， 置 脏 线 ， 当 它 从 缓存 获得 了 数据 后 再 次 参与 总 线 的 仲 
裁 。 但 现在 为 了 保持 FIFO 序 ， 这 个 响应 必须 放 到 总 线 上 ， 先 于 针对 任何 后 来 请 求 的 响应 。 
于 是 带 有 脏 块 的 控制 器 不 释放 禁止 线 ， 而 是 延长 当前 的 总 线 事务 ， 直 到 它 从 其 缓存 中 得 到 那 
一 块 数据 提供 给 总 线 。 实 现 这 一 点 和 任何 其 他 实体 访问 总 线 无 关 ， 因 此 没有 死 锁 问题 。 

尽管 FIFO 请 求 -响应 序 是 比较 简单 ， 它 可 能 有 性 能 问题 。 考 虑 带 有 交叉 存储 系统 的 多 处 
理 器 。 假 设 有 三 个 请 求 4，B ，C 依次 发 到 总 线 上 ，4 和 有 到 同一 个 存储 模块 ，C 到 另 一 个 
存储 模块 。 迫 使 系统 按 序 产 生 响应 意味 着 C 要 等 待 4 和 8 的 处 理 完成 ， 尽 管 由 于 4 和 8B 发 
生 模 块 冲突 ，C 的 数据 先 于 B 可 用 。 主 存 的 行为 是 允许 变 序 响应 主要 的 动机 ， 因 为 缓存 不 
管 怎样 都 可 能 是 按 序 对 请 求 做 响应 的 。 

证 响应 保持 其 顺序 ， 也 使 得 处 理 总 线 上 同时 存在 的 对 同一 存储 块 的 冲突 请 求 更 容易 些 ， 
这 样 就 消除 了 对 全 相 联 请 求 表 查询 的 需要 ， 也 增加 了 带宽 。 假 设 两 个 BusRdX 请 求 连续 发 给 
一 个 存储 块 。 如 前 所 述 ， 发 出 后 面 一 个 请 求 的 控制 器 在 看 到 前 面 的 请 求 后 将 要 作废 它 的 存储 
块 。 对 于 事务 拆 分 型 总 线 来 说 ， 问 题 在 于 发 出 前 面 请 求 的 控制 器 ， 在 它 所 等 待 的 数据 响应 之 
前 看 到 了 后 面 的 请 求 。 控 制 器 不 能 由 于 这 个 后 面 的 请 求 简单 地 作废 它 的 块 ， 因 为 那 一 存储 块 
正在 去 往 发 出 前 面 请 求 的 控制 器 的 路 上 ， 它 自己 的 写 应 该 先 于 一 个 清除 或 作废 之 前 完成 。 对 
于 乱 序 响应 来 说 ， 人 允许 这 种 冲突 请 求 可 能 是 困难 的 。 对 于 保 序 响应 ， 前 面 的 请 求 者 知道 它 的 
响应 会 首先 出 现在 总 线 上 ， 因 此 这 实际 上 是 一 种 性 能 优化 的 机 会 。 前 面 请 求 的 控制 器 对 后 面 
请 求 的 反应 是 简单 地 注意 到 后 者 是 待 完成 的 。 当 它 的 响应 块 到 达 时 ， 它 就 更 新 要 写 人 的 字 ， 
并 且 “ 顺 手 ” 将 修改 后 的 存储 块 送 回 到 总 线 上 ， 作 为 对 后 面 请 求 的 响应 ， 使 它 自己 的 块 无 
效 。 这 种 优化 降低 了 在 写 - 写 伪 共 享 下 往复 转换 一 个 存储 块 的 时 延 。 

如 果 从 请 求 到 侦 听 结果 的 延迟 是 固定 的 ， 就 可 以 允许 冲突 请 求 的 存在 ， 甚 至 不 需要 数据 
响应 的 保 序 。 然 而 ， 由 于 对 一 个 存储 块 的 冲突 请 求 也 要 到 存储 器 中 的 同样 一 个 队列 中 ， 对 这 
些 请 求 的 数据 响应 本 身 通 常 就 是 按 序 出 现 的 ， 于 是 它们 可 以 由 上 述 快捷 的 方法 来 处 理 (在 
Sun Enterprise 系统 中 就 是 这 人 么 做 的 )。 

事实 上 ， 只 要 一 个 明确 定义 的 序 能 在 请 求 过 程 之 间 识 别 出 来 ， 它 们 甚至 不 需要 顺序 地 发 
到 同一 个 的 总 线 上 。 例 如 ，Sun SparcCenter 2000 用 两 个 不 同 的 事务 拆 分 型 总 线 ，CRAY 6400 
用 四 个 ， 以 改善 大 配置 系统 的 带宽 。 于 是 就 可 以 在 一 个 周期 中 发 出 多 个 请 求 。 同 时 ， 在 总 线 
之 间 建 立 起 一 个 简单 的 优先 级 ， 从 而 在 并 发 的 请 求 中 间 定 义 了 一 个 逻辑 顺序 。 


6.4.8 带 有 多 级 高 速 缓存 的 事务 拆 分 型 总 线 


现在 可 以 将 基本 协议 上 的 两 种 主要 的 增强 技术 结合 起 来 :多 级 缓存 和 事务 拆 分 型 总 线 。 
我 们 考察 的 设计 是 一 个 (类 似 于 Challenge) 事务 拆 分 型 总 线 和 两 级 缓存 层次 结构 。 其 中 的 问 
题 和 解决 方案 可 以 推广 到 更 深 的 层次 。 我 们 已 经 看 到 了 请 求 、 响 应 和 作废 沿 这 个 层次 结构 传 
播 的 基本 问题 。 我 们 需要 对 付 的 新 的 关键 问题 是 ， 一 个 请 求 传播 通过 控制 器 要 占用 相当 多 的 
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[410] 总 线 周期 。 在 这 个 期 间 ， 我 们 必须 允许 其 他 的 过 程 也 在 层次 中 上 下 传播 。 为 了 人 允许 单个 单元 
(例如 ， 控 制 器 和 缓存 ) 以 它们 自己 的 速度 运行 的 同时 维持 高 带宽 ， 也 在 层次 的 级 别 之 间 布 
置 了 队列 。 然 而 ， 这 就 引起 了 关于 死 锁 和 串 行 化 的 一 系列 问题 。 

一 个 简单 的 多 级 缓存 组 织 如 图 6-10 所 示 ， 假 设 一 个 处 理 器 同时 只 能 有 一 个 待 完成 请 求 ， 
于 是 在 处 理 器 和 第 一 级 缓存 之 间 就 没有 队列 。 这 种 队列 结构 要 关心 的 一 个 问题 是 死 锁 。 为 了 
避免 前 面 所 讨论 过 的 取 数 死 锁 问题 ，P 缓存 在 有 请 求 未 完成 时 需要 能 缓冲 和 向 请 求 或 响应 ， 
从 而 使 总 线 得 以 自由 。 对 于 每 个 处 理 器 有 一 个 待 完 成 请 求 的 情形 ， 在 总 线 和 L 缓存 之 间 的 
入 向 队列 要 足够 大 ， 能 够 容纳 从 其 他 处 理 器 来 的 待 完成 请 求 数 加 上 对 它 自 己 请 求 的 一 个 响 
应 。 这 覆盖 了 所 有 请 求 都 到 达 同 一 个 缓存 且 这 个 缓存 有 一 个 请 求 待 完成 的 情况 。 如 果 队 列 比 
这 种 情况 的 要 小 ， 在 队列 满 了 不 足以 接收 新 的 请 求 时 ， 总 线 请 求 就 应 该 被 给 予 NACK 信号 。 
这 种 说 法 适用 于 带 有 事务 拆 分 型 总 线 的 单 级 或 多 级 缓存 的 系统 。 在 总 线 到 L 之 间 和 在 L, 到 
Ly 中 的 一 个 时 隙 预 留 给 对 处 理 器 待 完 成 请 求 的 响应 ， 以 便 每 个 处 理 器 总 能 排 干 它 的 待 完成 
响应 。 如 果 用 NACK， 总 线 仲 裁 需要 含有 一 种 机 制 ， 诸 如 一 种 简单 的 优先 级 方案 ,来 保证 在 
严重 的 竞争 条 件 下 使 系统 仍 能 向 前 推进 。 





| 一 一 | 到 总 线 的 
上 -请求 / 响应 





总 g 


图 6-10 可 能 存在 于 多 级 缓存 层次 结构 内 部 的 队列 。 每 个 层次 有 一 个 自 上 的 输入 队列 和 一 个 自 下 的 输 
人 队列 。 一 个 操作 可 能 产生 对 相 邻 层 的 请 求 或 者 响应 。 例 如 ， 一 个 在 L 缓存 扑 空 的 读 请 求 被 
送 到 缓存 由。 如 果 也 扑 空 ， 总 线 上 就 会 出 现 一 个 请 求 @。 在 输入 队列 中 该 污 请 求 被 所 有 其 
他 缓存 控制 器 捕获 @)。 假 设 存储 块 当前 以 修改 状态 出 现在 另 一 个 处 理 器 的 L 缓存 中 ， 这 个 请 
求 就 在 它 的 L 服务 中 排队 外 。L 将 该 存储 块 降 到 共享 状态 ， 并 送 到 L 缓存 中 回 ， 由 它 再 送 
上 总 线 @。 这 个 响应 被 请 求 者 捕获 中 并 送 给 它 的 L@@， 在 那里 向 处 理 器 提供 所 要 求 的 存储 字 


除了 取 数 死 锁 外 ， 经 典 的 缓冲 区 死 锁 也 可 能 在 多 层 缓存 层次 之 内 发 生 。 例 如 ， 假 设 在 
L AL, 缓存 之 间 每 个 方向 都 有 一 个 队列 ， 两 者 都 是 回 写 缓 存 的 ， 每 个 队列 能 持 有 一 个 数据 
项 。 有 可 能 TD 一 L 队列 持 有 一 个 出 向 读 请 求 ， 它 能 够 在 L 中 被 满足 ， 但 要 对 L 产生 一 个 回 
Bi LSL 队列 持 有 一 个 人 向 读 请 求 ， 它 能 够 在 L 缓存 中 被 满足 ， 但 要 对 L 产生 一 个 回 
答 。 现 在 有 了 一 个 典型 的 循环 缓冲 依赖 关系 ， 因 此 死 锁 。 注 意 ， 这 个 问题 只 出 现在 这 样 的 层 
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次 结构 中 : 上 层 的 缓存 (靠近 处 理 器 ) ， 而 不 是 最 靠近 总 线 的 ， 是 一 个 回 写 缓存 。 否 则 ， 人 
向 请 求 不 产生 来 自 高 层 缓 存 的 答复 ， 于 是 就 没有 循环 ， 也 就 没有 缓冲 区 死 锁 问题 (注意 ， 作 
废 的 确认 被 总 线 自己 隐 含 完成 ， 不 需要 来 自 缓存 的 确认 )。 

在 多 层 回 写 缓存 层次 系统 中 ， 一 种 对 付 这 种 缓冲 区 死 锁 问题 的 硬件 方法 是 限制 从 处 理 带 
来 的 待 完成 请 求 数 ， 在 每 个 缓存 对 入 向 请 求 和 响应 提供 足够 的 带宽 。 然 而 ， 这 要 求 用 到 大 量 
的 器 件 并 且 不 是 可 扩展 的 。 每 个 请 求 可 能 需要 两 个 出 向 缓冲 区 项 一 一 一 个 是 为 请 求 ， 另 一 个 
是 为 它 可 能 产生 的 回 写 。 对 于 允许 大 量 待 完成 总 线 事务 的 情况 ， 人 向 缓冲 区 也 可 能 需要 有 许 
多 项 。 另 外 一 种 方法 是 用 一 种 通用 的 死 锁 回避 技术 ， 针 对 有 限 缓冲 的 情形 ， 我 们 将 在 第 7 章 
和 物理 上 分 布 存储 的 系统 一 并 讨论 ， 在 那 种 情况 下 ， 这 个 问题 更 加 明确 。 基 本 思想 是 将 流 过 
缓冲 区 和 通信 介质 的 操作 分 离 成 请 求 和 响应 。 一 个 操作 被 分 为 响应 ， 如 果 它 不 产生 进一步 的 
操作 ， 只 是 简单 地 被 其 目的 地 吸收 。 一 个 请 求 可 能 产生 一 个 响应 ,但 没有 操作 能 产生 请 求 
(尽管 在 这 种 情况 下 ， 一 个 请 求 如 果 不 在 最 初 层次 产生 一 个 响应 ， 则 可 能 传送 到 层次 的 下 一 
个 级 别 ， 初 始 化 一 个 新 的 请 求 -响应 对 ， 将 自己 结束 )。 针 对 这 种 分 类 ， 我 们 可 以 避免 死 锁 ， 
如 果 我 们 在 每 个 方向 为 请 求 和 响应 提供 单独 的 队列 ， 保 证 响应 总 被 从 队列 上 抽取 出 来 ， 这 样 
也 允许 请 求 向 前 推进 。 在 第 7 章 讨 论 了 这 个 技术 后 ， 我 们 在 练习 中 将 它 应 用 到 这 个 特别 的 带 
有 多 层 回 写 缓存 的 情形 。 

还 有 其 他 一 些 潜在 的 死 锁 情况 。 例 如 ， 如 果 总 线 上 的 待 完成 过 程 数 小 于 缓存 允许 的 待 完 
成 清 求 数 ， 处 理 器 缓存 来 的 一 个 响应 可 能 需要 先 于 从 它 发 出 的 新 的 外 向 请 求 到 达 总 线 。 否 
则 ， 存 在 的 请 求 可 能 总 不 会 得 到 满足 ， 于 是 就 不 会 有 进展 。 出 向 队列 或 者 队列 组 必须 支持 在 
必要 时 响应 能 够 绕 过 请 求 。 

除 死 锁 外 ， 对 于 这 些 队 列 结构 的 一 个 考虑 是 维护 顺序 同一 性 。 对 于 多 级 缓存 来 说 ， 重 要 
的 是 总 线 不 要 等 待 一 个 作废 信号 一 直上 朔 到 第 一 级 缓存 ， 返 回 一 个 答复 ; 反 过 来 它 应 该 考虑 
放 上 总 线 后 所 提交 的 写 ， 这 样 的 写 位 于 最 低级 缓存 的 输入 队列 中 。 提 交 和 完成 的 分 离 在 这 种 
情形 更 加 明显 。 然 而 ， 我 们 所 讨论 过 的 对 于 单 级 缓存 的 技术 在 此 自然 地 得 到 扩充 : 我 们 只 要 
简单 地 将 它们 应 用 到 缓存 层次 的 每 一 级 。 这 样 ， 在 一 种 基于 作废 的 协议 中 ， 第 一 个 技术 扩充 
到 保证 在 层次 的 每 一 级 答复 不 要 针对 那 一 级 的 人 向 队列 中 的 作废 重 定 序 (为 这 个 目的 ， 从 低 
级 缓存 到 高 一 级 缓存 的 答复 也 被 当成 答复 处 理 )。 第 二 个 技术 的 扩充 体现 在 ， 在 对 某 一 层次 
的 人 向 作废 兑现 之 前 ， 不 让 出 向 存储 操作 推进 超过 该 存储 层次 ;或 者 是 排 空 对 一 个 层次 的 人 
向 作废 ， 如 果 一 个 答复 自从 上 一 次 排 空 已 经 在 那 一 级 兑现 的 话 。 


6.4.9 对 一 个 处 理 器 有 多 个 待 完成 扑 空 的 支持 


尽管 我 们 已 经 考察 了 事务 拆 分 型 总 线 ， 到 目前 为 止 我 们 还 是 隐 含 地 假设 了 一 个 给 定 的 处 
理 器 在 一 个 时 刻 只 能 有 一 个 待 完 成 的 存储 请 求 。 这 个 假设 对 现代 处 理 器 来 说 是 简化 的 ， 即 使 
是 单 处 理 嚣 系统， 现在 的 处 理 器 都 允许 多 个 待 完成 请 求 以 包容 缓存 扑 空 的 时 延 。 一 方面 ， 允 
许 处 理 器 有 多 个 待 完成 引用 会 改善 性 能 ， 但 它 也 将 语义 复杂 化 了 ， 使 得 来 自 同一 处 理 器 的 存 
储 访问 可 能 在 存储 系统 中 完成 的 序 不 同 于 它们 发 出 的 序 。 

多 个 待 完成 引用 的 一 个 例子 是 用 写 缓冲 区 。 由 于 希望 让 处 理 器 在 发 出 了 第 一 个 写 操作 后 
继续 进行 其 他 的 计算 甚至 存储 操作 ， 我 们 将 这 个 写 操作 放 到 写 缓冲 区 。 直 到 写 被 串 行 化 ， 它 
不 应 该 可 见 ; 否则 ， 它 可 能 违反 写 串 行 化 和 一 致 性 。 一 个 可 能 性 是 将 它 写 到 本 地 缓存 ， 但 在 
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独占 所 有 权 得 到 之 前 不 使 它 可 用 〈 即 在 此 之 前 不 让 缓存 响应 关于 它 的 请 求 )。 更 通常 的 一 个 
办 法 是 将 它 保 持 在 写 缓冲 区 中 ， 只 是 当 得 到 了 独占 所 有 权 才 将 其 放 和 缓存 。 

多 数 处 理 器 用 更 大 胆 的 方式 使 用 写 缓冲 区 ， 处 理 器 不 停 地 快速 发 出 一 个 写 序列 到 写 缓 冲 
区 。 在 单 处理 器 ， 只 要 读 操 作 检测 写 缓冲 区 以 满足 相关 性 ， 这 个 方法 就 非常 有 效 。 在 多 处 理 
器 中 的 问题 是 ， 通 常 在 关于 一 个 存储 志 的 独占 所 有 权 过 程 被 放 到 总 线 上 ， 因 此 被 品行 化 之 
前 ， 不 能 允许 处 理 器 推进 让 存储 操作 超越 这 个 写 。 然 而 ， 有 些 特别 的 情形 ， 处 理 器 能 够 发 出 
一 个 写 序 列 ， 并 认为 它们 是 完成 了 ， 不 需 停 庙 。 一 个 例子 是 是 否 能 确定 写 操 作 所 针对 的 存储 
块 处 于 已 修改 状态 。 然 后 它们 可 以 在 处 理 器 和 缓存 之 间 被 缓冲 ， 只 要 缓存 在 服务 来 自 总 线 方 
的 请 求 (对 一 致 性 来 说 是 相同 的 块 ， 对 SC 来 说 是 任何 块 ) 之 前 处 理 这 些 写 操 作 。 存 在 一 个 
重要 的 特殊 情况 ， 写 序列 能 被 缓冲 而 不 管 缓存 的 状态 : 写 都 是 针对 同一 个 存储 块 ， 没 有 来 自 
那个 处 理 器 的 其 他 存储 操作 插 在 这 些 写 之 间 。 当 控制 器 正在 得 到 读 排他 事务 的 总 线 时 ， 这 些 
写 可 能 被 归并 。 当 那个 事务 出 现 的 时 候 ， 它 立刻 使 整个 写 序列 可 见 。 这 个 行为 如 同 在 这 个 总 
线 事 务 后 但 在 下 一 个 总 线 事务 之 前 写 在 本 地 命中 并 完成 。 注 意 ， 回 写 序 列 没有 问题 ， 协 议 不 
要 求 它 们 有 什么 顺序 。 

更 一 般 地 讲 ， 为 了 满足 顺序 同一 性 的 充分 条 件 ， 一 个 有 能 力 跨越 待 完成 的 写 ， 甚 至 读 操 
作 的 处 理 器 提出 了 这 样 的 问题 : 哪个 实体 应 该 等 待 来 “发 出 ”一 个 操作 ， 直 到 程序 原 序 前 面 
的 那个 完成 。 强 迫 处 理 器 自己 等 待 ， 可 能 会 丧失 所 有 由 复杂 的 处 理 器 机 制 带 来 的 好 处 〈 诸 如 
写 缓冲 和 乱 序 执行 )。 相 反 ， 由 于 这 里 的 问题 是 可 见 度 ， 持 有 待 完成 操作 的 缓冲 区 (诸如 写 
缓冲 或 者 是 在 动态 调度 乱 序 执行 处 理 器 中 的 重 定 序 缓冲 ) 可 以 为 此 目的 服务 。 处 理 器 能 够 紧 
接着 前 一 个 操作 发 出 下 一 个 操作 ， 缓 冲 区 承担 的 责任 有 两 方面 : 一 是 担保 在 适当 的 时 间 之 前 
写 操作 不 被 存储 器 和 互 连 系统 可 见 〈 即 不 将 它们 发 到 外 部 可 见 的 存储 系统 ); 二 是 读 操作 不 
允许 乱 序 完成 (相对 于 待 完成 写 提交 的 次 序 )， 即 使 处 理 器 可 能 乱 序 发 出 并 执行 它们 。 单 处 理 
器 中 提供 精确 中 断 的 机 制 通常 可 用 于 这 里 的 缓冲 区 ， 在 后 面 的 章节 中 将 讨论 它们 。 当 然 ， 某 些 
较 简 单 的 处 理 器 ， 不 支持 操作 推进 跨越 读 或 写 ， 能 使 顺序 同一 性 的 维护 比较 容易 些 。 在 第 9 章 
考察 同一 性 模型 的 时 候 ， 还 会 进一步 讨论 多 个 待 完 成 引用 对 存储 同一 性 模型 的 语义 影响 。 

从 设计 的 角度 来 看 ， 最 有 效 地 开拓 多 重 待 完成 引用 要 求 缓存 允许 在 同一 时 间 有 多 个 缓存 
扑 空 待 完 成 ， 从 而 这 些 扑 空 的 时 延 能 被 重重。 这 反 过 来 要 求 绥 存 或 者 某 些 辅助 数据 结构 来 跟 
踪 待 完成 的 扑 空 ， 由 于 响应 可 能 乱 序 返 回 ， 这 可 能 是 相当 复杂 的 。 允 许多 重 待 完 成 扑 空 的 组 
存 称 为 免 锁定 缓存 (Kroft 1981) ， 相 对 于 阻塞 缓存 ， 其 只 允许 一 个 待 完成 扑 空 。 在 第 11 章 
中 ,讨论 包容 时 延 措施 的 时 候 ， 也 将 讨论 免 锁定 缓存 的 设计 。 

最 后 ， 考 虑 事务 拆 分 型 总 线 和 多 级 缓存 层次 之 间 的 相互 作用 ， 以 及 避免 死 锁 的 需求 。 给 
定 一 个 支持 事务 拆 分 型 总 线 和 多 级 缓存 的 设计 ， 为 支持 每 个 处 理 器 有 多 个 待 完成 操作 所 需 的 
扩充 并 不 多 ， 且 多 数 只 是 出 于 性 能 的 考虑 。 我 们 只 是 需要 在 处 理 器 到 总 线 之 间 提 供 较 深 的 请 
求 队列 (在 图 6-10 中 ， 请 求 队列 向 下 指 )， 因 此 多 个 待 完成 操作 能 够 缓冲 起 来 ， 于 是 处 理 器 
或 者 缓存 能 够 不 停滞 。 更 深 的 响应 队列 和 较 多 的 回 写 缓冲 也 可 能 是 有 用 的 ， 这 时 系统 能 承受 
更 多 的 并 发 性 。 只 要 死 锁 的 处 理 是 通过 不 同 于 响应 的 请 求 来 完成 的 ， 并 且 为 它们 提供 逻辑 上 
分 开 的 缓冲 ， 这 些 队列 的 准确 长 度 对 正确 性 的 影响 都 不 大 。 我 们 看 到 这 里 做 的 改变 是 相当 小 
的 ， 其 原因 是 免 锁 定 缓存 本 身 对 同一 块 响应 的 任务 做 了 复杂 的 融合 请 求 和 管理 ， 因 此 对 于 组 
存 以 及 它 下 面 的 总 线 子 系统 来 说 ， 只 看 到 对 于 不 同 块 的 多 个 请 求 来 自 该 处 理 器 。 某 些 潜在 的 
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取 死 锁 情 形 可 能 会 暴露 出 来 ， 它 们 在 每 处 理 器 只 有 一 个 待 完成 请 求情 形 不 会 出 现 ; 例如 ,我 
们 现在 可 能 看 到 这 种 情形 ， 从 所 有 处 理 器 来 的 待 完成 请 求 的 总 数 多 于 总 线 能 够 接受 的 数量 ; 
因此 ， 需 要 保证 响应 能 顺便 旁 路 掉 一 些 请求 。 尽 管 如 此 ， 我 们 讨论 过 的 支持 多 个 待 完成 过 程 
的 技术 (针对 事务 拆 分 型 总 线 ) 使 系统 的 其 余部 分 能 够 对 付 源 于 一 个 处 理 器 的 多 个 请 求 ， 而 
不 产生 死 锁 。 


6.5 实例 分 析 : SGI Challenge 和 Sun Enterprise 6000 


前 面 的 部 分 论述 了 一 般 性 的 设计 和 实现 ， 接 下 来 将 讨论 两 个 具体 的 基于 总 线 的 多 处 理 器 
系统 一 一 SGI Challenge 和 Sun Enterprise 6000。 我 们 将 更 多 地 集中 于 讨论 这 些 实际 系统 的 组 织 
和 工程 方面 的 问题 ， 而 较 少 地 注重 它们 的 逻辑 ， 考 察 它 们 在 若干 问题 上 采取 的 不 同 做 法 。 

SCI Challenge 被 设计 成 为 能 支持 到 36 个 MIPS R4400 处 理 器 (最 高 能 达到 2.7 GFLOPS) 或 
18 个 MIPS R8000 处 理 器 (最 高 能 达到 5.4 GFLOPS)。 两 者 都 使 用 Powerpath-2 总 线 ， 最 高 带宽 
1.2 GBps。 此 系统 能 支持 高 达 16 GB 的 8- 通 路 交叉 存 取 主 存储 器 ， 多 达 4 个 PowerChannel-2 1/ 
0 总 线 (每 个 总 线 支持 最 高 带宽 320 MBps 和 多 以 太 网 连接 、VME/SCSI 总 线 、 图 形 卡 以 及 其 
他 外 围 设备 )。 全 部 磁盘 存储 容量 能 达到 几 万 亿 字 节 。 操 作 系统 使 用 IRIX ( 它 是 SVR4 UNIX 
的 一 个 变型 。 具 有 对 称 多 处 理 器 内 核 ， 能 把 操作 系统 的 任务 分 配 到 任 一 个 处 理 器 上 进行 )。 
图 6-11 给 出 了 SGI Challenge 系统 的 高 层 组 织 结构 。 







a) 一 个 有 由 个 处 理 崇 的 电路 板 


R4400 CPUs 
和 高 速 缓存 


Powerpath2 BA 2ST, 


b) 机 器 的 组 织 


图 6-11 SCI Challenge 多 处 理 器 ”每 个 板 有 4 个 处 理 器 ,9 个 总 线 模 共 可 容纳 36 个 处 理 器 。 此 系统 能 支持 高 
达 16 GB 的 8 通路 交错 主 存储 器 。LO 板 提供 一 个 独立 的 320 MBps 的 VO 总 线 ， 通 过 它 与 其 他 标准 
总 线 和 设备 相 接 。 系 统 总 线 有 一 个 独立 的 40 位 地 址 通路 、 一 个 独立 的 256 位 数据 通路 以 及 命令 通 
路 与 其 他 信号 的 通路 ， 支 持 最 高 带宽 1.2 GBps。 总 线 是 事务 拆 分 型 的 ， 在 给 定 的 时 间 内 可 以 有 多 
达 8 个 请 求 在 总 线 上 等 待 处 理 
来 源 : CHALLENGE 是 Silicon Graphics Inc. 公司 的 注册 商标 。 
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Sun Enterprise 6000 被 设计 成 能 支持 多 达 30 个 UltraSparc 处 理 器 (最 高 能 达到 9 GFLOPS) , 
支持 Gigaplane 系统 总 线 (总 线 支 持 最 高 带宽 2.67 GBps)， 支 持 高 达 30 GB 的 16 通路 交叉 存 
取 存 储 器 。 机 器 有 16 条 模 ， 能 混合 装备 处 理 板 和 IO 板 ， 且 每 种 板 至 少 需 有 一 个 。 每 个 处 
理 板 有 两 个 CPU 模块 ， 两 个 最 高 达 1 GB 的 512 位 宽 的 内 存 模块 〈 因 此 ， 系 统 的 内 存 容 量 和 
带宽 受 限 于 处 理 器 数目 ) 。 虽 然 特定 的 内 存在 物理 位 置 上 与 一 特定 的 处 理 器 对 相连 ， 但 由 于 
对 内 存 的 存 取 都 是 通过 系统 总 线 进行 的 ， 故 各 内 存 的 存 取 时 间 都 是 一 致 的 。 每 个 内 存 都 有 特 
定 的 地 址 ， 它 所 处 的 电路 板 就 叫做 此 特定 地 址 的 主板 (home board) A VO 板 都 提供 两 个 
独立 的 64 位 x25 MHz 的 SBUS 1/0 总 线 ， 因 此 ， 系 统 的 VO 带宽 受 限 于 1/0 板 的 数量 。 所 有 
磁盘 存储 容量 能 达到 数 十 万 亿 字 节 。 操 作 系 统 使 用 Solaris UNIX, K 6-12 给 出 了 Sun Enter- 
prise 系统 的 高 层 结构 。 















CPU/mem .长 






100bT, SCSI 
2 FiberChannel 






Gigaplane 总 线 (256 个 数据 , 41 个 地 址 , 83MHz ) 


图 6-12 Sun Enterprise 6000 多 处 理 器 。 系 统 提供 了 16 RAM, ERMEER VO 板 ， 但 
每 种 都 至 少 得 存在 一 个 。 处 理 器 板 能 容纳 两 个 处 理 器 和 两 个 内 存 库 ， 对 所 有 板 内 存 库 
都 能 被 一 致 地 存 取 。JO 板 为 多 种 独立 的 外 部 设备 总 线 建立 了 接口 ， 因 此 看 起 来 就 像 是 
系统 总 线 的 高 速 缓存 控制 器 。 事务 拆 分 型 总 线 允 许 有 多 达 112 个 请 求 在 总 线 上 等 待 处 理 


下 面 几 小 节 将 描述 SCI Challenge 的 体系 结构 ， 并 给 出 它 的 一 些 性 能 特征 ， 然 后 再 讨论 
Sun Enterprise 6000。 


6.5.1 SGI Powerpath-2 系统 总 线 


系统 总 线 是 系统 内 各 部 件 间 相互 连接 的 核心 。 因 此 ， 它 的 设计 要 考虑 所 有 其 他 部 件 的 请 
求 ， 相 应 地 ， 一 旦 采用 了 某 种 设计 方案 ， 也 会 影响 其 他 部 件 的 设计 。 总 线 设计 方案 的 选择 要 
考虑 如 下 因素 :多 选 还 是 非 多 选 的 地 址 和 数据 总 线 、 较 宽 的 数据 总 线 (如 256 位 或 128 位 ) 
还 是 较 罕 的 数据 总 线 (如 64 位 )、 总 线 的 时 钟 频 率 ( 它 受 所 用 的 信和 号 发 送 技术 、 总 线 长 度 、 
槽 的 数目 等 的 影响 ) 、 事 务 拆 分 型 还 是 原子 型 设计 、 流 控 策 略 等 等 。 Powerpath-2 系统 总 线 是 
非 多 选 的 ， 它 有 256 位 宽 的 数据 部 分 、 独 立 的 40 位 宽 的 地 址 部 分 、 以 及 命令 部 分 和 其 他 信 
号 部 分 。 它 采用 的 时 钟 频率 是 47.6 MHz， 它 是 事务 拆 分 型 设计 ， 并 支持 8 个 等 待 的 读 请 求 。 
然而 宽 数 据 通路 意味 着 其 他 设备 连接 到 总 线 的 硬件 开销 是 较 大 的 《连接 要 求 多 个 位 片 芯片 做 
接口 )， 好 处 是 一 个 适中 的 时 钟 频率 也 能 得 到 1.2 CBps 的 高 带宽 。 总 线 支 持 16 个 槽 ， 其 中 的 
9 个 能 装备 四 处 理 器 板 ， 从 而 达到 36 个 处 理 器 的 配置 。 总 线 的 宽度 也 影响 和 受 影响 于 其 他 
的 设计 。 例 如 ， 最 接近 总 线 的 高 速 缓存 〈 在 这 指 二 级 高 速 缓 存 ) 的 块 大 小 是 128 字 节 ， 隐 含 
着 整个 块 能 在 4 个 总 线 时 钟 周期 内 被 总 线 传输 ;由 于 两 次 传输 之 间 死 循环 的 影响 ， RB), 
总 线 流 程 效率 越 低 或 设计 更 复杂 。 另 外 ， 由 于 总 线 连接 大 ， 也 要 求 板 相当 的 大 。 总 线 接 口 分 
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布 在 板 边缘 ， 占 了 大 约 20% 的 面积 ， 这 很 自然 地 要 在 每 个 板 上 多 放 几 个 处 理 器 。 

让 我 们 更 仔细 地 看 一 下 Powerpath-2 总 线 的 设计 。 总 线 共 包 括 329 个 〈 位 ) 信号 : 256 位 
数据 ，8 位 数据 奇偶 校 验 ，40 位 地 址 ，8 位 命令 ，2 位 地 址 + 命令 奇偶 校 验 ，8 位 数据 资源 
ID， 和 7 了 7 个 其 他 信号 。 总 线 上 事务 的 类 型 少 ， 所 有 的 事务 处 理 都 花费 5 个 周期 ， 这 和 前 面 讨 
论 过 的 例子 一 致 。 所 有 的 总 线 控制 器 专用 芯片 (ASIC) 都 同步 地 执行 如 下 的 五 态 自动 机 : OP 
裁 、 解 决 、 写 址 、 译 码 、 确 认 。 但 没有 事务 发 生 时 ， 每 个 总 线 控制 器 都 进入 两 态 空转 自动 
机 。 这 种 更 小 的 两 态 空转 自动 机 使 得 每 个 新 请 求 都 能 立刻 得 到 仲裁 ， 而 不 像 等 待 五 态 自 动机 
的 仲裁 要 经 过 更 长 的 时 间 (至 少 需要 两 个 状态 ， 如 果 只 有 一 个 ， 将 会 阻止 不 同 的 请 求 者 驱动 
仲裁 进入 下 面 的 周期 )。 图 6-13 给 出 了 基本 总 线 协议 的 状态 机 。 








图 6-13 Powerpath-2 总 线 状态 转换 图 。 连 到 系统 总 线 上 的 所 有 板 的 总 线 接口 都 按 图 所 示 同 步 地 进行 五 态 循 
环 ， 这 也 是 所 有 总 线 上 的 地 址 和 数据 事务 的 周期 。 但 当 总 线 进 人 空转 态 时 ， 它 只 在 状态 1 和 2 间 循 环 

由 于 总 线 是 事务 拆 分 型 的 设计 ， 地 址 总 线 和 数据 总 线 必 须 被 独立 地 仲裁 。 在 仲裁 周期 ， 
使 用 48 位 地 址 线 + 命令 线 。 这 些 线 中 的 低 16 位 被 16 块 板 使 用 (1 位 / 板 ) 用 于 请 求 数据 线 ， 
中 间 的 16 位 用 于 地 址 线 仲裁 (对 那些 既 要 求 地 址 线 也 要 求 数据 线 的 事务 ， 相 关 的 位 都 被 置 
R), 高 16 位 用 于 紧迫 的 或 高 优先 级 的 请 求 。 紧 迫 的 请 求 要 防止 挨 俄 ， 例 如 ， 当 一 个 处 理 器 
等 待 存 取 总 线 时 超时 。 通 过 设置 请 求 的 优先 程度 ， 设计 者 可 以 灵活 地 考虑 问题 ,使 得 对 一 些 
请 求 的 服务 因为 性 能 因素 可 以 比 其 他 请 求 优先 (例如 读 比 写 优先 )， 但 又 肯定 不 会 使 任何 请 
RAR 

E 6-14 是 图 6-8 的 扩展 ， 给 出 了 过 程 的 各 周期 (包括 被 驱动 的 各 种 总 线 ) 和 它们 的 语 
义 。 在 仲裁 周期 的 末尾 ， 所 有 的 总 线 接口 控制 器 捕捉 到 地 址 线 + 命令 线 的 48 位 的 状态 ， 从 
而 获悉 了 所 有 的 总 线 请 求 。 使 用 分 布 式 体系 结构 方案 ， 每 个 控制 器 能 看 到 所 有 的 总 线 请 求 ， 
并 在 “消解 ”周期 独立 地 处 理 同 一 个 获胜 者 。 虽 然 分 布 式 体系 结构 消耗 了 更 多 的 ASIC 门 次 
源 ， 但 它 节省 了 集中 控制 器 把 获胜 者 经 总 线 授权 线 传达 给 每 一 位 的 等 待 时 间 。 

在 “ 写 址 ”周期 ， 地 址 总 线 的 获胜 者 用 相关 信息 来 驱动 地 址 总 线 和 命令 总 线 。 同 时 ， 数 
据 总 线 的 获胜 者 根据 响应 来 驱动 数据 资源 D 线 。( 数 据 资源 ID 是 一 个 3 位 的 全 局 标签 ， 在 
读 请 求 刚 生成 时 ， 被 赋予 此 标签 。 标 签 的 使 用 请 见 6.4.2 节 )。 

在 “ 译 码 ”周期 ， 没 有 信号 在 地 址 总 线 上 被 驱动 。 每 个 总 线 接口 槽 各 自决 定 如 何 对 事务 
做 出 响应 。 例 如 ， 如 果 事 务 是 回 写 ， 而 当前 内 存 系统 没有 足够 的 缓冲 资源 来 接纳 数据 ， 那 么 
在 下 个 周期 这 个 过 程 就 会 被 否定 回答 (或 拒绝 )， 以 待 将 来 重 试 。 BO, MAME ORE 
准备 提供 适当 的 高 速 缓存 一 致 性 信息 。 
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图 6-14 Powerpath-2 总 线 时 序 图 。 在 仲裁 周期 ，48 位 地 址 总 线 + 命令 总 线 传达 了 来 自 16 条 总 线 模 的 关于 
数据 事务 、 地 址 事务 和 紧迫 事务 的 请 求 。 每 个 总 线 接口 用 一 个 公共 的 算法 独立 地 决定 仲裁 的 结 
果 。 就 地 址 请 求 而 言 ， 地址 + 命令 在 “ 写 址 ”周期 被 传送 ， 请 求 可 能 会 在 “确认 ”周期 被 “ 否 
定 回答 "。 类 似 地 ， 就 数据 请 求 而 言 ， 相 关 标签 ( 即 数据 资源 ID) 会 在 “ 写 址 ”周期 被 传送 ， 请 
求 可 能 会 在 “确认 ”周期 被 “否定 回答 ”或 数据 在 接着 的 DO- D3 周期 (Do 即 “ 确 认 ” 周 期 ) 被 传送 
在 “确认 ”周期 ， 每 个 总 线 接口 槽 都 对 数据 事务 或 地 址 事务 做 出 响应 。48 位 地 址 总 线 
+ 命令 总 线 如 下 使 用 : 高 16 线 表明 响应 档 上 的 设备 是 否 因 为 缓存 空间 不 足 而 拒绝 地 址 总 线 
事务 ， 类 似 地 ， 中 间 的 16 线 针对 数据 总 线 事务 。 最 低 16 线 表明 在 数据 总 线 上 传输 的 块 在 高 
速 缓存 中 的 状态 〈 在 或 不 在 )。 这 些 线 有 助 于 决定 将 被 载 到 请 求 的 处 理 器 中 的 数据 块 的 状态 
(如 排他 或 共享 )。 最 后 ， 假 如 某 一 个 处 理 器 通过 这 一 周期 没有 完成 侦 听 ， 它 就 会 申明 使 用 相 
关 的 禁止 线 (数据 资源 ID 线 在 “接受 ”周期 和 “仲裁 ”周期 加 倍 为 抑制 线 )， 它 会 持续 地 声 
明 直 到 它 完 成 侦 听 。 如 果 侦 听 表 明了 一 个 “干净 ” 的 高 速 缓存 块 ， 侦 昕 节点 就 会 释放 禁止 
线 ， 并 允许 请 求 节点 接受 内 存 响 应 。 如 果 侦 听 节 点 表明 了 一 个 “ 脏 ” 的 高 速 缓存 块 ， 则 节点 
重新 仲裁 数据 总 线 ， 提 供 数据 的 最 新 版 本 ， 然 后 才 有 释放 禁止 总 线 。 
对 于 数据 总 线 事务 ， 一 旦 一 条 槽 成 为 主 构 ，128 字 节 的 高 速 缓存 块 数据 将 会 在 连续 的 4 
个 周期 内 通过 256 位 宽 的 数据 通路 。 这 4 个 周期 序列 起 始 于 “确认 ”周期 ， 终 止 于 下 一 个 特 
环 的 “地 址 ”周期 。 由 于 256 位 宽 的 数据 通路 只 用 了 5 个 周期 中 的 4 个 ， 因 此 数据 线 的 最 高 
使 用 率 为 80%。 尽 管 如 此 ， 从 某 种 意义 上 说 ， 这 是 一 种 最 好 的 办 法 ， 因 为 Powerpath-2 总 线 
使 用 的 信号 发 送 技术 要 求 在 不 同 的 控制 器 驱动 总 线 之 间 ， 要 给 与 一 个 周期 的 回转 时 间 。 


6.5.2 SGI 处 理 器 和 内 存 子 系统 


在 这 个 体系 结构 中 ， 每 个 板 有 多 个 处 理 器 。 为 了 减少 总 线 接口 的 开销 ,许多 总 线 接口 芯 
片 被 处 理 器 间 共 享 。 图 6-15 给 出 了 处 理 器 板 的 高 层 结 构 。 

处 理 器 板 使 用 3 个 不 同类 型 的 芯片 来 与 总 线 接口 ， 并 支持 高 速 缓存 一 致 性 。 有 一 个 单一 
的 A- 芯 片 作为 处 理 器 与 地 址 线 的 接口 。 它 包含 了 用 于 分 布 式 体系 结构 的 逻辑 仲裁 ，8 个 条 目 
的 请 求 表 用 于 存储 当前 总 线 上 待 处 理 的 事务 ( 见 6.4 节 ) 以 及 其 他 的 控制 逻辑 用 来 决定 事务 
何 时 在 总 线 上 发 布 ， 怎 样 响 应 它们 。 它 把 总 线 上 观察 到 的 请 求 传 到 CCIE (每 个 处 理 器 一 
个 )，CC- 忌 片 使 用 一 个 复制 的 标签 集 来 决定 内 存 块 在 本 地 高 速 缓存 器 中 的 存在 性 ， 并 把 它 传 
回 给 A- 芯 片 。 所 有 来 自 处 理 器 中 的 请 求 流 经 CC- 芯 片 到 达 A- 芯 片 ， 然 后 由 A- 芯 片 把 它 放 到 
总 线 上 。 有 4 个 位 片 D- 芯 片 与 256 位 宽 的 数据 总 线 接口 ， 它 们 非常 简单 ， 并 在 处 理 器 间 共 享 ， 
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Powerpath-2 总 线 


图 6-15 SGI Challenge 处 理 板 的 组 织 和 芯片 分 割 。 为 了 支持 36 个 处 理 器 而 使 用 较 少 的 总 

线 槽 ， 每 块 板 安排 了 4 个 处 理 器 。 为 了 保持 一 致 性 和 与 总 线 接口 ， 每 个 处 理 器 

都 有 一 个 高 速 缓存 一 致 性 (CC) 芯片 一 个 共享 的 A -芯片 来 跟踪 来 自 /去 往 所 有 

芯片 的 请 求 以 及 和 地 址 总 线 的 接口 , 4 个 共享 的 位 片 D- 芯片 与 256 位 宽 数据 线 接口 
它们 提供 有 限 的 缓冲 能 力 ， 并 简单 地 把 数据 在 和 每 个 处 理 器 (高速 缓存 ) 相 联系 的 总 线 和 处 
理 器 的 CC- 芯 片 间 传 送 。 

Challenge 的 主 存 子 系统 使 用 高 速 缓存 把 地 址 扁 出 到 576 位 宽 的 内 部 DRAM 总 线 ，576 位 
包括 512 位 的 数据 ，64 位 的 错误 校 验 码 (ECC)， 实 现 一 位 纠 错 和 两 位 检 错 。 快 速 页 模式 的 
存 取 使 得 128 字 节 的 高 速 缓存 块 在 两 个 内 存 周 期 被 读 人 ， 数 据 缓冲 器 把 响应 传人 256 位 宽 的 
系统 数据 总 线 。 当 地 址 在 总 线 上 出 现 并 过 了 12 个 总 线 周 期 (大约 250 ns) 后 ， 响 应 数据 出 
现在 数据 总 线 上 。 一 个 单一 的 内 存 板 能 容纳 2 GB 的 内 存 ， 支 持 一 个 两 通路 的 交 义 存 取 存储 
器 系统 ， 它 的 饱和 系统 总 线 带宽 能 达到 1.2 CBps。 

假定 主 存 系统 占用 的 原始 等 待 时 间 粗 略 计 为 250 ns， 我 们 不 妨 来 看 看 二 级 缓存 扑 空 时 处 
理 器 的 整个 等 待 时 间 。 在 Challenge 系统 中 ， 这 个 数字 接近 lus。 使 请 求 第 一 次 出 现在 总 线 上 
花 了 大 约 300 ns， 其 间 包 括 处 理 器 认识 到 一 级 缓存 扑 空 、 二 级 缓存 扑 空 ， 并 把 请 求 经 过 CC- 
芯片 传 到 A- 芯 片 。 完 整 的 高 速 缓存 数据 块 穿 过 总 线 到 达 D- 芯 片 另外 花 了 大 约 400 ns， 其 间 
包括 3 个 总 线 周 期 等 待 请 求 过 程 进入 “ 写 址 ”阶段 ，12 个 总 线 周期 (大约 250 ns) 存 取 主 
存 ， 以 及 5 个 总 线 周 期 等 待 数据 事务 在 总 线 上 发 送 数 据 。 最 后 ， 再 经 过 300 ns, SERA D- 
营 片 、CC- 芯 片 、64 位 接口 进入 处 理 器 芯片 (对 128 个 字 节 的 高 速 缓存 块 16 个 周期 ) ， 在 这 
儿 ， 数 据 被 载 人 主 高 速 缓存 ， 然 后 重启 处 理 器 流水 线 Se 。 

为 了 保持 高 速 缓存 一 致 性 ，SGI Challenge 缺 省 使 用 Minois MESI 协议 ， 它 也 支持 更 新 事 
务 。 高 速 缓存 一 致 性 协议 和 事务 拆 分 型 总 线 的 相互 作用 见 6.4 节 中 的 描述 。 


O 注意 ， 在 往返 路 径 上 ， 内 存 请 求 都 穿 过 非 同步 的 边界 ， 从 而 增加 了 双 倍 的 同步 器 延迟 ， 在 每 个 方向 上 大 约 为 
30 ns。 非 耦合 的 优点 就 是 处 理 器 和 系统 总 线 能 运行 不 同 的 时 钟 频率 ， 从 而 允许 引信 更 高 时 钟 频 率 的 处 理 器 而 保 
持 总 线 时 钟 频 率 。 当 然 ， 这 种 开销 就 属于 额外 开销 。 

O 更 新 的 处 理 器 ， 如 MIPS R10000， 人 允许 处 理 器 在 收 到 所 需 的 关键 字 后 ， 就 能 重 起 流程 ， 而 不 用 等 待 完整 的 高 速 缓 
存 块 全 部 到 达 。 这 种 关键 字 重 起 机 制 降低 了 扑 空 延迟 。 
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6.5.3 SGI /O 子 系 统 


为 了 支持 多 处 理 器 提供 的 强大 计算 能 力 ， 在 提供 匹配 的 VO 能 力 时 必须 格外 的 小 心 。 
SGI Challenge 提供 了 可 扩 放 的 VO 性 能 ， 它 允许 多 个 V0 卡 插 在 系统 总 线 上 ， 每 个 卡 提供 一 
个 320 MBps 的 本 地 HIO VO 总 线 。 多 种 不 同 的 ASIC 作为 VO 总 线 和 标准 一 致 设备 (如 Ether- 
net、VME 、SCSIE、HPPI) ， 非 标准 一 致 设备 (如 SCI Graphics) 的 接口 。 

图 6-16 给 出 了 SGI Challenge 的 PowerChannel-2 /0 子 系统 的 高 层 结 构 。 总 线 是 一 种 64 位 
宽 的 多 选 地 址 /数据 总 线 ， 与 系统 总 线 运行 相同 的 时 钟 频 率 。 它 支持 读 事 务 的 分 离 ， 每 个 设 
备 可 以 有 4 个 待 完成 事务 。 和 系统 总 线 不 同 ， 它 使 用 集中 式 仲裁 ， 节 省 等 待 时 间 。 然 而 ， 仲 
裁 是 流水 进行 的 ， 使 总 线 带 宽 不 致 被 浪费 。 由 于 HIO 总 线 支持 多 个 不 同 的 事务 长 度 (ER 
要 求 每 个 事务 都 处 理 一 个 完整 的 高 速 缓存 块 的 数据 )， 因 此 事务 在 请 求 时 ， 要 表明 它们 的 长 
度 ， 件 裁 器 使 用 此 信息 来 保证 总 线 得 到 更 高 效 的 利用 。 接 到 较 窗 HIO 总 线 的 ASIC 比 直 接 接 
口 到 较 宽 的 系统 总 线 上 的 ASIC 相对 便宜 。 另 外 需要 接口 到 系统 总 线 的 公共 机 制 通过 这 种 方 
式 被 若干 ASIC 电路 共享 。 


个 性 
ASICs 










HIO 总 线 (320 MB/s) 


Datapath 


到 HIO 总 线 接口 
的 系统 总 线 





系统 地 址 总 线 


系统 数据 总 线 (1. 2 GBps) 


6-16 SGI Challenge PowerChannel-2 VO 子 系统 的 高 层 组 织 结构 。 每 个 70 板 提供 了 Powerpath-2 系 
统 总 线 和 内 部 的 具有 最 高 带宽 为 320 MBps 的 64 位 宽 的 HIO VO 总 线 的 接口 。 较 罕 的 HIO 
总 线 降低 了 与 它 接口 的 开销 ， 支 持 大 量 的 专门 ASIC， 它 相应 的 支持 标准 总 线 和 外 部 设备 


HIO 接口 芯片 可 以 请 求 对 DMA 的 读 / 写 ， 使 用 全 40 位 系统 总 线 传输 自 / 至 系统 内 存 的 任 
何 位 置 ， 使 用 系统 接口 中 的 映射 资源 提出 对 地 址 翻译 的 请 求 ， 要 求 中 断 处 理 器 或 响应 处 理 器 
的 VO (PIO) 读 。 系 统 总 线 提供 DMA 读 响 应 ， 对 LO 设备 提供 地 址 翻译 的 结果 ， 并 传送 到 
要 读 它 们 的 PIO. 

在 系统 的 其 余部 分 (处 理 器 板 和 主 内 存 板 ) 看 来 ， 在 IO 板 上 的 系统 总 线 接口 是 一 个 清 
晰 的 接口 ; 它 工作 起 来 就 像 一 个 处 理 器 板 。 因 而 ， 当 一 个 DMA 读 请 求 通过 系统 总 线 接口 到 
达 系 统 总 线 时 ， 它 就 变 成 了 一 个 Powerpath-2 读 ， 就 像 系统 总 线 可 能 做 的 一 样 。 类 似 地 ， 当 
一 个 完全 的 高 速 缓存 块 DMA 写 发 生 时 ， 它 在 总 线 上 变 成 了 一 个 特定 的 写 块 事务 ,使 所 有 处 
理 带 高 速 缓存 中 的 拷贝 都 变 得 无 效 (不 仅仅 更 新 内 存 )。 我 们 需要 一 个 特别 的 事务 来 进行 处 
理 ， 因 为 即使 此 块 在 一 个 处 理 器 高 速 缓存 中 是 脏 块 ,我们 也 不 想 在 这 种 情况 下 把 它 写 回 。 

为 了 支持 部 分 缓存 块 DMA 写 ， 必 须 小 心地 把 数据 一 致 地 合并 到 内 存 中 。 为 了 支持 这 些 
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部 分 块 DMA 写 ， 系 统 总 线 接口 包含 一 个 全 相 联 的 、 含 有 4 个 存储 块 的 高 速 缓 在 ， 来 侦 听 
Powerpath-2 系统 总 线 。 高 速 缓存 块 的 状态 只 有 两 种 : 作废 或 被 修改 。 刚 开始 发 出 部 分 块 
DMA 写 时 ， 此 块 被 放 进 这 个 特殊 的 缓存 ， 置 以 被 修改 状态 ， 并 使 所 有 处 理 器 高 速 缓存 中 的 
块 拷贝 都 变 得 无 效 。 以 后 的 部 分 块 DMA 写 如 果 命 中 此 缓存 ， 就 不 必 再 到 系统 总 线 ， 因 而 增 
强 了 系统 总 线 的 工作 效率 。 在 以 下 情况 ， 修 改 的 块 状态 将 置 为 作废 ， 并 进入 系统 总 线 : 1) 
有 任何 系统 总 线 事务 存 取 此 块 ; 2) 有 其 他 部 分 块 DMA 写 过 程 将 使 此 块 替换 出 这 个 缓存 ; 3) 
有 任何 HIO 总 线 读 事务 存 取 此 块 。 虽 然 块 DMA 读 也 可 能 会 使 用 这 4 块 高 速 缓存 ， 但 设计 者 
感到 部 分 块 DMA 读 比较 稀少 ， 从 优化 中 得 到 的 收益 很 小 。 

在 系统 总 线 接口 中 的 地 址 映射 RAM 为 /0 设备 提供 了 通常 的 地 址 翻译 来 访问 主 存 。 例 
如 ， 经 常 要 把 小 地 址 空间 (如 VME-24 或 VME-32) 映射 到 Powerpath-2 总 线 的 40 位 物理 地 址 
空间 。 有 两 种 映射 : 一 级 映射 和 二 级 映射 。 一 级 映射 仅仅 返回 地 址 映射 RAM 的 8 天 条 目 中 
的 一 条 ， 每 一 条 目 对 应 物理 内 存 中 的 2 MB。 在 二 级 映射 方案 中 ， 映 射 条 月 指向 主 存 的 页 表 。 
每 一 4 及 页 在 二 级 表 中 有 自己 的 表 目 ， 于 是 虚 页 能 被 正确 地 映射 到 物理 页 。 注 意 PIO 请 求 
(来 自 处 理 器 ) 到 IO 设备 有 一 个 相似 的 翻译 问题 ， 它 不 使 用 地 址 映射 RAM 而 直接 通过 专门 
的 ASIC 接口 芯片 来 处 理 。 

最 后 我 们 来 看 流 控 。 所 有 从 VO 接口 到 Powerpath-2 系统 总 线 的 请 求 都 是 隐 示 地 流 控 ， 即 
HIO 接口 如 果 没 有 给 响应 保留 缓冲 空间 ， 就 不 会 向 系统 总 线 发 出 读 请 求 。 类 似 地 ，HIO 仲裁 
器 不 会 把 HIO 总 线 交 给 请 求 者 ， 除 非 系统 接口 有 空间 来 接纳 事务 。 例 外 的 是 ，PIO 能 不 经 请 
求 地 从 处 理 器 到 达 VO 设备， 它们 需要 进行 显示 地 流 控 。 

在 Challenge 系统 中 使 用 显示 流 控 方案 目的 是 使 PIO 看 起 来 经 过 了 请 求 才 到 达 HIO HO 
ASIC。 在 复位 后 ，HIO 接口 芯片 (如 HIO-VME, HIO-HPPI) 使 用 特定 的 称 作 IncPIO 的 请 求 将 
它们 可 得 到 的 PIO 缓冲 空间 传 给 系统 总 线 接口 。 系 统 总 线 接口 为 每 一 个 HIO 设备 维护 一 个 独 
立 的 计数 器 。 每 次 当 一 个 PIO 被 传 到 一 个 特定 的 设备 时 ， 相 关 的 计数 减少 。 每 次 设备 重 试 一 
个 PIO， 它 就 发 男 一 个 IncPIO 请 求 来 增加 计数 器 。 如 果 系 统 总 线 接口 收 到 一 个 关于 设备 的 
BIO 请 求 却 没有 足够 的 可 利用 缓冲 空间 ， 它 就 会 在 系统 总 线 上 拒绝 (NACK) 这 个 请 求 ， 于 
是 这 个 请 求 就 必须 在 以 后 重新 提出 。 


6.5.4 SGI Challenge 内 存 系 统 性 能 


各 种 级 别 的 SGI Challenge 内 存 系统 的 存 取 时 间 能 用 第 4 章 介绍 的 简易 的 读 微 基准 测试 程 
序 来 得 到 。 微 基准 测试 程序 方案 测试 出 在 一 特定 的 跨 距 内 ， 读 给 定 大 小 的 一 组 元 素 花费 的 平 
均 存 取 时 间 。 图 6-17 给 出 了 在 一 定 范围 的 大 小 和 跨 距 内 读 操 作 的 时 间 。 每 条 曲线 给 出 了 对 
一 定 的 大 小 受 跨 距 影响 的 平均 时 间 。 小 于 32 KB 的 数组 完全 适用 于 一 级 缓存 。 二 级 缓存 的 访 
问 大 约 用 75 ns, Æ 16 字 节 跨 距 处 的 拐点 表明 二 级 缓存 和 一 级 缓存 之 间 的 转变 大 小 是 16 字 
节 。 第 二 个 凸 起 部 分 给 出 了 TLB 扑 空 的 额外 代价 大 约 是 140 ns， 并 揭示 了 页 的 大 小 大 约 是 
8 KB。( 你 能 想 出 为 什么 随 着 跨 距 的 进一步 增 大 每 次 扑 空 的 时 间 反 而 回落 了 呢 ?) 从 2 MB 数 
组 开始 ， 在 1 MB 的 二 级 缓存 中 发 生 访问 扑 空 ， 我 们 看 到 在 二 级 缓存 控制 器 、 Powerpath 总 线 
控制 器 和 DRAM 存 取 的 共同 作用 下 ， 一 次 访问 时 间 大 约 为 1 150 ns。 与 前 面 的 讨论 相符 ， 实 
现 从 请 求 到 回应 共 13 个 周期 的 最 小 的 总 线 协议 使 得 这 个 时 间 略 低 于 300 nso TLB 扑 空 在 
1 150 ns 中 增加 了 大 约 200 ns。 一 个 简易 的 乒乓 微 基准 测试 程序 (在 此 方案 中 ， 有 一 对 节点 
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都 受 某 一 标记 控制 而 不 断 运 转 ， 当 轮 到 自己 时 ， 就 设置 标记 把 信号 发 给 对 方 ) 给 出 了 6.2 ps 
的 往返 时 间 。 


1, 500 poorer reer bss 





跨度 ( 字 节 ) 


图 6-17 SGI Challenge 读 微 基准 测试 程序 的 结果 。 每 条 曲线 都 针对 图 表 符号 中 所 示 的 一 组 
有 相同 尺寸 的 元 素 。 数 组 尺寸 从 32 K 到 256 K 的 数据 点 非常 接近 ， 很 不 容易 区 分 


6.5.5 Sun Gigaplane 系统 总 线 


Sun Gigaplane 也 是 非 多 选 的 事务 拆 分 型 总 线 ， 有 256 位 数据 线 ，41 位 物理 地 址 线 ， 但 采 
用 83.5 MHz 的 时 钟 频率 。 它 是 一 种 中 心平 面 设计 ， 一 条 总 线 贯 穿 和 接口 汇集 ， 人 允许 双 面 插 
板 ， 而 不 是 单 面 的 底板 。 总 线 全 长 18 英寸 ， 故 每 一 边 能 插入 8 个 板 ， 且 在 每 两 个 板 间 留 有 
两 英寸 的 散热 空间 ， 连 接口 间 有 1 英寸 的 空间 。 它 与 Powerpath-2 总 线 最 大 的 不 同 在 于 ， 它 支 
持 多 达 112 个 等 待 处 理 的 事务 。 每 个 板 高 达 7 个 ， 因 此 它 是 为 能 支持 多 个 等 待 事务 的 设备 而 
设计 的 ， 倒 如 免 锁 定 的 高 速 缓存 。 这 种 电气 上 和 机 制 上 的 设计 允许 处 理 模块 和 VO 模块 的 热 
TER 

总 线 共 包括 388 个 信号; 256 个 数据 、32 个 校 验 码 、43 个 地 址 CAA BRR) 、7 个 
了 DD 标记 、18 个 仲裁 以 及 许多 的 配置 信号。 电气 上 的 设计 实现 了 数据 传送 间 没 有 死 循 环 的 回 
转 。 它 把 重点 放 在 了 实现 尽 可 能 少 的 操作 延迟 上 (如 图 6-18 所 示 )， 它 的 协议 与 SGI Chal- 
lenge 有 很 大 的 不 同 。 一 个 著名 的 基于 冲突 的 推测 仲裁 技术 被 用 于 减少 总 线 仲 裁 的 开销 。 当 
请 求 者 对 地 址 总 线 进行 仲裁 时 ， 如 果 总 线 自 从 前 一 个 周期 后 尚未 被 调度 使 用 ， 那 么 在 仲裁 周 
期 ， 它 就 试探 性 地 把 自己 的 请 求 驱动 到 地 址 总 线 上 。 如 果 在 那个 周期 没有 其 他 的 请 求 者 ， 它 
就 赢得 了 仲裁 并 将 地 址 送出 去 ， 于 是 它 继 续 余 下 的 事务 。 如 果 发 生 了 请 求 冲 突 ， 赢 得 仲裁 的 
请 求 者 只 简单 地 把 地 址 在 下 个 周期 重新 驱动 一 遍 ， 和 常规 的 仲裁 一 样 。 
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图 6-18 Sun Gigaplane 对 采用 快速 地 址 仲裁 的 BusRd 的 信号 时 序 。 正 如 所 示 ， 在 流水 线 时 隙 上 ， 有 两 个 
BusRd 事务 ， 一 个 不 带 阴影 ， 另 一 个 有 阴影 。 水 平 粗 线 显示 了 总 线 的 不 同 组 件 ， 垂直 点 线 划 
分 了 周期 。 总 线 仲裁 组 件 下 的 “A” 和 “D” 表 明了 地 址 仲裁 周期 和 数据 仲裁 周期 。 箭 头 显 示 
了 第 一 个 BusRd 事务 的 路 径 。 板 1 初始 化 了 一 个 采用 快速 仲裁 的 读 事 务 (地 址 在 同一 个 周期 
被 成 功 地 驱动 )， 然 后 被 主板 2 响应 。 侦 听 结 果 表 明 没 有 高 速 缓存 容 纳 此 块 ， 于 是 主板 把 结果 
驱动 到 数据 线 上 。 对 于 第 二 个 BusRd 事务 ， 板 4 和 板 5 在 地 址 总 线 仲裁 期 间 发 生 冲 窒 ， 板 4 获 
胜 并 初始 化 了 一 个 读 事务 。 主 板 6 对 数据 总 线 进行 仲裁 ， 由 于 侦 听 结果 表明 有 高 速 缓存 含有 
此 块 ， 故 取消 了 响应 。 最 后 板 7 上 的 此 高 速 缓存 以 数据 做 出 响应 。 板 5 的 重 试 事务 没有 显示 


有 关 请 求 的 7 位 标记 在 紧 跟 着 “ 写 址 ”周期 后 的 周期 内 被 放 到 地 址 总 线 上 (如 图 6-18 
所 示 )。 侦 听 的 状态 与 地 址 阶段 相 联 ， 与 数据 阶段 无 关 。 在 “ 写 址 ”周期 后 ， 过 了 5 个 周期 ， 
所 有 的 板 都 在 状态 总 线 上 声明 自己 的 侦 听 信号 (共享 、 被 拥有 、 被 映射 、 忽 略 )。 在 此 期 间 ， 
响应 内 存 地 址 (主板) 的 板 会 在 “ 写 址 ”周期 3 个 周期 后 ， 侦 听 结 果 出 来 之 前 ， 请 求 数据 总 
线 。DRAM 访问 也 能 被 试探 性 地 启动 。 当 主板 得 到 仲裁 后 ， 它 必须 在 两 个 周期 后 给 出 标记 总 
线 的 电 平 ， 告 知 所 有 设备 处 理 数据 正在 到 来 。 在 驱动 标记 3 个 周期 后 ， 即 驱动 数据 的 前 两 个 
周期 ， 主 板 驱动 了 一 个 状态 信号 ， 用 于 表明 如 果 某 个 高 速 缓存 拥有 这 个 块 〈 在 侦 听 状态 时 得 
到 )， 数 据 传送 就 会 被 取消 。 拥 有 者 通过 仲裁 数据 总 线 把 数据 放 到 总 线 上 ， 驱 动 标记 ， 启 动 
数据 。 图 6-18 给 出 了 另 一 个 读 过 程 (灰色 ) ， 它 在 仲裁 时 遇 到 冲突 ， 于 是 地 址 由 常规 的 槽 提 
供 。 对 过 程 的 侦 听 表明 拥有 者 是 一 个 高 速 缓 存 ， 故 主板 取消 了 数据 传送 。 然 后 ， 这 个 变速 组 
存 仲裁 数据 总 线 ， 驱 动 相 应 的 数据 。 

像 SGI Challenge 一 样 ， 出 现在 地 址 总 线 上 的 BusRdX 请 求 发 出 作废 命令 ， 此 命令 被 高 速 
缓存 子 系统 以 先进 先 出 的 方式 进行 处 理 。 这 样 ， 也 不 必要 求 对 完成 “作废 ”工作 的 显示 的 认 
可 。 为 了 保持 连续 的 一 致 性 ， 仍 有 必要 在 允许 写 处 理 器 在 写 之 后 继续 从 事 内 存 操作 之 前 获得 
对 地 址 总 线 的 仲裁 


6.5.6 Sun 处 理 器 和 内 存 系统 


如 图 6-19 所 示 ， 在 Sun Enterprise 中 ， 每 个 处 理 板 有 两 个 处 理 器 〈 每 个 处 理 器 有 一 个 外 
部 的 二 级 缓存 ) 和 两 个 内 存 模块 (通过 交叉 开关 相连 )。UltraSpare 内 的 数据 线 被 缓冲 来 驱动 
称 为 UPA (通用 端口 体系 结构 ) 的 内 部 总 线 (具有 1.3 GBps 的 内 部 带宽 )。 到 内 存 的 通路 很 


O Spar VO 规范 弱化 了 同一 性 模型 ， 以 使 处 理 器 能 使 用 写 缓存 ， 我 们 将 在 第 9 章 更 深入 地 讨论 这 个 问题 。 
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宽 ， 读 一 个 完全 的 64 字 节 的 高 速 缓存 块 只 要 一 个 内 存 周期 或 两 个 总 线 周 期 。 地 址 控制 器 使 
UPA 协议 和 Gigaplane 协议 相 匹配 ， 并 实行 高 速 缓存 一 致 性 协议 ， 提 供 缓冲 ， 跟 踪 潜在 的 大 
量 的 待 完成 的 事务 。 它 为 二 级 缓存 保有 一 组 备份 的 标记 ， 称 为 D- 标 记 。 为 了 保证 高 速 缓存 
一 致 性 ， 即 使 是 从 处 理 器 到 本 地 内 存 模块 的 访问 也 要 经 过 地 址 控制 器 。 


内 存 (16 72 比 特 SIMMS) 





Ui traSpare 











D -标记 H 。 “地址 控制 器 数据 控制 器 (交叉 ) 


控制 地 址 
Gigap lane 连接 器 








光纤 通道 (2) SBUS 村 


图 6-19 Sun Enterprise 处 理 板 和 1/0 板 的 组 织 结构 。 处 理 板 (E) 包括 两 个 UltraSparc 模块 〈 带 有 在 内 部 总 
线 上 的 二 级 缓存 ) 和 两 个 宽 内 存 模块 (通过 两 个 ASIC 与 系统 总 线 接口 )。 地 址 控制 器 使 两 个 总 线 
协议 相 匹 配 ， 并 实现 了 高 速 缓存 一 致 性 协议 。 数 据 控制 器 本 质 上 就 是 一 个 交叉 开关 。UO 板 
(F) 使 用 两 个 相同 的 ASIC 与 两 个 IO 控制 器 接口 。SysIO ASIC 看 起 来 就 像 一 个 遵从 一 致 性 协议 
的 单 块 高 速 缓存 。 另 一 方面 ， 它 们 支持 独立 的 VO 总线 ， 并 与 FiberChannel、Fthemer、SCSI 接口 

虽然 UltraSpare 在 二 级 缓存 里 实现 了 5 态 的 MOESI 协议 ，D- 标 记 只 使 用 了 3 个 状态 : 被 

427 拥有 有、 共享、 作废 。 它 们 基本 上 综合 了 在 Gigaplane 级 上 一 致 处 理 的 状态 。 特 别 地 ， 地 址 控 

428 | ” 制 器 需要 知道 二 级 缓存 是 否 有 一 个 块 的 拷贝 以 及 此 块 是 否 是 一 个 排他 的 拷贝 。 它 不 必 知 道 这 


个 块 是 否 是 干净 的 或 脏 的 。 例 如 ， 在 进行 BusRd 时 ， 如 果 存 储 块 在 二 级 缓存 中 的 状态 是 如 下 
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三 个 之 一 : 已 修改 、 被 拥有 (最 近 一 次 修改 后 已 被 发 送 过 ) 、 排 他 的 〈 不 能 共享 读 和 不 能 修 
改 )， 块 需要 被 送 到 总 线 上 ; 因而 ，D- 标 记 代 表 的 仅仅 是 被 拥有 状态 。 这 能 使 当 UltraSpare 把 
块 由 排他 的 改 为 已 修改 时 ， 不 用 告知 地 址 控制 器 。 当 发 生 由 作废 、 被 拥有 、 共 享 到 已 修改 的 
状态 转变 时 ， 需 要 告知 Ulrasparc， 以 便 它 初始 化 一 个 总 线 事务 。 


6.5.7 Sun Il/ O 子 系统 


一 个 Enterprise IO 板 与 处 理 板 使 用 一 样 的 总 线 接口 ASIC,， 但 内 部 总 线 只 有 一 半 宽 ,并 
且 没 有 内 存 通 路 。 在 外 看 来 ，LO 板 就 像 处 理 板 一 样 只 做 高 速 缓存 块 级 的 事务 ， 为 了 简化 主 
系统 总 线 的 设计 。SysIO ASIC 实现 了 一 个 单 块 高 速 缓存 代表 10 设备 ， 并 遵循 一 致 性 协议 。 
在 内 支持 两 个 独立 的 64 位 25 MHz 的 SBUS。 其 中 一 个 支持 两 个 专用 的 FiberChannel 模块 ， 它 
提供 大 磁盘 存储 阵列 的 元 余 的 、 高 带宽 的 互 连 。 另 一 个 支持 专用 以 太 网 和 快速 的 宽 SCSI 连 
接 。 另 外 ，3 个 SBUS 接口 卡 能 被 插入 这 两 条 总 线 以 支持 仲裁 外 设 ， 包 括 622 MBps ATM 接 
口 。UVO 带宽、 与 外 设 的 连接 、1/0 子 系统 的 开销 决定 了 VO 卡 的 数目 。 


6.5.8 Sun Enterprise 内 存 系统 性 能 
图 6-20 给 出 了 用 读 微 基准 测试 得 到 的 SunEnterprise 的 各 种 等 级 的 存 取 时 间 。 小 于 或 等 
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图 6-20 Sun Enterprise 在 读 操 作 微 基准 程序 上 的 测试 结果 。 每 条 曲线 对 应 不 同 的 规模 ， 具 体 见 图 例 所 示 
于 16 KB 的 数组 完全 适用 于 一 级 缓存 。 二 级 缓存 的 存 取 时 间 大 致 是 40 ns， 拐点 表明 二 级 组 
存 和 一 级 缓存 之 间 的 转变 大 小 是 16 字 节 。 对 于 存 取 二 级 缓存 未 中 的 1 MB 的 数组 ， 我 们 看 到 
由 于 二 级 缓存 控制 器 ， 总 线 协 议和 DRAM 存 取 共同 作用 的 结果 ， 存 取 时 间 大 约 为 300 ns。 
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83.5 MHz FE 11 个 周期 的 最 小 的 总 线 协议 占用 了 这 自 时 间 内 的 130 ns。 由 于 机 器 有 软件 
TLB 管理 器 ， 所 以 TLB 未 中 增加 了 大 约 340 ns 未 中 的 代价 。 一 个 简易 的 乒乓 微 基准 测试 (在 
此 方案 中 ， 有 一 对 节点 ， 都 受 某 一 标记 控制 而 不 断 运 转 ， 当 轮 到 自己 时 ， 就 设 转 标记 发 给 对 
方 信号 ) 给 出 了 1.7 ps 的 往返 时 间 ， 相 当 于 访问 内 存 5 次 。 


6.5.9 应 用 程序 性 能 


现在 我 们 已 对 机 器 和 它们 的 微 基准 测试 性 能 有 了 一 定 的 理解 ， 接 下 来 检验 一 下 对 于 并 行 
应 用 程序 性 能 的 提高 。 本 书 不 说 明 商 用 机 器 绝对 的 应 用 性 能 ， 而 着 重 在 并 行 性 带 来 的 性 能 提 
高 。 以 SGI Challenge 为 例 解 ， 让 我 们 先 看 看 应 用 程序 的 加 速 比 ， 接 着 是 性 能 随 规模 的 扩 放 
情况 。 

1. 应 用 程序 的 加 速 比 

图 6-21 给 出 了 6 个 并 行程 序 (在 两 组 不 同 数据 规模 上 ) 得 到 的 加 速 比 。 我 们 可 以 看 到 ， 
除了 基数 排序 内 核 外 ， 多 数 程序 的 加 速 比 都 不 错 。 通 过 分 析 排 序 执行 时 间 的 细节 ， 能 够 发 现 
绝 大 部 分 时 间 都 花 在 等 待 数据 访问 上 。 在 排序 算法 的 交换 阶段 ， 数 据 流 量 和 一 致 性 流量 都 很 
大 ， 使 共享 总 线 不 堪 重 负 ， 所 导致 的 访问 冲突 极 大 地 破坏 了 性 能 。 冲 突 在 数据 访问 时 间 内 导 
致 了 严重 的 负载 不 平衡 ， 从 而 时 间 花 在 了 等 待 全 局 顶 障 上 ， 即 使 繁忙 时 间 被 很 好 地 平衡 。 不 
幸 的 是 ， 增 加 问题 的 规模 不 能 对 冲突 有 很 大 地 减轻 ， 由 于 通讯 和 计算 的 比 以 及 所 产生 的 带宽 
要 求 ， 使 得 交换 问题 独立 于 数据 规模 的 大 小 ( 见 第 4 章 4.4.1 节 )。 图 示 的 基数 为 256， 它 要 
得 到 最 好 的 性 能 与 两 个 问题 大 小 因素 有 关 ， 不 仅仅 是 处 理 器 的 数目 。Barnes-Hut、 Raytrace 和 
Radiosity 即使 在 相对 小 的 输入 规模 情况 下 也 加 速 得 非常 好 。LU 也 是 如 此 ， 它 在 16 个 处 理 器 
下 对 较 小 规格 问题 的 瓶颈 主要 是 由 于 和 拖 阵 因 子 分 解 过 程 造成 的 负载 不 平衡 。 最 后 ，0cean 的 
瓶颈 既是 由 高 的 通讯 和 计算 比 ， 也 由 一 些 分 区 具有 较 少 的 相 邻 者 造成 的 不 平衡 产生 的 ， 两 个 
问题 可 以 由 运行 大 的 数据 集 来 减轻 。 




















—o LU:I=1,024 —® Barnes-Hut:16-K particles 
= LU: 2, 048 ~ Barnes-Hut:512-K particles 
~ Raytrace:balls =t- = Ocean: 2-130 

一 只 一 Raytrace:car -t Ocean: r=}, 024 

"= Radiosity:room 一 条 一 Radix: 1-M keys 

~@—~ Radiosity: argelroom —@— Radix:4-M keys 
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图 6-21 SGI Challenge 上 6 个 并 行 应 用 程序 的 加 速 比 。 成 组 的 LU 因子 分 解 的 块 尺寸 是 32 x 32 
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2. 性 能 随 规模 的 扩 放 

现在 让 我 们 考察 一 下 规模 扩 放 对 一 些 应 用 程序 的 影响 。 根 据 第 4 章 的 讨论 ， 我 们 看 看 不 
闻 的 规模 扩 放 模型 下 得 到 的 加 速 比 ， 以 及 完成 的 工作 和 使 用 的 数据 集 大 小 的 变化 。 图 6-22 
给 出 了 对 于 Bames-Hut 和 Ocean 应 用 程序 的 结果 。 其 中 Naive TC (时 间 受 限 ) 或 Naive MC 
(内 存 受 限 ) 扩 放 指 的 是 仅仅 改变 决定 数据 集 大 小 的 参数 (星体 或 网 格 点 的 数目 n), ， 而 不 改 
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图 6-22 SGI Challenge 上 Bames-Hut (Æ) 和 Ocean (47) 应 用 程序 的 缩放 结果 。 图 给 出 了 在 不 同 的 扩 放 
模型 下 完成 的 工作 、 数 据 集 的 大 小 (测量 主体 或 网 格 点 的 数目 )、 加 速 比 。PC、TC 和 MC 分 
别 指 的 是 问题 约束 、 时 间 约 束 、 内 存 约束 的 缩放 。 对 Bames-Hut 来 说 ， 问 题 尺 寸 的 基准 是 16 
KK 星体 ; 对 Ocean 来 说 是 130 x 130 网 格 。 最 上 的 一 组 图 显示 出 对 于 这 两 个 应 用 程序 在 Realistic 
MC 缩放 下 需要 解决 的 工作 都 增长 的 非常 快 。 中 间 的 一 组 图 显示 出 在 MC 下 或 Naive TC 下 ， 数 
据 集 大 小 的 增长 比 在 realistic TC 下 增长 的 更 快 。 缩 放 模 型 在 加 速 比方 面 对 于 Ocean 的 影响 比 
Barnes-Hut 大 得 多 , 主要 是 因为 在 Ocean 里 通信 和 计算 比 更 强烈 地 依靠 数据 集 大 小 和 处 理 器 数目 
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变 其 他 应 用 程序 参数 〈 精 确 性 或 时 段 数 目 )。 很 明显 ， 在 Realistic MC 扩 放 下 ， 对 于 这 两 个 应 
用 程序 要 完成 的 工作 都 比 线性 地 改变 处 理 器 的 数目 快 得 多 ， 于 是 并 行 执 行 时 间 增 长 得 非常 
TR. 能 在 TC 扩 放 下 被 模拟 的 星体 或 网 格 点 的 数目 比 在 MC 下 增长 慢 得 多 ， 也 比 Naive TC H 
放下 的 增长 慢 得 多 ， 它 仅仅 只 是 一 个 应 用 程序 参数 的 改变 。 扩 放 其 他 应 用 程序 参数 使 得 完成 
的 工作 和 执行 时 间 增 长 ， 使 得 增加 n 更 加 困难 。 

在 不 同 的 扩 放 模型 下 加 速 比 的 测量 和 第 4 章 描述 的 一 样 。 现 考虑 Bames-Hut 星系 的 模 
拟 ， 它 的 加 速 比 对 于 各 种 扩 放 模型 下 的 机 器 尺寸 都 很 好 。 通 过 检验 主要 的 性 能 因素 可 以 解释 
差别 。 在 引力 计算 方面 的 通信 和 计算 比 主 要 依靠 星体 的 数目 。 另 外 一 个 影响 性 能 的 重要 因素 
为 两 个 量 的 比 ， 即 在 引力 计算 阶段 的 工作 量 和 在 建立 计算 树 阶段 的 工作 量 的 比 ， 前 者 容易 通 
过 并 行 得 到 好 的 加 速 比 ， 后 者 难以 并 行 。 这 个 比率 倾向 于 在 作用 力 计算 方面 有 更 高 的 精度 ， 
即 更 小 的 9。 然 而 ,更 小 的 9( 从 更 小 地 程度 上 说 ,是 更 大 的 n) 意味 着 增长 每 个 处 理 器 工 
作 集 的 尺寸 (Singh, Hennessy, and Gupta 1993)。 重 要 的 工作 集 即 使 在 扩 放 下 也 可 能 继续 适用 
大 的 二 级 缓存 ， 但 是 在 一 个 单 处 理 器 上 上 ， 改 变 9 的 扩 放 后 的 问题 ， 相 对 于 基准 问题 而 言 ， 
也 许 会 降低 一 级 缓存 的 性 能 。 这 些 因素 就 可 以 解释 为 什么 Naive TC 比 Realistic TC 加 速 得 更 
好 : 工作 集 的 行为 越 好 ， 通 信和 计算 比 就 越 好 (因为 当 9 和 AL 不 变 时 ，n 增长 得 更 快 )。 

Ocean 的 加 速 比 在 不 同 模型 下 很 不 相同 。 在 这 儿 ， 主 要 的 控制 因素 还 是 通信 和 计算 比 、 
工作 集 大 小 、 在 不 同情 况 下 的 时 间 花 费 等 。 然 而 ， 所 有 的 效果 更 强烈 地 依靠 网 格 的 尺寸 〈 与 
处 理 器 数目 有 关 )。 在 MC 扩 放 下 ， 通 信和 计算 比 不 随 使 用 的 处 理 器 数目 而 变化 ， 于 是 我 们 
希望 得 到 更 好 的 加 速 比 。 但 随 着 处 理 器 的 变化 ， 出 现 了 两 个 效果 。 第 一 ， 随 着 处 理 器 的 网 格 
划分 在 地 址 空间 上 的 距离 增 大 ， 跨 网 格 的 冲突 扑 空 增加 。 第 二 ， 在 求解 器 中 ,更 多 的 时 间 花 
在 多 重 网 格 的 较 高 层次 上 ， 降 低 了 并 行 性 能 。 当 精确 性 和 时 段 间隔 被 细 化 后 ， 后 一 个 影响 被 
减轻 了 (至少 有 益 于 并 行 加 速 比 )， 于 是 实际 的 MC 比 简单 MC 稍 好 一 点 。 在 简单 TC 下 ， 网 
格 尺 寸 的 增长 速度 不 足以 引起 主要 的 冲突 问题 ， 但 足以 使 通信 和 和 计算 比 不 发 生 明 显 的 增长 ， 
故 加 速 比 挺 好 。 实 际 的 TC 使 网 格 尺寸 增长 较 慢 ， 从 而 加 大 了 通信 和 计算 比 ， 导 致 较 低 的 加 
速 比 。 很 明显 ， 许 多 效果 在 决定 扩 放 下 的 并 行 性 能 时 扮演 了 重要 的 角色 ， 并 且 对 某 个 应 用 程 
序 最 合适 的 扩 放 模型 的 选择 影响 对 机 器 的 评估 。 


6.6 高 速 缓存 一 致 性 的 扩充 


在 这 两 章 里 描述 的 基于 侦 听 获 得 缓存 一 致 性 的 技术 可 以 在 许多 方向 上 扩充 。 这 一 节 考 察 
儿 个 重要 的 情况 : 利用 共享 缓存 的 向 下 扩展 、 带 有 虚拟 索引 缓存 和 TLB 的 功能 性 扩 放 和 利 
用 非 总 线 互 连 的 向 上 扩 放 。 


6.6.1 共享 缓存 的 设计 











将 处 理 器 组 织 在 一 起 ， 让 它们 共享 存储 层次 结构 的 一 个 层次 〈 例 如 一 级 或 二 级 缓存 )， 
对 于 共享 存储 多 处 理 器 来 说 是 一 个 有 潜在 吸引 力 的 考虑 。 尤 其 是 考虑 到 封装 时 ， 若 能 将 多 个 
处 理 器 放 在 同一 个 芯片 上 ， 这 种 想法 会 更 有 价值 。 和 处 理 器 在 各 自 存储 层次 中 有 自己 的 缓存 
相 比 ， 将 处 理 器 集中 起 来 有 多 种 潜在 的 好 处 。 这 些 好 处 ， 如 同 后 面 将 要 讨论 的 岗 病 一 样 ， 当 
共享 任何 一 层 存储 时 都 会 体现 出 来 ， 但 在 处 理 器 间 共 享 的 一 级 缓存 的 情形 表现 得 最 突出 .在 
一 层 中 的 一 组 处 理 器 间 共 享 一 个 高 速 缓存 的 好 处 归纳 为 如 下 几 点 ; 
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。 它 消除 了 在 这 一 级 做 缓存 一 致 性 协议 的 必要 。 特 别 是 ， 如 果 一 级 缓存 由 所 有 处 理 器 
HE, 那么 就 没有 多 份 缓存 块 的 存在 ， 从 而 也 就 根本 没有 了 一 致 性 问题 。 

它 降 低 了 处 理 器 组 内 部 通信 的 时 延 。 处 理 器 之 间 通 信 的 时 延 和 它们 通信 时 相遇 在 存 
储 器 层次 的 娜 一 层 有 关 。 当 共享 一 级 缓存 时 ， 通 信 时 延 可 能 只 要 2 ~ 10 个 处 理 器 时 
钟 周期 ， 而 在 主 存 相 遇 的 情形 ， 时 延 要 大 许多 倍 〈 见 关于 Challenge 和 Enterprise 的 案 
例 分 析 )。 降 低 了 时 延 就 可 能 使 不 同 处 理 器 上 执行 的 任务 能 在 更 细 的 粒度 上 共享 数据 。 
一 旦 处 理 器 在 访问 一 个 数据 时 发 生 扑 空 ， 而 后 将 它 带 到 共享 缓存 来 ， 在 同一 组 中 的 
其 他 处 理 髓 当 需 要 该 数据 时 可 能 会 发 现 它 已 经 在 缓存 了 ， 于 是 不 会 形成 新 的 扑 空 。 
这 称 为 跨 处 理 器 的 数据 预 取 。 对 于 私有 缓存 来 说 ， 每 个 处 理 器 会 引发 分 别 的 扑 空 。 
扑 空 的 数量 减少 了 ， 也 就 降低 了 对 下 级 存储 和 互 连 带 宽 的 要 求 。 

。 它 允 许 更 有 效 地 利用 较 大 的 缓存 块 。 即 使 一 个 组 中 的 不 同 处 理 器 访问 一 个 缓存 块 的 
不 同 字 ， 空 间 局 部 性 也 被 开发 出 来 。 除 此 以 外 ， 由 于 在 这 一 层次 没有 一 致 性 协议 ， 
也 就 没有 了 伪 共 享 问题 。 例 如 ， 考 虑 两 个 处 理 器 P| P, 相继 对 一 个 大 数组 的 各 个 元 
素 依次 交 蔡 进行 写 操作 ， 考 虑 一 级 共享 缓存 和 私有 一 级 缓存 的 差别 。 

在 一 个 组 中 的 工作 集 (代码 或 数据 ) 可 能 重 赫 很 多 ， 如 果 每 个 共享 缓存 都 要 保持 其 
处 理 器 的 整个 工作 集 ， 这 就 允许 共享 缓存 的 大 小 比 私有 缓存 之 和 小 。 缓 存 容量 的 减 
小 对 单 世 片 的 多 处 理 器 是 特别 有 意义 的 ， 因 为 在 这 样 的 场合 硅 面 积 是 一 个 重要 的 限制 。 


以 为 组 中 的 其 他 处 理 器 服务 。 

成 组 的 做 法 和 层次 封装 技术 适 相应 得 很 好 (机 柜 ， 板 ， 多 芯片 模块 和 芯片 )， 且 使 我 们 
能 够 有 效 地 利用 新 出 现 的 封装 技术 来 获得 更 高 的 计算 密度 (每 单元 面积 的 计算 能 力 )。 
共享 一 级 缓存 时 ， 处 理 器 如 图 6-23 那 样 通 过 一 个 交换 机 连接 到 一 个 共享 缓存 上 。 这 个 交 


图 623 多 处 理 器 共享 一 级 缓存 的 一 般 性 结构 。 
互 连 设置 在 处 理 器 和 一 级 缓存 之 间 。 在 
这 种 设计 中 ， 共 享 的 缓存 直接 由 主 存 支 
Fe, 缓存 和 主 存 都 可 以 分 别 交叉 来 提供 
高 带宽 。 当 然 ， 由 于 共享 缓存 或 交换 机 带 
宽 的 限制 ， 这 种 设计 只 适合 于 较 少 的 处 理 
器 数 。 另 外 较 大 的 交换 机 会 有 较 大 的 时 延 


换 机 可 能 是 一 个 总 线 ， 但 更 可 能 是 一 个 交叉 开关 ， 让 从 不 同 处 理 器 来 的 缓存 访问 能 够 并 行 处 
理 。 类 似 地 ， 为 了 支持 多 处 理 器 带 来 的 带宽 要 求 ， 缓 存 和 主 存 都 按 交叉 方案 组 织 。 这 种 共享 
缓存 系统 的 一 个 早期 例子 是 设计 于 20 世纪 80 年 代 初期 的 Alliant FX-8 机 。 该 系统 可 以 最 多 含 
有 8 个 特定 的 处 理 器 ， 每 个 处 理 器 是 68020 指令 集 的 一 个 流水 实现 ， 并 增强 有 向 量 指令 ,时 
钟 周 期 170 ns。 所 有 8 个 处 理 器 用 一 个 交叉 开关 连接 到 一 个 512 KK 的 4 路 交叉 缓存 。 这 个 组 





它 提高 了 缓存 硬件 的 利用 率 。 共 享 缓存 不 会 因为 一 个 处 理 器 停滞 就 闲 起 来 ， 而 是 可 . 
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存 的 块 为 32 字 节 ， 回 写 型 ， 直 接 映像 ， 免 锁定 ， 人 允许 每 个 处 理 器 有 两 个 待 完成 扑 空 。 缓 存 
到 处 理 器 带宽 是 每 指令 周期 8 个 64 位 的 字 。 

早期 还 有 一 种 共享 缓存 的 不 同 用 法 ， 出 现在 Encore Multimax 中 ， 和 FX-8 是 同时 代 的 产 
品 。Multimax 是 一 种 侦 听 缓存 一 致 性 多 处 理 嚣 ， 但 每 个 缓存 支持 两 个 处 理 器 (在 一 对 处 理 器 
之 间 不 需要 一 致 性 )。 当 时 Encore 的 动机 是 要 降低 侦 听 硬件 的 费用 ， 努 力 在 非常 慢 的 多 CPI 
的 处 理 器 条 件 下 提高 缓存 的 利用 率 。 

当前 ， 人 们 在 单 片 多 处 理 器 的 背景 下 研究 一 级 缓存 的 共享 问题 ，4 ~ 8 个 处 理 器 共享 一 
个 片 载 一 级 缓存 。 这 样 的 系统 本 身 就 是 一 个 多 处 理 器 ， 也 可 以 用 作 更 大 系统 的 基本 模块 ， 这 
样 的 大 系统 要 在 单 片 共享 缓存 组 之 间 维 持 一 致 性 。 随 着 工艺 的 进步 ， 一 个 芯片 上 的 三 极 管 数 
以 数 干 万 或 亿 计 ， 这 种 方式 越 来 越 具 有 吸引 力 。 由 于 在 一 个 芯片 内 的 处 理 器 之 间 通 信和 同步 
开销 是 相当 低 的 ， 用 这 样 的 芯片 做 成 的 工作 站 将 能 够 对 细 粒 度 或 粗 粒度 并 行 性 都 给 出 很 高 的 
性 能 。 问 题 是 和 用 更 多 的 三 极 管 做 出 更 复杂 的 处 理 器 相 比 ， 这 种 做 法 是 否 更 加 有 效 。 

不 斥 人 意 的 是 ， 共 享 缓存 也 有 若干 弱点 ， 带 来 若干 挑战 : 
共享 缓存 需要 满足 来 自 多 个 处 理 器 的 带宽 要 求 ， 这 限制 了 组 的 大 小 。 对 一 级 缓存 来 
说 这 个 问题 特别 突出 ， 因 此 只 可 能 有 很 少 的 处 理 器 。 如 何 能 提供 所 需 的 带宽 是 单 片 
多 处 理 器 系统 设计 中 最 大 的 挑战 。 
由 于 互 连 的 关系 ,对 共享 缓存 的 命中 时 延 通常 要 高 于 私有 缓存 。 对 共享 一 级 缓存 来 
说 ， 在 处 理 器 和 缓存 之 间 放 一 个 交换 机 意味 着 机 器 周期 拖 长 ， 或 者 在 处 理 器 流水 线 
中 装 入 指令 中 要 增加 额外 的 延迟 时 辽 。 前 者 造成 的 速度 慢 是 显然 的 。 虽 然 编译 器 有 
可 能 在 装 人 延迟 时 隙 中 调度 一 些 不 相关 的 指令 ， 成 功 与 否 取决 于 具体 的 应 用 程序 。 
特别 是 对 于 那些 没有 许多 指令 级 并 行 性 的 程序 ， 减 速 是 不 可 避免 的 。 共 享 缓存 引起 
的 竞争 使 本 已 增加 的 命中 时 延 更 加 严重 ， 相 应 地 ， 扑 空 时 延 也 会 由 于 共享 增加 。 
鉴于 前 面 的 原因 ， 设 计 一 个 有 效 的 共享 缓存 要 比 设计 私有 缓存 复杂 许多 。 
虽然 一 个 共享 的 缓存 不 需要 如 相应 私有 缓存 之 和 那么 大 ， 但 和 单个 私有 缓存 相 比 ， 
它 仍 然 要 大 得 多 ， 因 此 就 会 慢 得 多 。 对 一 级 缓存 来 说 ， 这 就 可 能 会 加 长 机 器 时 钟 周 
期 ， 或 者 要 多 个 处 理 器 周期 才能 完成 缓存 访问 。 
BTR (或 者 是 建设 性 干扰 ) 的 反面 是 共享 缓存 的 性 能 受到 伤害 ， 由 于 跨越 源 
于 不 同 处 理 器 的 引用 流 的 缓存 冲突 (破坏 性 干扰 )。 当 一 个 共享 缓存 多 处 理 器 用 来 执 
行 没有 数据 共享 的 负载 〈 例 如， 并 行 编译 或 者 数据 库 和 事务 处 理工 作 负载 )， 缓 存 中 
在 不 同 处 理 器 所 需 的 数据 集 之 间 的 干扰 可 能 严重 伤害 性 能 。 在 科学 计算 中 ， 性 能 是 
第 一 位 的 ， 许 多 程序 试图 管理 它们 对 每 个 处 理 器 缓存 的 使 用 ， 使 得 它们 访问 的 数组 
在 缓存 中 不 发 生 干 扰 。 所 有 这 些 程序 员 或 编译 的 努力 在 共享 缓存 系统 中 很 容易 就 白 
费 了 。 同 私有 缓存 相 比 ， 共 享 缓存 可 能 要 求 更 高 的 相 联 度 ， 这 也 可 能 增加 它们 的 访 
问 时 间 。 
最 后 ， 在 目前 情况 来 看 ， 共 享 一 级 缓存 不 符合 当前 用 商品 微 处理 器 技术 建造 成 本 效 
益 合 算 的 并 行 机 器 的 趋势 。 

由 于 许多 微 处 理 器 已 经 对 第 一 级 缓存 提供 侦 听 支持 ， 一 种 有 吸引 力 的 做 法 可 能 是 让 处 理 
器 有 私有 的 一 级 缓存 ， 而 在 第 二 级 缓存 共享 。 这 种 做 法 “软化 ”了 共享 一 级 缓存 的 优 缺 点 ， 
可 能 总 体 上 是 一 种 不 错 的 折 中 。 这 个 共享 绥 存 可 能 比较 大 ， 以 减少 破坏 性 干 护 。 在 实践 中 ， 
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封装 方面 的 考虑 对 于 共享 缓存 的 决定 也 有 很 大 影 啊 。 
6.6.2 虚拟 标 引 组 存 的 一 致 性 


回顾 在 单 处 理 器 系统 结构 中 在 物理 的 和 虚拟 的 索引 缓存 之 间 的 权衡 ， 即 ， 用 物理 地 址 
还 是 虚拟 地 址 对 缓存 索引 。 对 于 物理 索引 的 一 级 缓存 来 说 ， 允 许 缓存 索引 和 地 址 转换 并 行进 
行 ， 就 要 求 缓存 有 很 小 或 者 很 高 的 相 联 度 。 这 保证 了 如 果 使 用 页 染色 方式 ， 那 些 在 转换 下 不 
改变 的 位 log, (Page size) 位 或 者 更 少 些 足以 索引 缓存 (Hennessy and Patterson 
1996) 。 随 着 片 载 一 级 缓存 变 大 ， 虚 拟 标 引 缓存 变 得 越 来 越 有 吸引 力 。 然 而 ， 这 也 有 它们 自 
己 的 问题 。 首 先 ， 不 同 的 处 理 器 可 能 用 同样 的 虚拟 地 址 来 引用 不 同 地 址 空间 中 不 相关 的 数 
据 。 这 可 以 通过 在 切换 上 下 文 时 清除 整个 缓存 来 处 理 ， 或 者 通过 使 地 址 空间 标识 符 (ASID) 
标记 和 缓存 块 相 联 ， 除 虚拟 地 址 标记 外 。 对 缓存 一 致 性 更 严重 的 问题 是 同 义 : 不 同 的 虚拟 
页 ， 来 自 相同 或 不 同 的 进程 ， 为 了 共享 指向 同一 个 物理 页 。 对 于 虚拟 地 址 缓存 来 说 ， 相 同 的 
(共享 的 ) 物理 存储 块 能 够 读 到 两 个 不 同 的 缓存 块 、 不 同 的 索引 。 如 我 们 所 知 ， 这 对 单 处 理 
器 是 一 个 问题 ， 它 也 扩展 到 多 处 理 器 的 缓存 一 致 性 。 如 果 一 个 处 理 器 写 一 个 存储 块 ， 用 一 个 
虚拟 地 址 别名 表示 ， 另 一 个 读 他 ， 用 不 同 别名 的 表示 ， 那 么 如 果 简单 地 将 虚 氢 地 址 放 到 总 线 
上 ， 侦 昕 它们 ， 对 这 个 共享 物理 页 的 写 就 不 会 为 后 来 的 处 理 器 可 见 。 将 虚拟 地 址 放 到 总 线 上 
还 有 另外 一 个 问题 : CER VO 设备 和 存储 器 做 从 虚拟 地 址 到 物理 地 址 的 变换 ， 由 于 它们 处 
理 的 是 物理 地 址 。 然 而 ,将 物理 地 址 放 到 总 线 上 似乎 要 求 相反 的 变换 在 一 次 侦 听 期 间 查 找 虚 
拟 标 引 的 缓存 ， 不 管 怎样 它 自己 解决 不 了 由 不 同 表示 产生 的 别名 一 致 性 问题 。 

别名 问题 可 以 通过 软件 方法 ， 限 制 其 使 用 来 避免 。 例 如 ， 可 以 让 别名 有 同样 的 页 颜色 ， 
即 ， 如 果 这 些 多 于 log (Page _size ) 位 ， 就 让 用 于 索引 缓存 的 部 分 是 相同 的 。 另 一 个 方 
法 是 ， 当 引用 相同 页 的 时 候 ， 可 以 要 求 进程 用 相同 的 虚拟 地 址 ， 如 同 在 SPUR 研究 项 目 中 那 
样 (Hill etal. 1986) 。 

人 们 也 提出 过 复杂 的 缓存 设计 来 从 硬件 的 角度 解决 不 同 表示 的 问题 (Goodman 1987)。 
其 思想 是 处 理 器 用 虚拟 地 址 来 进行 缓存 查询 ， 但 将 物理 地 址 放 到 总 线 上 让 其 他 缓存 和 设备 来 
侦 听 。 这 要 求 提供 能 实现 下 述 功能 的 机 制 ，1) 如 果 查 找 虚拟 地 址 失败 了 ， 能 用 物理 地 址 来 
查询 缓存 (届时 物理 地 址 可 用 ) 或 者 如 果 检 测 到 那个 块 曾 被 由 一 个 别名 访问 带 到 了 缓存 ; 2) 
保证 相同 的 物理 块 在 两 个 不 同 的 虚拟 地 址 下 不 会 同时 出 现在 相同 的 缓存 中 ; 3) 将 一 个 侦 听 
的 物理 地 址 转换 到 一 个 有 效 的 虚拟 地 址 来 查询 侦 听 缓存 。 实 现 这 些 目标 的 一 个 办 法 是 让 缓存 
对 它们 的 块 维护 虚拟 和 物理 两 种 标签 《和 状态 ) ， 分 别 由 虚拟 和 物理 地 址 来 标 引 ， 让 一 个 块 
的 两 个 标签 相互 指向 〈 即 分 别 存放 相应 的 物理 地 址 和 虚拟 地 址 ; 如 图 6-24 所 示 )。 组 存 数据 
阵列 本 身 用 虚拟 标 引 (或 者 是 物理 标记 项 中 的 指针 ， 在 侦 听 的 情形 ， 它 们 是 一 样 的 )。 让 我 
们 看 看 在 一 个 高 层 中 这 种 组 织 是 如 何 提供 所 需 机 制 的 。 

处 理 器 用 它 的 虚拟 地 址 查询 缓存 ， 同 时 如 果 需 要 的 话 ， 虚 拟 地 址 到 物理 地 址 的 转换 由 存 
储 管理 单元 来 完成 。 如 果 用 虚拟 地 址 的 查询 成 功 ， 一 切 都 好 。 如 果 它 失败 了 ， 转 换 得 到 的 物 
理 地 址 就 用 来 查找 物理 标签 ;如 果 这 命中 了 ， 就 可 以 通过 物理 标签 中 的 指针 来 找到 这 一 块 。 
如 下 所 述 ， 这 就 达到 了 第 一 个 目标 。 一 个 虚拟 的 扑 空 但 物理 的 命中 检测 了 一 个 别名 的 可 能 
性 ， 因 为 物理 块 可 能 已 被 通过 不 同 的 虚拟 地 址 带 进 来 了 。 在 一 个 直接 映像 缓存 中 ， 它 一 定 是 
通过 一 个 不 同 的 虚拟 地 址 带 到 了 缓存 ， 因 此 为 简单 起 见 让 我 们 假设 直接 映像 缓 在。 包含 在 物 
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虚 页 面 aM 
ASID 数量 偏 移 KRE 


NN_Y 标 已 AVR / 





物理 页 面 wih 块 偏 移 
数据 偏 移 


图 6.24 一 种 双 标 记 的 虚拟 寻 址 的 缓存 的 组 织 。 左 边 的 V 标记 存储 器 服务 于 CPU， 且 由 虚拟 
地 址 索引 。 右 边 的 了 标记 存储 器 用 于 总 线 侦 听 ， 由 物理 地 址 索引 。 存 储 块 的 内 容 根 
据 V 标 记 的 索引 存放 。 相 应 的 P 标 记 和 YV 标记 条 目 相互 指向 ， 以 处 理 对 缓存 的 更 新 


理 标 签 中 的 指针 (别名 虚拟 标 引 ) 现在 所 指 的 缓存 块 不 同 于 当前 虚拟 标 引 。 我 们 需要 使 当前 
的 虚拟 标 引 指向 这 个 物理 数据 ， 让 虚拟 地 址 和 物理 地 址 统一 ， 以 消除 别名 。 当 前 被 别名 虚拟 
标 引 的 物理 块 ， 被 拷贝 过 来 后 ， 取 代 当 前 虚拟 标 引 的 抉 (如 果 必 要 ， 它 会 被 回 写 )， 因 此 对 
当前 韦 拟 标 引 的 引用 将 从 此 立刻 命中 。 在 别名 虚拟 标 引 的 块 被 置 成 作废 或 者 不 可 访问 ， 因 此 
数据 现在 只 能 通过 当前 虚拟 标 引 来 访问 (或 者 在 侦 听 情形 ， 借 助 于 物理 标记 中 的 指针 通过 物 
理 地 址 ) ， 但 不 能 通过 别名 虚拟 标 引 。 对 这 个 别名 后 续 的 访问 将 在 它 的 虚拟 地 址 查询 上 扑 空 ， 
并 且 必 须 完 成 同样 的 过 程 。 因 此 ， 在 任何 给 定时 刻 ， 给 定 的 物理 块 只 是 在 缓存 中 一 个 〈 虚 拟 
标 引 的 ) 单元 有 效 ， 于 是 实现 了 第 二 个 目标 。 注 意 ， 如 果 虚 拟 地 址 和 物理 地 址 查询 都 失败 了 
( 真 的 缓存 扑 空 )， 可 能 需要 多 到 两 次 的 回 写 。 带 人 缓存 的 新 块 将 被 放 在 由 当前 虚拟 (不 是 物 
理 ) 地 址 确定 的 标 引 上 ， 虚 拟 和 物理 的 标记 和 状态 将 要 适当 地 和 更新， 相互 指 向 。 

不 管 是 回 写 、 读 扑 空 、 或 者 排他 读 或 更 新 ， 放 到 总 线 上 的 地 址 总 是 物理 地 址 。 用 从 总 线 
来 的 物理 地 址 侦 听 是 容易 的 。 由 于 所 需 的 信息 已 经 在 那里 ， 不 需要 显 式 逆向 转换 。 查 询 物理 
的 标记 以 检查 块 的 存在 ， 从 它 所 包含 的 指针 找到 数据 。 如 果 必 须 采 取 什么 动作 ， 由 物理 标记 项 
所 指 的 虚拟 标记 状态 也 要 被 更 新 。 这 样 一 种 缓存 系统 如 何 操作 的 进一步 的 细节 见 (Goodman 
1987)。 这 种 做 法 也 被 扩展 到 多 级 缓存 ， 此 时 它 更 具 吸引 力 : LI 缓存 用 虚拟 标记 以 加 速 缓存 的 
访问 ，12 缓存 用 物理 标记 以 便利 侦 听 和 各 免 跨 处 理 器 的 别名 (Wang，Baer and Levy 1989), 


6.6.3 转换 检测 缓冲 器 的 一 致 性 


简单 地 讲 ， 处 理 器 的 转换 检测 缓冲 器 (Translation lookaside Buffer, TLB) 只 不 过 是 关于 页 
表 条 目 (PTE) 的 一 个 高 速 缓存 ， 用 于 虚拟 地 址 到 物理 地 址 的 转换 。 由 于 实际 的 数据 共享 或 
者 进程 迁移 ， 一 个 PTE 可 能 出 现在 多 个 处 理 器 的 TLB Po PTE 可 能 被 修改 一例 如 ， 当 存储 
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页 被 交换 出 去 ， 或 者 它 的 保护 被 改变 一 一 导致 和 缓存 一 致 性 问题 相似 的 情况 。 

有 多 种 用 于 TLB 一 致 性 的 方案 。 由 于 TLB 一 致 性 操作 要 比 一 般 缓 存 一 致 性 操作 少 得 多 ， 
流行 的 做 法 是 通过 操作 系统 的 软件 方案 。 具 体 的 方案 取决 于 PIE 是 直接 由 硬件 装 人 TLB， 还 
是 由 软件 控制 ; 还 取决 于 TLB 和 操作 系统 如 何 实现 的 其 他 一 些 因素 。 硬 件 方案 也 用 于 某 些 
系统 中 ,特别 是 当 TLB 操作 为 软件 不 可 见 时 。 这 一 节 对 4 种 TLB 一 致 性 方法 给 出 一 个 简略 
的 概要 : 虚拟 地 址 缓存 、 软 件 TLB 击落 、 地 址 空间 标识 符 (ASID)、 硬 件 TLB 一 致 性 。 进 一 
步 的 细节 可 见 (Thompson et al. 1988; Rosenburg 1989; Teller 1990) 以 及 其 中 的 参考 文献 。 

TLB， 以 及 由 此 而 来 的 TLB 一 致 性 问题 ， 能 够 通过 用 虚拟 地 址 缓存 完全 避免 。 地 址 变换 
现在 只 在 缓存 扑 空 上 和 需要， 因此 特别 是 如 果 缓 存 扑 空 率 低 ， 我 们 可 以 直接 用 页 表 。 当 页 表 项 
被 访问 的 时 候 带 入 普通 的 数据 缓存 ， 因 此 由 缓存 一 致 性 机 制 保持 一 致 性 。 然 而 ， 当 一 个 物理 
页 被 交换 出 存储 器 时 ， 或 者 它 的 保护 改变 了 ， 这 些 都 是 缓存 一 致 性 硬件 看 不 见 的 ， 因 此 必须 
由 操作 系统 将 PTE 从 所 有 处 理 器 的 虚拟 地 址 缓存 中 清除 出 去 。 除 此 以 外 ， 虚 拟 地 址 缓存 的 
一 致 性 问题 必须 要 解决 。 这 个 方法 在 SPUR 研究 项 目 中 得 到 了 探讨 (Hill et al. 1986; Wood et 
al. 1986)。 

第 二 个 方法 称 为 TLB 击落 。 有 许多 变形 ， 取 决 于 硬件 支持 的 程度 ， 通 常 包括 对 处 理 器 
之 间 中 断 的 支持 , 个别 TLB 项 的 作废 。 这 种 TLB 一 致 性 过 程 由 一 个 称 为 发 起 者 的 处 理 器 在 
它 改变 那些 可 能 被 其 他 TLB 缓存 的 PTE 时 启动 。 由 于 对 PTE 的 变化 必须 由 操作 系统 来 做 ， 
操作 系统 知道 哪些 PTE 正在 被 改变 ， 它 也 可 能 知道 哪些 其 他 的 处 理 器 可 能 将 它们 缓存 到 它 
们 的 TLB 中 。( 保 守 地 ， 由 于 那些 项 可 能 已 经 被 替换 了 ) 操作 系统 内 核 锁 住 正 被 改变 的 PTE 
(或 者 相关 的 页 表 段 ， 取 决 于 锁 的 粒度 )， 向 其 他 被 认为 有 拷贝 的 处 理 器 发 中 断 。 一 旦 被 中 
断 ， 接 受 者 屏蔽 中 断 ， 察 看 正 被 修改 的 页 表 项 (在 共享 存储 中 )， 在 本 地 从 它们 的 TL 中 作 
废 这 些 项 。 发 起 者 等 它们 完成 ， 也 许 通过 轮 询 共享 存储 单元 ， 然 后 打开 页 表 段 的 锁 。 在 
Mach 操作 系统 中 ， 人 们 用 了 一 种 不 同 的 、 但 要 更 复杂 些 的 击落 算法 (Black 等 1989) 。 

某 些 处 理 器 家 族 ， 尤 其 是 Silicon Graphics 的 MIPS 家 族 ， 用 软件 装 人 的 TLB 而 不 是 硬件 
装 人 的 TB， 这 意味 着 操作 系统 不 仅 涉 及 到 PTE 的 修改 ， 还 涉及 在 扑 空 时 将 PTE 装 入 TLB, 
在 这 些 情 况 下 ， 由 于 进程 迁移 带 来 的 处 理 器 私有 页 面 的 一 致 性 问题 可 以 用 第 三 种 方法 来 解 
BR, BU ASID, CH THRA TLB 击落 。 每 个 TLB 项 都 有 一 个 ASID 域 与 之 相 联 ， 以 避免 在 
上 下 文 交换 时 清除 整个 TLB (就 好 像 进程 标识 符 用 在 虚拟 地 址 缓存 一 样 ) 。 然 而 , Æ TLB 的 
情形 ，ASID 像 是 由 操作 系统 以 处 理 器 为 单位 动态 分 配 的 标签 ， 用 一 个 自由 池 ， 当 TLB 项 被 
替换 时 ， 让 它们 返回 其 中 ; 它们 不 是 在 整个 生命 周期 都 和 进程 相 联 的 。IRIX 5.2 操作 系统 用 
ASID 的 方法 如 下 。 操 作 系统 为 每 个 进程 维护 一 个 数组 ， 跟 踪 分 配给 系统 中 每 个 处 理 器 的 那 
个 进程 的 ASID。 当 一 个 进程 修改 PTE 时 ， 对 所 有 其 他 处 理 器 那个 进程 的 ASID 被 置 零 。 这 保 
证 了 当 进 程 迁移 到 另外 的 处 理 器 时 ， 进 程 将 发 现 它 的 ASD WE; 因此 内 核 就 要 分 配给 进程 
一 个 新 的 ASID 值 ， 这 样 就 防止 了 用 过 时 的 TLB 项 。 对 于 由 进程 真 共 享 的 页 的 TLB 一 致 性 用 
TLB 击落 来 完成 。 

最 后 ， 某 些 处 理 器 家 族 提 供 硬 件 指令 来 作废 其 他 处 理 器 的 TLB。 在 PowerPC 家 族 中 
(Weiss and Smith 1994), “TLB 作废 项 ”指令 (tlbie) 在 总 线 上 广播 页 地 址 ， 从 而 其 他 处 理 器 
上 的 侦 听 硬件 能 自动 地 作废 相应 的 TLB 项 ， 而 不 中 断 处 理 器 。 处 理 PTE 变化 的 算法 是 简单 
的 ; 操作 系统 首先 改变 页 表 ， 然 后 发 出 一 个 针对 这 些 变化 的 PTE 的 tlbie 指令 。 如 果 TLB 是 
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硬件 装 人 的 〈 如 在 PowerPC 中 那样 )，0S 不 知道 哪些 其 他 的 TLB 可 能 缓存 这 个 PTE， 因 此 这 
个 作废 必须 广播 到 所 有 处 理 器 。 广 播 是 很 适合 于 总 线 的 ， 但 对 于 分 布 式 网 络 的 可 扩 放 的 系统 
来 说 却 是 不 希望 广播 的 ， 我 们 将 在 后 边 的 章节 讨论 。 


6.6.4 环 上 基于 侦 听 的 高 速 缓存 一 致 性 


由 于 基于 总 线 的 缓存 一 致 性 多 处 理 器 的 规模 受 总 线 的 限制 ， 很 自然 我 们 就 会 问 侦 听 式 
一 致 性 怎么 能 够 扩展 到 其 他 的 、 局 限 性 小 一 些 的 互 连 结构 。 总 线 的 一 个 直接 扩展 是 环 。 和 总 
线 〈 所 有 模块 都 接 在 同一 组 线 上 ) 不 同 ， 环 上 每 个 模块 都 和 相 邻 的 两 个 模块 相连 。 和 总 线 相 
同 的 方面 是 ， 环 固有 地 支持 基于 广播 的 通信 ， 从 一 致 性 角度 看 它 是 一 个 有 意思 的 互连网 络 。 
从 一 个 节点 到 另 一 个 节点 的 事务 沿 着 环 的 链 向 下 传递 ， 由 于 月 的 节点 的 平均 距离 是 环 长 的 一 
半 ， 应 答 的 一 种 简单 且 自 然 的 做 法 是 让 它 传 播 通过 环 的 剩余 部 分 ， 返 回 发 送 者 。 事 实 上 ， 用 
硬件 组 织 通 信 结 构 的 一 种 自然 方法 是 ， 让 发 送 者 将 事务 放 到 环 上 ， 当 事务 通过 时 ， 让 其 他 节 
点 审查 〈 侦 听 ) 此 事务 是 否 与 自己 有 关 。 给 定 这 种 广播 和 侦 听 的 基础 结构 ， 我 们 可 以 在 环 上 
提供 侦 听 缓存 一 致 性 ， 即 使 存储 器 在 物理 上 是 分 布 在 环 的 节点 上 。 由 于 多 个 数据 传送 过 程 可 
能 在 环 上 同时 进行 ， 模 块 看 到 这 些 事务 的 时 间 不 同 ， 顺 序 可 能 潜在 地 不 同 ， 环 上 的 串 行 化 和 
顺序 一 致 性 要 比 总 线 上 的 复杂 些 。 

除了 用 分 布 式 存储 器 外 ， 环 相对 于 总 线 的 优点 还 有 较 短 的 、 点 对 点 链接 使 它们 能 够 以 很 
高 的 时 钟 频率 工作 。 例 如 ，IEEE 可 扩展 一 致 性 接口 (SCI) 传输 标准 (Gustavson 1992; IEEE 
1993) 就 是 基于 500 MHz, 16 位 宽 的 点 对 点 连接 。 线 性 点 对 点 特点 也 使 得 链 路 深度 流水 成 为 
可 能 ， 即 在 前 面 的 位 没有 到 达 目 的 节点 之 前 新 的 位 能 够 发 送 到 线路 上 。 这 个 特征 允许 链 路 做 
得 长 一 些 ， 同 时 不 影响 它们 的 吞 叶 量 。 环 的 一 个 缺点 是 通信 时 延 高 ， 高 于 总 线 ， 并 且 随 着 环 
上 处 理 器 个 数 增加 而 线性 增长 〈 平 均 来 说 ， 在 单 向 环 上 ， 要 达到 目标 ， 需 要 穿越 p2 跳 ， 双 
向 环 上 减 半 )。 

由 于 环 是 一 个 广播 介质 ， 侦 听 缓 存 一 致 性 协议 可 以 很 自然 地 在 其 上 实现 。 早 期 的 一 种 基 
于 环 的 侦 听 缓存 一 致 性 机 器 是 Kendall Square Research 的 KSRI (Frank, Burkhardt, and Rothnie 
1993)。 最 近 一 些 的 商用 机 器 ， 诸 如 Sequent NUMA-Q 和 Convex 的 Exomplar 家 族 (Convex 1993; 
Thekkath et al，1997)， 用 环 作为 二 级 互 连 ， 将 多 处 理 器 节点 连 在 一 起 。 (这 两 种 系统 在 环 互 
连 上 都 是 用 目录 协议 ， 而 不 是 侦 听 ， 因 此 对 它们 的 讨论 将 推迟 到 第 8 章 ， 专 门 介绍 那些 协 
议 。 在 NUMA-Q 中 ， 节 点 内 的 互 连 是 总 线 ; 在 Exemplar 中 ,， 它 是 具有 丰富 连接 关系 ， 低 时 延 
的 交叉 开关 。) 多 伦 多 大 学 的 Hector 系统 (Vranesic et al. 1991; Faras, Vranesic and Stumm 
1992) 是 一 个 基于 环 的 研究 原型 系统 。 

图 6-25 示 出 一 个 用 环 连 接 的 多 处 理 器 组 织 。 典 型 地 ， 环 和 物理 上 分 布 的 存储 一 起 使 用 ， 
但 存储 器 可 能 在 逻辑 上 仍然 是 共享 的 。 每 个 节点 的 构成 包含 有 一 个 处 理 器 、 它 的 私有 缓存 、 
全 局 主 存 的 一 部 分 、 还 有 一 个 环 接口 。 这 个 环 接口 有 一 个 从 环 上 来 的 输入 线 ， 一 组 组 织 成 
FIFO 缓冲 区 的 锁 存 器 ， 以 及 一 个 到 环 上 的 输出 线 。 在 每 个 环 时 钟 周期 ， 锁 存 器 的 内 容 向 前 
移 位 ， 于 是 整个 环 就 像 一 个 环形 流水 线 。 锁 存 器 的 主要 功能 是 将 通过 的 信息 持 有 足够 长 的 时 
间 ， 让 接口 来 决定 是 否 将 它 向 前 发 送 到 下 一 个 节点 。 一 个 信息 可 能 被 从 环 上 取出 ， 通 过 将 锁 
存 器 的 内 容 存 人 本 地 缓冲 存储 器 ， 并 向 这 个 锁 存 器 写 人 一 个 空 时 阶 标 记 。 如 果 一 个 节点 要 将 
事务 放 到 环 上 ， 它 要 等 待 一 个 空 时 隙 通过 ， 并 填充 它 。 当 然 ， 我 们 希望 在 每 个 接口 上 的 锁 存 
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器 数 尽量 小 ， 以 减少 事务 通过 环 的 时 延 。 





\ 
单个 节点 结构 。 出 





基于 环 的 多 处 理 器 


图 6-25 一 种 单 环 多 处 理 器 的 组 织 结构 


需要 有 一 种 机 制 ， 称 为 环 访问 控制 机 制 ， 来 确定 一 个 节点 何 时 能 够 将 它 的 事务 放 到 环 
上 。 它 的 复杂 性 在 于 : 环 上 的 数据 通路 要 比 在 它 上 面 传输 的 事务 窗 得 多 。 结 果 ， 事 务 在 环 上 
需要 多 个 相继 的 时 隙 。 进 一 步 ， 环 上 的 事务 (消息) 本 身 大 小 也 可 能 不 一 样 。 例 如 ， 请 求 消 
息 短 ， 只 包含 命令 和 地 址 , 而 数据 应 答 消息 存储 块 的 内 容 要 长 得 多 。 最 后 的 复杂 因素 是 , 访 
问 环 的 仲裁 逻辑 必须 是 分 布 式 的 ， 这 是 因为 它 不 同 于 总 线 ， 没 有 全 局 可 见 的 线路 。 

有 三 种 主要 的 环 访问 控制 ( 即 仲裁 ) 方法 : 令 牌 传递 环 、 寄 存 器 插入 环 和 时 隙 环 。 在 令 
牌 传递 环 中 ， 一 种 特别 的 位 模式 ， 称 为 令 牌 ， 在 环 上 传递 ， 只 有 当前 占有 这 个 令 牌 的 节点 才 
能 在 环 上 发 送 。 这 种 情况 仲裁 是 容易 的 ， 但 缺点 是 同时 只 有 一 个 节点 能 发 起 一 个 事务 ， 尽 管 
环 上 的 其 他 节点 可 能 传递 的 是 空 槽 ， 这 就 导致 带宽 的 浪费 。 寄 存 器 插入 环 为 IEEE SCI 标准 
所 选 。 这 里 ， 在 环 的 接口 输入 和 输出 阶段 之 间 ， 当 本 地 节点 在 发 送 的 时 候 ， 用 一 个 旁 路 
FIFO 来 缓冲 输入 消息 ( 带 有 反 向 流 控 以 避免 溢出 )。 当 本 地 节点 完成 时 ， 旁 路 FIFO 的 内 容 
就 被 转发 到 输出 链 路 ， 本 地 节点 不 允许 再 发 送 ， 直 到 旁 路 FIFO 为 空 。 多 个 节点 可 以 同时 发 
送 ， 环 的 各 个 部 分 当 它 们 的 旁 路 FIFO 溢出 时 就 要 停滞 。 最 后 ， 在 时 陈 化 的 环 中 ， 环 被 分 为 
事务 时 隙 ， 带 有 类 型 标签 〈 针 对 不 同 大 小 的 事物 ， 如 请 求 和 数据 应 答 )， 这 些 时 隙 在 环 上 不 
断 循环 。 一 个 准备 好 了 发 送 消息 的 处 理 器 等 待 所 需 类 型 的 时 隙 的 到 来 〈 由 槽 头 的 一 位 指出 )， 
然后 插入 它 的 消息 。 这 里 的 “时 孙 ” 实 际 上 是 一 串 空 时 间 片段 ， 这 个 串 的 长 度 取决 于 消息 的 
类 型 。 时 踏 化 的 环 可 能 会 限制 环 带宽 的 利用 率 ， 用 硬件 混合 不 同类 型 的 时 除 ， 可 能 和 给 定 负 
载 的 实际 流量 模式 不 匹配 。 然 而 ， 对 于 一 个 给 定 的 一 致 性 协议 ， 人 们 对 消息 类 型 混合 的 情况 
了 解 得 较 好 ， 因 此 在 实践 中 几乎 没有 什么 带宽 浪费 (Baroso and Dubois 1993, 1995) 。 

也 许 我 们 会 感到 广播 和 侦 听 在 像 环 这 样 的 点 到 点 互 连 上 会 浪费 带宽 ， 实 际 中 不 一 定 如 
此 。 在 环 上 ， 和 平均 随机 点 对 点 消息 相 比 ， 广 播 只 须 两 倍 的 带宽 ， 这 是 由 于 对 两 个 随机 选择 
的 点 来 说 ， 前 者 平均 要 穿越 半 个 环 。 除 此 以 外 ， 只 是 请 求 消息 需要 广播 ( 读 扑 空 、 写 扑 空 、 
更 新 请 求 ) ， 而 它们 是 短 的 ; 数据 应 答 消息 由 数据 源 放 到 环 上 ， 运 转 到 请 求 节 点 上 停止 。 

考虑 在 基于 环 的 侦 听 协议 中 的 一 次 读 扑 空 。 如 果 我 们 关心 的 一 个 存储 块 所 分 配 的 存储 单 
元 〈 称 为 宿主 存储 器 ) 不 在 本 地 节点 ， 读 请 求 就 被 放 到 总 线 上 。 如 果 宿 主 是 本 地 的 ， 我 们 还 
要 确定 这 个 块 在 其 他 节点 是 否 脏 ， 在 这 种 情况 ， 本 地 存储 器 不 应 该 响应 ， 一 个 请 求 应 该 放 到 
总 线 上 。 一 个 简单 的 方案 是 将 所 有 扑 空 都 放 到 总 线 上 ， 如 Sun Enterprise， 它 是 一 个 基于 总 线 
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的 设计 ， 但 存储 在 物理 上 是 分 布 的 。 另 一 种 方案 是 ， 对 宿主 存储 器 中 的 每 一 块 都 维护 -一 个 脏 
位 。 如 果 这 一 块 在 其 他 某 个 节点 的 缓存 中 为 脏 ， 这 一 位 被 置 位 。 如 果 这 一 位 量 位 ， 请 求 就 送 
到 环 上 。 读 请 求 现在 沿 着 环 循环 。 所 有 节点 都 检测 它 ， 宿 主 节点 或 者 脏 节点 会 作出 响应 如 
果 宿主 不 是 本 地 ， 宿 主 节点 就 用 脏 位 来 决定 它 是 否 应 该 对 请 求 做 响应 )。 排 他 读 和 更 新 过 程 
也 出 现在 环 上 ， 其 他 节点 债 听 这 些 请 求 ， 必 要 时 作废 它们 的 存储 块 。 当 回 到 请 求 者 时 ， 请 求 
和 响应 事务 就 从 环 上 删除 。 请 求 返回 到 请 求 节点 作为 确认 。 当 多 个 节点 试图 并 发 地 写 -个 相 
辐 的 块 ， 赢 者 是 首先 到 达 该 块 的 当前 拥有 者 的 节点 〈 即 如 果 那 块 在 主 存 有 效 ， 则 是 宿主 节 
点 ， 否 则 是 脏 节 点 )， 其 他 节点 被 隐 式 或 显 式 送 一 个 NACK， 然 后 它们 必须 重 试 。 

从 实现 的 角度 看 ， 环 上 侦 听 协议 的 一 个 主要 难点 在 于 所 强加 的 实时 限制 : 在 环 接口 中 的 
侦 听 器 考察 并 对 所 有 通过 的 消息 作出 反应 ， 不 能 有 过 多 的 延迟 或 内 部 排队 。 这 对 于 寄存 器 插 
入 环 是 困难 的 ， 因 为 许多 短 请 求 消息 可 能 在 环 上 相 邻 。 对 于 高 速 运行 的 环 ， 请 求 可 能 相互 挨 
得 太 近 ， 侦 听 器 难以 在 固定 的 时 间 里 做 出 响应 。 这 个 问题 在 时 阶 环 中 得 到 简化 ， 短 请 求 消息 
和 长 数据 响应 消息 (后 者 是 点 对 点 ， 不 需 缓存 查找 ) 的 选择 和 布置 能 保证 请 求 型 消息 相互 有 
一 定 的 距离 (Banoso and Dubois 1995)。 例 如 ， 时 阶 可 以 成 组 为 帧 ， 每 个 帧 可 以 组 织 成 请 求 时 
险 ， 紧 跟着 响应 时 隙 。 尽 管 如 此 ， 如 同 总 线 ， 环 的 带宽 最 终 还 是 受 控制 器 或 缓存 的 侦 听 带宽 
限制 ， 而 不 是 受 互 连 上 的 原始 数据 传送 带宽 限制 。 

环 的 串 行 化 和 顺序 同一 性 要 比 总 线 复杂 些 ， 这 是 由 于 存在 这 样 的 可 能 性 : 环 上 不 同 点 的 
处 理 器 会 看 到 环 上 一 对 消息 有 不 同 的 顺序 (取决 于 它们 在 环 的 什么 地 方 ， 相 对 于 哪些 事务 发 
送 者 )。 用 作废 协议 可 以 简化 这 个 问题 ， 由 于 写 只 是 引起 排他 读 事务 放 到 环 上 ， 而 不 是 数据 
本 身 ， 除 宿主 节点 外 的 所 有 节点 都 只 要 简单 作废 它们 的 拷贝 。 宿 主 节点 能 确定 环 上 出 现 冲突 
的 消息 ， 并 采取 特定 的 行动 ， 但 这 不 会 在 协议 中 增加 太 多 的 暂 态 过 程 。 


6.6.5 在 基于 总 线 的 系统 中 的 数据 和 侦 听 带宽 的 扩展 


有 一 些 方 法 可 用 来 增加 SMP 设计 中 的 带宽 ， 同 时 保持 基于 总 线 做 法 的 简单 性 。 在 事务 
拆 分 型 总 线 中 ， 我 们 看 到 仲裁 ， 地 址 阶段 和 数据 阶段 的 流水 线 使 得 它们 能 同时 进行 。 事 实 
上 ， 扩 展 数据 带宽 事实 上 是 较 容 易 的 ; 挑战 在 于 拓展 侦 听 的 带宽 。 

首先 考虑 扩大 数据 带宽 。 缓 存 块 的 尺寸 和 描述 它们 的 地 址 相 比 要 大 些 2。 增 加 数据 带宽 
最 直接 的 方法 是 使 数据 总 线 的 宽度 扩大 。 我 们 在 Sun Enterprise 和 SGI Challenge 的 设计 中 看 到 
了 这 一 点 ， 两 者 都 用 256 位 宽 的 数据 总 线 。 在 Enterprise 中 ，64 字 节 的 缓存 块 只 要 两 个 周期 








.就 可 以 传送 了 。 这 种 做 法 的 不 利之 处 是 代价 ， 随 着 总 线 的 变 宽 ， 它 要 用 较 大 的 连接 器 ， 占 据 


电路 板 上 更 多 的 空间 ， 需 要 更 大 的 功率 。 它 显然 将 这 种 风格 的 设计 推 向 极限 ， 由 于 一 个 高 效 
的 、 统 一 的 流水 线 要 求 侦 听 操作 必须 在 两 个 周期 完成 ， 侦 听 操 作 是 需要 被 所 有 的 缓存 看 见 并 
确认 的 。 一 种 更 突出 的 做 法 是 用 点 到 点 交叉 开关 代替 总 线 的 数据 部 分 ， 直 接 将 每 个 处 理 器 - 
存储 器 模块 相互 连接 。 这 种 做 法 认识 到 了 只 是 事务 的 地 址 部 分 需要 广播 到 所 有 的 节点 ， 来 确 
定 一 致 性 操作 和 数据 源 〈 即 存储 器 或 缓存 ) 。 这 种 做 法 在 IBM 基于 PowerPC 的 RS6000 G30 多 
处 理 圳 中 被 采纳 。 一 个 总 线 被 用 于 地 址 和 侦 听 结果 ， 但 交叉 开关 用 来 移动 实际 的 数据 。 交 又 
开关 中 的 单个 通路 不 需要 太 宽 ， 因 为 多 个 传送 能 同时 发 生 。 





名 ”例如 缓存 块 可 能 为 16 字 节 ， 而 地 址 为 8 字 节 。 一 一 译 者 注 
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在 基于 总 线 系统 中 提高 带宽 的 一 个 笨 办 法 是 简单 地 用 多 条 总 线 ， 包括 地址 总 线 ， 如 
6.4.7 节 所 提 到 的 那样 。 事 实 上 ， 这 个 做 法 提供 了 一 种 基础 性 贡献 ， 它 允许 侦 听 带宽 也 能 扩 
展 。 为 了 将 侦 听 带宽 扩展 到 在 每 地 址 周期 一 个 一 致 性 结果 之 外 ， 必 须 有 多 个 同时 的 侦 听 操 
作 。 一 旦 有 了 多 个 地 址 总 线 ， 数 据 总 线 问 题 可 以 通过 数据 总 线 ， 交 叉 开关 或 者 任何 其 他 机 制 
来 处 理 。 同 一 性 是 容易 的 。 地 址 空间 的 不 同 部 分 用 不 同 的 总 线 ; 典型 地 ， 每 条 总 线 将 为 特定 
的 存储 模块 服务 ， 因 此 一 个 给 定 的 地 址 总 是 用 相同 的 总 线 。 多 个 地 址 总 线 似乎 违反 了 用 于 保 
证 顺序 同一 性 关键 的 机 制 ; 对 地 址 总 线 的 序列 化 仲裁 。 然 而 ， 我 们 记得 ， 顺 序 同 一 性 要 求 的 
是 一 个 人 逻辑 的 总 序 ， 而 不 是 一 个 严格 的 地 址 事件 的 发 生 时 间 序 。 一 种 静态 的 序 在 效 辑 上 赋予 
参与 的 总 线 操作 序列 :一 个 地 址 操作 i 逻辑 上 在 j 之 前 ， 如 果 它 在 j 之 前 出 现 (按照 总 线 时 
钟 ) 或 者 它们 在 相同 的 时 钟 周期 发 生 , 但 i 发 生 在 较 低 编号 的 总 线 上 。 这 种 多 总 线 的 方法 用 
在 Sun SparcCenter 2000 中 ， 它 提供 两 条 事务 拆 分 型 总 线 ， 每 条 和 SparcStation 1000 中 用 的 一 
样 ， 可 以 扩展 到 30 个 处 理 器 。CRAY CS6400 用 4 条 这 样 的 总 线 ， 可 以 扩展 到 64 个 处 理 器 。 
每 个 缓存 榨 制 器 侦 听 所 有 总 线 ， 按 照 缓存 一 致 性 协议 作出 响应 。Sun Enterprise 10000， 比 本 
章 讨论 的 Sun Enterprise 6000 后 发 布 的 机 器 ， 将 多 个 地 址 总 线 和 数据 交叉 开关 结合 起 来 ， 可 
以 扩展 到 64 个 处 理 器 。 每 个 板 上 有 4 个 250 MH 的 处 理 器 ，4 个 存储 模块 (每 个 最 多 1 CB), 
以 及 两 个 独立 的 SBUS IO 总 线 。16 个 这 样 的 板 通过 16 x 16 数据 交叉 开关 连接 起 来 ，144 位 
宽 的 通路 ， 以 及 4 条 和 每 个 板 上 4 个 模块 相 联 的 地 址 总 线 。 总 体 上 来 说 ， 这 就 提供 了 12.6 
GBps 的 数据 带宽 和 一 个 高 达 250 MHz 的 侦 听 速率 。 


6.7 结论 


本 章 探讨 的 设计 问题 是 具有 基础 意义 的 ; 虽然 所 用 的 都 是 小 规模 并 行 的 例子 ， 但 其 中 的 
原理 在 中 等 规模 并 行 的 情形 也 有 指导 作用 。 当 然 ， 最 优 的 设计 方案 可 能 改变 。 例 如 ， 尽 管 当 
前 不 那么 流行 ， 但 在 一 定 条 件 下 ， 在 某 个 层次 共享 缓存 可 能 变 得 相当 有 了 吸 引力， 这 种 条 件 就 
是 多 模块 封装 技术 变 得 便宜 起 来 ， 或 者 多 个 处 理 器 出 现在 单个 芯片 上 。 

处 理 器 通过 共享 总 线 互 连 ， 尽 管 是 一 个 非常 有 效 的 机 制 ， 但 随 着 处 理 器 的 数目 或 者 速度 
的 增加 ， 受 到 明显 的 带宽 限制 。 尽 管 如 此 ， 至 少 在 小 规模 上 ， 系 统 设计 师 们 肯定 还 会 不 断 去 
寻找 新 方法 ， 从 总 线 型 设计 中 “榨取 ”更 大 的 数据 带宽 和 侦 听 带宽， 来 充分 地 利用 基于 广播 
方法 的 简单 性 。 然 而 ， 建造 可 扩 放 缓存 一 致 性 机 器 的 一 般 方法 是 让 存储 器 物理 上 分 布 在 节点 
上 ， 用 一 种 可 缩放 的 互 连 ， 以 及 不 依赖 于 侦 听 的 一 致 性 协议 。 这 个 方向 是 后 面 几 章 的 主题 。 
随 着 处 理 器 变 得 比 总 线 和 侦 听 带宽 快 ， 这 种 思路 在 较 小 规模 也 可 能 有 用 。 对 于 总 线 结构 来 
说 ， 肯 定 在 一 定 的 时 间 里 还 会 有 重要 的 作用 ， 但 现在 难以 预测 它们 的 将 来 ， 以 及 在 什么 样 的 
规模 上 还 会 用 它们 。 虽 然 总 会 有 各 种 变化 和 进步 ， 但 我 们 针对 总 线 在 这 两 章 里 讨论 的 问题 ， 
大 多 数 都 是 独立 于 工艺 的 ， 对 所 有 设计 缓存 一 致 性 共享 存储 系统 结构 都 至 关 重 要 ， 不 管用 何 
种 互 连 方式 。 这 些 问题 包括 存储 层次 内 的 互 连 ， 缓 存 一 致 性 问题 和 在 状态 转换 层次 的 各 种 组 
存 一 致 性 协议 ,以 及 当 处 理 许多 并 发 过 程 时 所 引起 的 关键 正确 性 和 实现 问题 。 用 于 解决 这 些 
正确 性 和 实现 问题 的 具体 做 法 可 能 改变 ， 但 这 些 问题 本 身 、 围 绕 它们 所 作 的 权衡 以 及 基本 的 
出 发 点 是 具有 基础 意义 的 ， 可 以 外 推 。 进 而 ， 对 于 本 书后 面 要 讨论 的 大 规模 系统 的 设计 来 
说 ， 这 些 基于 总 线 的 设计 提供 了 基本 的 元 素 。 
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习题 


6.1 考虑 两 个 机 器 MW ，M: 。M 是 一 个 4 处 理 器 共享 L 高 速 缓存 机 器 ，M, 是 一 个 4 处理 器 
基于 总 线 的 侦 听 缓存 机 器 。M 有 一 个 共享 的 1 MB 两 路 组 相 联 高 速 缓存 ，64 字 节 的 块 ; 
M, 中 的 每 个 处 理 器 有 一 个 256 KB 的 直接 映像 高 速 缓存 ，64 字 节 块 。M, 用 Minois MESI 
一 致 性 协议 。 考 虑 如 下 代码 ; 
double A[1024,1024] ; /* row-major; 8-byte elems */ 


double C(4096]; 
double B[1024,1024]; 


for (i=0; i<1024; i+=1) /* loop-1 */ 
for (j=myPID; j<1024; j+=numPEs) 
{ 
Bli,j] = (A[i+1,j] + A{i-1,j] + 
A(i,j+1]) + Afi,j-1}) / 4.0; 
} 
for (i=myPID; i<1024; i+=numPEs) /* loop-2 */ 
for (j=0; j<1024; j+=1) 
{ 
Afi,j) = (Bli+l,j] + B[i-1,j] + 


B(i,j+1) + Bfi,j-1]) / 4.0; 
je 


1) 假设 数组 4 从 16 进 制 地 址 (Ox) 0 开始 ， 数 组 C 从 0x300 000 开 始 ， 数 组 BM 
0x308 000 开 始 。 所 有 高 速 缓存 都 初始 化 为 空 。 每 个 处 理 器 执行 上 面 的 代码 ， 和 
4 个 处 理 器 对 应 , myPID 在 0 到 3 之 间 变 化 。 针 对 两 个 循环 嵌 套 ， 分 别 计算 M, 
的 扑 空 。 对 M 也 做 一 遍 ， 指 明 你 所 作 的 任何 假设 。 
2) 如 果 没 有 数组 C， 简 单 地 说 明 你 的 1) 中 答案 会 如 何 改变 。 指 明 你 所 作 的 任何 
其 他 假设 。 
3) 从 这 个 练习 中 ， 我 们 了 解 到 共享 高 速 缓存 结构 的 什么 优 缺 点 ? 
6.2 假设 你 从 前 面 的 章节 和 5.4 节 的 数据 中 已 经 有 了 关于 Bames-Hut、 Ocean, Raytrace 和 
Multiprog 负载 的 知识 。 考 虑 一 个 4 处 理 器 ， 共 享 4 MB 高 速 缓存 的 机 器 和 -一 个 4 处 理 
恬 ， 基 于 总 线 侦 听 的 机 器 ， 每 处 理 器 1 MB 高 速 缓存 ， 讨 论 这 些 应 用 在 它们 上 执行 的 情 
况 。 用 模拟 来 验证 你 的 直觉 可 能 是 有 用 的 。 指 明 任何 相关 的 假定 。 
6.3 ”和 共享 一 级 高 速 缓存 相 比 ， 私 有 一 级 高 速 缓存 但 共享 二 级 高 速 缓存 有 什么 优 缺点 ? 评 
价 现代 处 理 器 的 设计 中 ， 例 如 MIPS R10000 和 IBM/Motorola 的 PowerPC 620， 是 如 何 体现 
或 回避 这 种 趋势 的 。 在 这 些 设计 中 封装 技术 的 影响 是 什么 ? 
6.4 用 6.3 节 关于 高 速 缓存 包含 的 术语 ， 假 设 L, AL, ERREAK, n>n, b,=b,, # 
换 策略 是 FIFO， 不 是 LRU。 包 含 关系 自然 成 立 吗 ? 如 果 替 换 是 随机 的 或 基于 循环 计数 
器 又 如 何 ? 





O 原著 中 将 A [i+1, j] 和 B [i+1,j] 误 为 A fied, j] 和 B [i+i，j]。 一- 译 者 注 
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6.5 


6.6 


6.7 


6.8 


6.9 


针对 下 述 情形 ， 给 出 一 个 表现 高 速 缓存 包含 性 质 被 违反 的 存储 引用 流 : 

1) L, 高 速 缓存 是 32 字 节 ， 两 路 组 相 联 ，8 字 节 缓存 块 ，LRU 替换 。L 缓存 是 128 F 
节 ，4 路 组 相 联 ，8 字 节 缓存 块 ，LRU BR. 

2) L 高 速 缓存 是 32 字 节 ， 两 路 组 相 联 ，8 字 节 缓存 块 ，LRU 替换 。L 缓存 是 128 字 
节 ， 两 路 组 相 联 ，16 字 节 缓存 块 ，LRU SR. 

对 于 下 面 的 系统 ， 说 明 高 速 缓存 是 否 自然 地 提供 包含 : 如 果 不 ， 说 明 问 题 在 娜 里 或 者 

给 出 一 个 违反 包含 的 例子 。 

1) L: 8 KB 直接 映 像 基 本 指令 高 速 缓存 ，32 字 节 块 大 小 ; 8 KB 直接 映像 基本 数据 高 速 
缓存 ， 直 写 ，32 字 节 块 。 

L: 4 MB4 路 组 相 联 统一 二 级 高 速 缓存 ，32 字 节 决 大 小 。 

2) L: 16 KB 直接 映像 统一 基本 高 速 缓存 ， 直 写 ，32 字 节 块 大 小 。 
L: 4 MB 4 路 组 相 联 统一 二 级 高 速 缓存 ，64 字 节 块 大 小 。 

回顾 6.3 节 中 关于 高 速 缓存 包含 性 质 的 讨论 。 

1) 在 通常 情形 ， 包 含 能 相当 自然 地 被 满足 。 这 情形 是 ，L, 高 速 缓存 是 直接 映像 
(a1=1),L 可 以 是 直接 映像 或 组 相 联 (a, 宇 1)， 带 有 任何 替换 策略 (AW, LRU, 
FFO、 随 机 ) ， 只 要 带 进 来 的 新 块 放 到 L 和 L 高 速 绥 存 ， 块 的 大 小 是 相同 的 (4b, = 
by), Ly 高 速 缓存 中 的 组 数 等 于 或 小 于 L K (menm) 说明 这 为 什么 是 对 的 。 

2) 我 们 的 讨论 称 ， 用 一 个 统一 高 速 缓存 支撑 在 某 一 级 的 多 个 高 速 缓存 所 产生 的 问题 并 
没有 通过 使 那个 统一 高 速 缓存 相 联 而 得 到 解决 。 用 一 个 简单 的 例子 ， 有 直接 映像 指 
令 和 数据 高 速 缓存 并 由 一 个 统一 的 、 两 路 组 相 联 高 速 缓存 支持 ， 说 明 这 是 对 的 。 

假设 每 个 处 理 器 有 分 开 的 指令 和 数据 高 速 缓存 ， 且 没有 指令 扑 空 。 还 假定 ， 当 活 牙 时 ， 

每 3 个 时 钟 周期 处 理 器 发 出 一 个 数据 高 速 缓存 请 求 ， 扑 空 率 是 1% ， 扑 空 时 延 是 30 周 

期 。 假 设 读 标 记 要 1 个 时 钟 周期 ， 但 修改 标记 要 两 个 时 钟 周期 。 

D 如 果 用 带 有 一 组 高 速 缓存 标 记 的 单 级 数据 高 速 缓存 ， 试 量化 由 于 高 速 缓存 标记 争 用 
的 性 能 损失 。 假 设 总 线 过 程 要 求 侦 听 每 5 个 时 钟 周期 发 生 一 次 ， 它 们 的 10% 将 高 速 
缓存 的 一 个 块 作废 。 还 假设 侦 听 的 优先 级 高 于 处 理 器 访问 标记 的 优先 级 。 做 粗略 地 
计算 。 然 后 通过 建立 一 个 排队 模型 或 写 一 个 简单 的 模拟 器 ， 检 查 你 的 答案 的 精 
确 度 。 

2) 如 果 对 处 理 器 和 侦 听 用 分 开 的 标记 集 ， 标 记 竞 争 的 性 能 损失 如 何 ? 

3) 一 般 来 讲 ， 你 会 将 访问 标记 的 优先 级 给 与 处 理 器 引用 还 是 总 线 侦 听 ? 

SGI Challenge 多 处 理 器 的 设计 者 们 考虑 了 下 面 的 总 线 控制 器 优化 ， 以 更 好 地 利用 交叉 存 

储 和 总 线 带宽 。 如 果 控 制 器 发 现 对 一 个 给 定 的 存储 模块 〈 它 可 以 通过 请 求 表 来 确定 )， 

一 个 请 求 已 经 是 待 完 成 的 ， 它 就 不 发 出 那个 请 求 ， 直 到 那个 模块 的 先前 请 求 被 满足 。 讨 

论 这 种 优化 潜在 的 问题 ，Challenge 设计 中 的 什么 特征 允许 这 种 优化 ? 


6.10 1) RF Challenge 支持 MESI 协议 的 状态 ， 它 不 支持 最 初 Dlinois MESI 协议 中 的 高 速 组 


存 到 高 速 缓存 的 传送 特征 。 
i ) 讨论 这 种 选择 的 可 能 原因 。 
i ) 扩充 Challenge 实现 ， 以 支持 高 速 缓存 到 高 速 缓存 的 传送 。 如 果 有 的 话 ， 描 述 
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总 线 上 所 需 的 额外 信号 ， 不 要 忘 了 公平 性 问题 。 


2) JS Challenge MES] 协议 有 四 个 状态 ， 和 高速 缓存 控制 器 芯片 一 起 存放 的 标记 只 跟 


6.12 


6.13 


踪 三 个 状态 (I、S、E+ M)。 解 释 为 什么 这 依然 可 以 正确 工作 。 你 认为 他 们 为 什么 
做 这 种 优化 ? 

针对 SparcCenter 的 多 总 线 体系 结构 和 SGI Challenge 的 单 - 快 - 宽 总 线 体系 结构 ,讨论 
它们 之 间 代 价 、 性 能 、 实 现 和 扩展 性 方面 的 权衡 ， 以 及 任何 程序 语义 和 死 锁 的 
影响 。 

Challenge 的 主 存 ， 甚 至 在 它 决定 出 一 个 数据 是 否 在 其 他 处 理 器 的 高 速 缓存 中 脏 之 
前 ， 可 以 推测 式 地 启动 该 数据 的 读 取 过 程 。 利 用 表 5-1 的 数据 ， 估 计 无 用 主 存 访 
问 的 比例 。 基 于 那个 数据 ， 你 支持 这 种 优化 吗 ? 这 个 数据 从 方法 论 上 是 充分 的 吗 ? 
请 解释 。 

Challenge 的 总 线 接口 支持 请 求 的 融合 。 这 样 ， 如 果 多 个 处 理 器 在 等 待 同一 个 存储 
模块 ， 那 么 当 数 据 出 现在 总 线 上 时 ， 它 们 都 可 以 从 总 线 上 抓 住 数据 。 这 个 特征 在 
实现 基于 踏步 等 待 的 同步 原 语 时 特别 有 用 。 对 于 测试 -测试 和 设置 锁 ， 计 算 有 这 种 
优化 和 没有 这 种 优化 时 总 线 上 最 小 的 流量 。 假 设 有 4 个 处 理 器 ， 每 个 获得 锁 一 次 然 
后 做 一 次 开锁 ， 最 初 没有 处 理 器 在 其 高 速 缓存 中 有 包含 锁 变量 的 存储 块 。 

SGI Challenge 总 线 允 许 8 个 待 完成 事务 。 设 计 人 员 是 怎么 得 到 这 个 数 的 ? 试 建 议 一 个 
通用 公式 ， 能 够 基于 总 线 的 参数 给 出 应 该 支持 的 待 完成 过 程 数 。 用 如 下 参数 : 

P 一 一 处 理 器 数 ; 

M- 一 一 存储 器 模块 数 ; 

I 一 一 平均 存储 时 延 (周期 ); 

B 一 一 高 速 缓存 块 大 小 (FH); 

W 一 一 数据 总 线 宽 度 (FT) 

定义 其 他 你 认为 重要 的 参数 。 保 持 你 的 公式 简单 ， 讲 清楚 任何 假设 ， 说 明 你 的 决定 的 
正确 性 。 

在 一 个 两 级 高 速 缓存 系统 中 ,考虑 从 总 线 到 高 速 缓存 层次 的 人 向 事务 〈 请 求 和 响应 ) 
和 从 高 速 缓存 层次 到 总 线 的 出 向 事务 。 为 了 保证 当 作 废 被 提前 确认 〈 一 旦 它们 出 现在 
网 络 上 ) 时 的 顺序 同一 性 (SC)， 对 于 下 图 所 描述 的 , 必须 在 每 一 个 方向 上 维护 什么 
序 的 限制 ， 哪 些 可 以 被 重 定 序 ? 对 于 一 级 高 速 缓存 的 人 向 事务 回答 同样 的 问题 。 假 设 
每 个 处 理 器 同时 只 有 一 个 待 完成 请 求 ， 但 总 线 是 拆 分 型 的 。 

HERF 〈 从 总 线 到 高 速 缓存 和 处 理 器 ) 


3 


w 


1 


~~ 


2 


— 


+ + + 作废 作废 作废 
更 新 更 新 对 装 入 来 自 总 线 的 对 本 地 高 速 作废 
指令 的 确认 REM BE 
数据 答复 的 请 求 
向 下 的 序 〈 从 高 速 缓存 和 处 理 器 到 总 线 ) 
+ 应 答 应 答 


请 求 应 答 aS 
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6.16 


6.17 


6.19 


6.20 


在 6.4 节 讨 论 的 拆 分 型 解决 方案 中 ， 取 决 于 处 理 器 到 高 速 缓存 的 界面 ， 可 能 一 个 作废 
请 求 立 刻 在 数据 响应 后 到 来 ， 因 此 这 个 块 ， 在 处 理 器 有 机 会 实际 访问 高 速 缓存 块 满足 
它 的 请 求 之 前 就 被 作废 。 这 为 什么 可 能 是 个 问题 ， 你 如 何 解决 它 ? 

当 支 持 免 锁 高 速 缓存 时 ， 一 个 设计 人 员 建 议 ， 我 们 也 可 以 在 事务 拆 分 型 总 线 接口 中 的 

请 求 表 中 加 更 多 的 项 。 这 个 想法 好 吗 ? 是 否 能 得 到 较 大 收益 ? 

应 用 6.4.6 节 中 描述 的 不 同 的 技术 在 维持 例 6.3 中 有 多 个 待 完 成 总 线 事 务 的 SS， 使 你 

自己 相信 它们 的 确 能 解决 问题 。 在 什么 条 件 下 一 种 方案 要 好 于 其 他 的 ? 

假设 一 种 类 似 于 Powerpath-2 那样 的 系统 总 线 ， 如 6.5 节 所 讨论 的 。 假 设 200 MIPS/200 

MFLOPS 处 理 器 ，1 MB 高 速 缓存 和 64 字 节 高 速 缓存 块 ， 对 于 表 5-1 中 的 每 个 应 用 ， 计 

算 总 线 带宽 ， 用 

1) Illinois MESI 协议 

2) Dragon 协议 

3) Illinois MESI 协议 ， 假 设 256 字 节 的 高 速 缓存 块 
对 每 个 部 分 1)，2) 3) 分 别 计算 地 址 + 命令 总 线 的 利用 率 和 数据 总 线 的 利用 率 。 
阐明 所 有 假设 。 

4) 针对 SparcCenter XDBus， 比 较 1) 和 2) 两 个 部 分 ， 它 有 64 位 宽 的 多 选 地 址 和 数据 
信号。 假设 总 线 在 100 MHz 上 运行 ， 发 送 地 址 信息 要 两 个 总 线 周 期 ，64 字 节 的 数 
据 要 9 个 总 线 周期 。 

在 6.4.8 节 提出 的 关于 多 级 高 速 缓 存 死 锁 的 一 个 解决 方案 是 使 所 有 队列 足够 深 ， 能 够 


容纳 所 有 的 入 向 请 求 和 响应 。 这 些 队列 可 以 小 一 些 吗 ? 车 如 此 ， 为 什么 ? 讨论 为 什么 


让 队列 的 深度 大 于 死 锁 考虑 所 需 的 深度 可 能 是 有 益处 的 。 

6.3 节 给 出 的 一 致 性 协议 假设 两 级 高 速 缓 存 。 如 果 有 三 级 或 更 多 的 高 速 缓存 层次 又 会 

如 何 ? W Minois MESI 协议 扩充 到 一 个 三 级 高 速 缓存 的 中 间 级 : 列 出 任何 附加 的 状 

态 或 所 需 的 动作 ， 给 出 状态 转换 图 。 

图 6-26 表示 用 在 Mach 操作 系统 中 的 TLB 击落 算法 的 细节 (Black et al.1989)。 对 每 个 

处 理 器 来 说 ， 维 护 下 面 的 基本 数据 结构 : 一 个 “活跃 ”标识 ， 指 出 处 理 器 是 否 正 活跃 

地 用 着 页 表 ; 一 个 TLB 清理 通知 的 队列 ， 指 出 虚拟 地 址 的 范围 ， 其 映射 要 被 改变 ， 一 

个 指出 当前 活路 页 表 的 表 ( 即 那些 其 PTE 当前 可 能 被 存 到 处 理 器 的 TLB 中 的 进程 )。 

对 每 一 个 页 表 ， 当 一 个 处 理 器 在 改变 页 表 时 必须 持 有 一 把 踏步 等 待 锁 和 一 组 处 理 器 ， 

在 其 上 这 个 页 表 当 前 是 活跃 的 。 虽 然 基本 击落 方法 是 简单 的 ， 实 际 的 实现 需要 仔细 安 

排 有 关 步 台 的 顺序 和 数据 结构 的 加 锁 。 

D 为 什么 页 表 项 的 修改 时 间 要 在 对 TLB 一 致 性 的 处 理 器 发 送 中 断 或 者 作废 消息 之 前 ? 

2) 为 什么 图 6-26 中 击落 的 发 起 者 要 在 获得 页 表 锁 之 前 屏蔽 处 理 器 之 间 的 中 断 〈IPD) 
并 清除 它 自己 的 活跃 标记 ? 你 能 想到 图 中 存在 的 任何 死 锁 条 件 色 ， 若 如 此 ， 怎 样 
解决 它们 ? 

3) 和 Mach 算法 有 关 的 一 个 问题 是 ， 当 发 起 者 改变 页 表 时 ， 它 使 所 有 的 响应 者 忙 等 
待 。 这 里 的 原因 是 它 的 设计 思想 ， 在 TLB 替换 时 ， 只 要 脏 位 被 设置 了 ， 就 用 微 处 
理 器 自主 回 写 整个 TLB 项 到 相应 的 PTE。 这 样 ， 如 果 其 他 处 理 器 被 允许 用 页 表 ， 
当 发 起 者 正在 改变 它 的 时 候 ， 一 个 从 这 些 处 理 器 来 的 自主 的 回 写 可 能 覆盖 新 的 恋 
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化 。 你 会 怎样 设计 TLB 硬件 和 /或 算法 ， 使 得 响应 者 不 要 忙 等 待 ? 
4) 在 什么 情况 下 ， 清 除 整 个 TLB 要 比 有 选择 地 使 TLB 的 某 些 项 无 效 来 得 更 好 ? 


初始 器 应 答 者 1 ee © 应 答 者 N 
禁止 中 断 


Active[self]=0 
加 锁 页 表 

对 每 个 应 管 者 
进行 排列 刷新 

将 IPI 发 给 应 答 者 


刷新 TLB 项 





字段 中 断 
禁止 中 断 







| 字段 中 斯 
所 有 应 答 者 i 






忙 等 待 直 到 [ee----- Active[self]=0 禁止 中 断 
active[1]==0 leg: . 
----- T 77777777 i Activelself]=0 
改变 页 表 | ESE HARA 上 从 等 待 ， 直 到 没有 
| 如 镇 的 活动 页 表 加 锁 的 活动 页 表 
未 加 锁 页 表 | - - --- 如 ------------ 
解除 所 有 刷新 消息 解除 所 有 有 刷新 消息 
Active[self]=1 并 且 刷 新 TLB 项 并 且 囊 新 TLB 项 
可 以 中 断 Active[self]=1 Active[self}=1 
可 以 中 断 可 以 中 断 
继续 继续 继续 


图 6-26 Mach TLB 的 击落 算法 。 发 起 者 是 改变 某 个 页 表 的 处 理 器 ， 响 应 者 是 所 有 
452 其 他 处 理 器 ， 它 们 的 TLB 中 可 能 高 速 缓存 有 发 起 者 所 改变 页 表 的 一 些 条 目 


第 7 章 可 扩展 多 处 理 器 


本 章 , 我 们 开始 研究 机 器 的 设计 问题 ， 这 些 机 器 在 实际 中 能 够 扩展 到 具有 几 百 其 至 上 千 
个 处 理 器 。 可 扩展 性 在 设计 的 各 个 层次 上 都 具有 深刻 的 含义 。 对 于 初学 者 来 说 ， 构 造 一 个 大 
规模 的 配置 必须 在 物理 上 可 能 和 在 技术 上 可 行 。 增 加 处 理 器 显然 可 以 增加 系统 的 潜在 计算 能 
力 ， 但 为 了 真正 实现 这 种 潜力 ， 就 要 求 系统 在 各 方面 是 可 扩展 的 。 特 别 是 ， 存 储 器 的 带宽 应 
能 够 根据 处 理 器 数量 进行 扩展 。 一 种 自然 的 解决 方案 正如 我 们 的 通用 多 处 理 器 那样 ， 将 存储 
器 与 处 理 器 一 起 分 配 ， 这 样 每 个 处 理 器 就 能 够 直接 访问 局 部 存储 器 。 但 是 ， 连 接 这 些 节点 的 
通信 网 络 必须 能 够 在 合理 的 延迟 条 件 下， 提供 可 扩展 的 带宽 。 此 外 ， 用 来 在 系统 间 传输 数据 
的 协议 也 必须 可 扩展 ， 同 步 技术 也 必须 如 此 。 在 可 扩展 网 络 上 运行 可 扩展 性 协议 ， 系 统 中 可 
能 同时 产生 非常 多 的 事务 ， 所 以 我 们 不 能 依靠 全 局 信息 建立 次 序 或 仲裁 资源 的 使 用 。 所 以 ， 
为 了 获得 可 扩展 的 应 用 性 能 ， 必 须 把 扩展 性 当 作 涉 及 系统 设计 的 每 一 层 的 “垂直 ”问题 来 处 
理 。 下 面 让 我 们 考虑 几 个 熟悉 的 设计 要 点 来 具体 说 明 可 扩展 性 问题 。 

在 第 5、6 章 中 描述 的 小 规模 共享 存储 器 的 机 器 可 以 被 看 做 是 一 种 极端 情况 。 一 条 典型 
的 共享 总 线 最 大 长 度 只 有 1 ~2 英尺 ， 有 固定 数目 的 持 槽 和 固定 的 最 大 带宽 ， 所 以 它 从 根本 
上 限制 了 规模 。 到 通信 介质 的 接口 是 存储 器 接口 的 扩展 ， 使 用 额外 的 控制 线 和 控制 状态 来 支 
持 一 致 性 协议 。 通 过 对 总 线 的 仲裁 来 建立 全 局 的 次 序 ， 在 任何 时 刻 处 于 未 决 状态 的 事务 数 有 
限 。 通 过 标准 的 虚 -实地 址 转换 机 制 ， 强 化 了 所 有 的 通信 操作 的 保护 。 系 统 中 的 处 理 器 间 完 
全 信任 ， 被 看 做 是 一 个 运行 于 所 有 处 理 器 的 单一 操作 系统 的 控制 之 下 ， 具 有 公共 的 系统 数据 
结构 。 通 信介 质 被 包括 在 机 箱 物理 结构 之 中 ， 因 此 绝对 安全 。 典 型 的 情况 是 ， 当 任何 处 理 器 
失效 ， 系 统 就 进行 重启 。 而 在 编程 模型 和 基础 硬件 之 间 几 乎 没有 任何 软件 形式 的 干预 。 因 
此 ， 在 系统 设计 的 每 一 个 层次 ， 决 策 是 基于 其 下 层 的 可 扩展 限制 以 及 部 件 间 紧 耦合 的 假设 。 
可 扩展 的 机 器 比 基 于 总 线 的 共享 存储 器 多 处 理 器 的 耦合 度 要 低 ， 而 且 我 们 必须 重新 考虑 处 理 
器 和 其 他 处 理 器 以 及 存储 器 的 交互 方式 。 

在 另 一 个 极端 ， 可 以 考虑 在 一 个 局 域 网 或 甚至 一 个 广域网 上 的 传统 工作 站 。 这 里 ， 对 物 
理 规 模 没 有 明显 的 限制 ， 并 且 系统 的 处 理 器 间 没有 什么 信任 度 。 到 通信 介质 的 典型 接口 是 硬 
件 级 的 标准 外 部 接口 ， 操 作 系统 介入 到 用 户 级 原 语 和 网 络 之 间 ， 进 行 保护 和 访问 控制 。 每 一 
个 处 理 器 都 由 它 自 己 的 操作 系统 进行 控制 ， 而 对 其 他 的 处 理 器 不 信任 。 这 里 不 存在 操作 的 全 
局 次 序 ， 所 以 很 难 达成 一 致 。 通 信介 质 独立 于 各 个 节点 之 外 ， 所 以 具有 潜在 的 不 安全 性 。 每 
个 工作 站 自身 可 能 会 出 错 并 能 够 独立 地 重启 ， 除 非 它 正在 为 其 他 工作 站 提供 服务 。 不 管 采用 
什么 编程 模型 ， 在 基础 硬件 和 任何 用 户 级 的 通信 操作 之 间 有 一 层 软 件 存在 ， 这 就 使 得 通信 延 
迟 相当 大 ， 而 通信 带宽 低 。 由 于 通信 操作 由 软件 来 完成 ， 所 以 对 未 决 的 事务 的 数目 以 及 事务 
的 含义 没有 明确 的 限制 。 在 系统 设计 的 每 一 个 层次 ， 假 设 和 其 他 节点 间 的 通信 很 慢 而 且 不 可 
靠 。 所 以 ， 即 使 当 多 处 理 器 在 共同 解决 同一 个 问题 时 ， 也 很 难 发 掘 问题 内 在 的 耦合 性 和 信任 
性 来 得 到 更 高 的 系统 性 能 。 

在 这 两 个 极端 情况 之 间 有 一 系列 合理 的 和 有 意义 的 设计 选择 ， 其 中 某 些 可 以 体现 在 现行 
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的 商用 大 规模 并 行 计算 机 和 正在 出 现 的 并 行 计算 机 群 之 中 。 很 多 大 规模 并 行 处 理 器 (MPP) 
使 用 复杂 的 封装 和 快速 的 专用 网 络 ， 以 使 非常 多 的 处 理 器 可 以 在 有 限 的 空间 内 获得 高 带宽 和 
低 时 延 的 通信 。 其 他 的 可 扩展 机 器 基本 上 是 使 用 传统 的 计算 机 作为 节点 ， 这 些 节点 采用 大 致 
标准 的 接口 和 快速 网 络 进行 连接 。 在 这 两 种 情况 下 ， 存 在 许多 物理 上 的 安全 措施 ， 以 及 高 度 
信任 或 基本 自治 之 间 的 选择 。 

第 1 章 中 的 通用 多 处 理 器 提供 了 一 个 理解 可 扩展 设计 的 有 用 框架 机 器 由 基本 上 完整 的 
计算 节点 组 成 ， 每 一 个 节点 具有 存储 器 子 系统 和 一 个 或 多 个 处 理 器 ， 由 可 扩展 网 络 相 互 连 
接 。 节 点 到 网 络 的 接口 特性 是 可 扩展 系统 设计 中 最 关键 的 问题 之 一 。 它 允许 很 多 可 能 的 方 
案 ， 这 些 方案 在 处 理 器 和 存储 器 子 系统 与 网 络 的 耦合 程度 以 及 网 络 接口 本 身 的 处 理 能 力 上 有 
所 不 同 。 这 些 问题 影响 了 节点 间 的 信任 度 和 通信 原 语 的 性 能 特征 ， 进 而 决定 了 不 同 的 编程 模 
型 在 机 器 上 实现 的 效率 。 

我 们 在 本 章 的 目标 是 理解 可 扩展 机 器 的 一 系列 通信 体系 结构 的 设计 折 中 。 例 如 ， 我 们 希 
望 理 解 ， 追 求 更 加 专用 的 或 追求 更 加 面向 市 售 商品 的 做 法 ， 对 节点 到 网 络 间 接口 的 能 力 、 对 
有 效 支 持 不 同 的 编程 模型 的 能 力 以 及 对 规模 上 的 限制 又 有 什么 样 的 影响 。 我 们 从 7.1 节 开 始 
讨论 可 扩展 性 的 一 般 性 讨论 ， 考 察 它 对 系统 设计 在 带宽 、 时 延 、 成 本 和 物理 结构 方面 的 要 
求 。 这 一 讨论 提供 了 对 近年 来 的 一 些 大 规模 机 器 的 基本 介绍 ， 同 时 也 允许 我 们 根据 节点 到 网 
络 接口 “ 另 一 侧面 ”发 展 一 种 可 扩展 网 络 的 抽象 观点 。 在 本 章 和 下 两 章 完 整地 形成 对 网 络 的 
基本 需求 之 后 ， 我 们 将 在 第 10 章 对 可 扩展 网 络 的 设计 做 深入 的 研究 。 

在 7.2 节 我 们 将 集中 讨论 ， 在 大 规模 并 行 机 环境 中 ， 如 何 根据 通信 原 语 来 实现 编程 模型 
的 问题 。 关 键 的 概念 是 网 络 事务 ， 对 于 可 扩展 网 络 而 言 ， 它 和 前 一 章 所 研究 的 总 线 事务 相 类 
似 。 通 过 研究 一 个 非常 抽象 的 概念 一 一 网 络 事务 ， 我 们 将 考察 共享 地 址 空间 和 消息 传递 机 制 
是 如 何 通过 构造 于 网 络 事务 之 上 的 网 络 协 议 而 实现 的 。 

本 章 的 其 余部 分 将 考察 一 系列 的 重要 设计 问题 ， 硬 件 对 网 络 事务 中 的 信息 直接 解释 的 程 
度 逐 步 提高 。 从 一 般 意 义 上 说 ， 对 网 络 事务 的 解释 和 对 指令 集 的 解释 很 类 似 。 原 理 上 非常 有 
限 的 解释 已 经 足够 ， 但 在 实践 中 ， 更 加 延伸 的 解释 对 性 能 来 讲 是 重要 的 。7.3 节 考 察 了 本 质 
上 没有 对 消息 事务 进行 解释 的 情况 ， 它 被 看 作 是 在 操作 系统 的 控制 之 下 ， 通 过 物理 的 直接 存 
储 器 访问 (DMA) 操作 盲目 地 传送 到 存储 器 中 去 的 比特 序列 。 这 是 一 个 非常 重要 的 设计 问 
题 ， 因 为 它 代表 了 许多 早期 的 MPP 机 和 最 为 现代 的 局 域 网 接口 。 

7.4 节 考虑 了 更 加 激进 的 设计 策略 ， 这 里 消息 可 以 从 用 户 层 送 到 用 户 层 ， 无 须 操 作 系 统 
的 干预 。 这 至 少 要 求 网 络 事务 携带 一 个 用 户 /系统 的 标识 符 ， 该 标识 符 由 源 通信 辅助 部 件 产 
生 ， 由 目标 通信 辅助 部 件 所 解释 。 这 个 小 的 改变 产生 了 用 户 虚 拟 网 络 的 概念 ， 就 像 虚拟 存储 
一 样 ， 它 必须 提供 一 种 保护 模式 并 提供 一 个 用 来 共享 底层 物理 资源 的 框架 。 一 个 特别 关键 的 
问题 是 用 户 级 别 的 消息 接受 ， 因 为 对 作为 目的 地 的 用 户 线程 来 说 ， 消 息 的 到 达 在 本 质 上 是 异 
步 的 。 

7.5 节 集 中 讨论 能 够 提供 全 局 虚 地 址 空间 的 设计 问题 。 这 要 求 在 目的 地 进行 大 量 的 解 
释 ， 因 为 它 需 要 执行 虚 -实地 址 转换 ， 实 施 所 需要 的 数据 传输 并 负责 通知 。 典 型 地 ， 这 些 设 
计 使 用 一 个 专用 的 消息 或 通信 处 理 器 (CP)， 以 使 得 对 网 络 事 务 的 详尽 解释 可 以 在 没有 机 器 
设计 细节 的 情况 下 执行 。7.6 节 考虑 了 对 全 局 物理 地 址 空间 的 特殊 支持 。 在 这 种 情况 下 ， 通 
信和 辅助 部 件 和 存储 器 子 系统 紧密 集成 ; 典型 的 情况 是 ， 它 是 一 个 支持 有 限 网 络 事务 集合 的 专 
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用 设备 。 对 全 局 物理 地 址 空间 的 支持 使 得 我 们 在 原理 上 能 够 像 设 计 小 规模 共享 存储 器 的 机 器 
那样 进行 设计 。 然 而 ， 通 过 以 可 扩展 模式 在 一 致 的 高 速 缓存 进行 自动 的 共享 数据 复制 比 基 于 
总 线 的 情况 更 加 复杂 ， 我 们 将 在 第 8、9 章 集中 讨论 这 个 话题 。 


7.1 可 扩展 性 


一 个 设计 怎样 才能 称 为 “可 扩展 ”的 ? 几乎 所 有 的 计算 机 都 允许 系统 的 能 力 以 某 些 形式 
扩展 ， 比 如 增加 存储 器 、I0O 卡 、 磁 盘 或 升级 处 理 器 ， 但 使 这 种 增长 有 很 大 的 限制 。 一 个 可 
扩展 系统 应 尽量 避免 对 添加 系统 资源 的 固有 的 设计 限制 。 在 实践 中 ， 一 个 系统 可 能 具有 相当 
大 的 可 扩展 性 ， 尽 管 在 任何 时 候 都 会 由 于 经 济 方面 的 限制 ， 不 可 能 实现 任意 大 规模 的 配置 。 
当 足 够 大 的 配置 可 以 被 建立 的 时 候 ， 可 扩展 的 问题 实际 上 已 经 变 成 了 增加 系统 能 力 后 所 增加 
的 成 本 和 对 应 用 所 带 来 的 性 能 增长 的 比例 关系 上 。 在 实际 中 ， 并 没有 完美 的 可 扩展 性 设计 ， 
所 以 我 们 的 目标 是 要 明白 如 何 设计 一 个 能 够 有 效 地 扩展 到 大 量 处 理 器 的 系统 。 特 别 地 ， 我 们 
将 自 顶 向 下 考察 可 扩展 性 的 四 个 方面 。 首 先 ， 随 着 处 理 器 的 增加 ， 系 统 的 带宽 和 吞吐 能 力 如 
何 相 应 增加 ? 理想 情况 下 ， 吞 吐 能 力 应 该 和 处 理 器 数目 成 正比 。 第 二 ， 延 迟 或 每 个 操作 的 时 
闻 如 何 增加 ? 理想 情况 下 它们 应 该 是 常量 。 第 三 ， 系 统 的 成 本 如 何 增加 ? 最 后 一 点 ， 我 们 如 
何 封装 和 装配 系统 ? 

很 容易 知道 ,第 6 章 中 所 讨论 的 基于 总 线 的 多 处 理 器 在 这 四 个 方面 都 不 能 很 好 地 扩展 ， 
其 理由 是 相互 关联 的 。 在 这 些 设计 中 ， 多 个 处 理 器 和 存储 器 模块 通过 一 组 导线 〈 即 总 线 ) 连 
接 。 当 一 个 模块 驱动 总 线 时 ， 其 他 模块 均 不 能 再 驱动 它 。 这 样 ， 当 更 多 处 理 器 加 入 时 总 线 带 
宽 不 能 够 增加 ; 在 某 一 点 ， 总 线 会 饱和 。 尽 管 接受 这 些 缺 陷 ， 我 们 还 是 可 以 考虑 通过 一 条 总 
线 连接 许多 处 理 器 来 构建 机 器 ， 或 许 会 相信 随 着 处 理 器 的 增加 ， 每 个 处 理 器 对 带宽 的 要 求 会 
减少 。 不 幸 的 是 ， 总 线 的 时 钟 周期 是 由 驱动 一 个 值 进 入 导线 并 使 它 被 总 线 上 的 每 个 模块 所 采 
样 的 时 间 决 定 的 ， 时 钟 周期 会 随 总 线 上 模块 的 数目 和 导线 长 度 而 增长 。 所 以 ， 较 大 的 总 线 会 
有 较 长 的 时 延 和 较 小 的 集合 带宽 。 事 实 上 ， 信 号 的 质量 会 随 着 线 上 连接 器 的 数目 的 增加 而 衰 
减 ， 所 以 对 任何 总 线 技术 来 讲 ， 对 能 够 插入 的 处 理 器 的 播 槽 数 和 最 大 线 长 有 硬性 的 限制 。 在 
这 些 限 制 之 内 ， 基 于 总 线 的 设计 具有 良好 的 成 本 扩展 性 ， 因 为 添加 处 理 器 和 存储 器 增加 的 代 
价 只 是 这 些 模 块 的 成 本 。 不 幸 的 是 ， 这 种 简单 的 分 析 忽 视 了 一 种 情况 : 即使 是 最 小 的 配置 也 
要 负担 支持 最 大 机 器 配置 所 需要 的 基础 设施 的 固定 成 本 ; 总 线 、 机 柜 、 电 源 以 及 其 他 的 部 件 
也 必须 按照 最 大 配置 来 选择 。 最 起 码 ， 一 个 可 扩展 的 设计 必须 克服 这 些 限 制 。 集 合 带 宽 必须 
能 够 随 着 处 理 器 数目 的 增加 而 增长 ， 执 行 一 个 操作 的 时 间 不 应 该 随 着 机 器 规模 的 扩展 而 有 很 
大 增加 ; 而 且 大 规模 配置 的 构造 必须 是 实际 的 而 且 是 合算 的 。 如 果 设 计 能 够 按 比例 缩小 也 是 
很 有 价值 的 ， 如 此 ， 小 配置 就 是 合算 的 。 


7.1.1 带宽 的 可 扩展 性 


从 根本 上 说 ， 如 果 大 量 的 处 理 器 要 和 许多 其 他 的 处 理 器 或 存储 器 同时 交换 信息 ， 它 们 之 
间 必 须 用 很 多 条 独立 的 导线 进行 连接 。 这 样 ， 可 扩展 机 器 必须 像 图 7-1 所 抽象 描述 的 那样 进 
行 组 织 ; 大 量 的 处 理 器 模块 和 存储 器 模块 经 由 很 多 交换 机 用 独立 的 导线 (或 链 路 ) 连接 在 一 
起 。 我 们 在 非常 通用 的 意义 上 使 用 交换 机 这 个 术语 ， 指 把 有 限 的 输入 和 有 限 的 输出 进行 连接 
的 设备 。 在 内 部 ， 这 样 一 个 交换 机 可 以 用 总 线 、 交 叉 开关 或 甚至 是 一 组 特定 的 多 路 复 用 器 来 
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实现 。 我 们 称 输出 〈 或 输入 ) 的 数量 为 交换 机 的 度 。 对 总 线 来 说 ， 前 面 所 讨论 的 物理 和 电气 
的 约束 决定 了 它 的 度 。 在 某 一 时 刻 ， 只 有 一 个 输入 能 向 输出 传送 信息 。 交 义 开 关 人 允许 每 一 个 
输入 连接 到 一 个 不 同 的 输出 ， 而 其 度数 被 内 部 交叉 点 矩阵 的 成 本 和 复杂 度 所 限制 。 随 着 端口 
数量 的 增加 ， 多 路 复 用 器 的 成 本 和 时 延 都 会 快速 增加 。 所 以 ， 交 换 机 在 规模 上 有 限制 ， 但 可 
以 互 连 以 形成 大 的 配置 ， 也 就 是 形成 网 络 。 除 了 输入 和 输出 之 间 的 物理 互 连 外 ， 还 必须 有 某 
种 形式 的 控制 器 来 决定 在 每 个 特定 时 刻 将 哪个 输入 和 哪个 输出 相连 。 本 质 上 ， 一 个 可 扩展 网 
络 类 似 于 一 个 道路 系统 ， 导 线 对 应 街道 ， 开 关 对 应 交叉 路 口 ， 以 简单 的 办 法 决定 在 每 个 路 口 
上 哪 辆 车 可 以 通过 。 如 果 措 施 得 当 的 话 ， 大 量 的 车 辆 就 可 以 同时 驶 向 它们 的 目的 地 ， 并 迅速 
到 达 那 里 。 


AKAA 
AE 8 ene eC 


图 7-1 可 扩展 机 器 的 抽象 视图 。 大量 的 处 理 器 (P) 和 存储 器 (M) 模块 由 独立 的 导线 (或 链 

路 )， 经 由 大 量 交换 机 模块 (S) 连接 。 每 个 交换 机 具有 有 限 的 度数 。 一 个 单独 的 交换 

机 可 以 通过 总 线 、 交 叉 开关 、 多 路 复 用 器 或 其 他 的 输入 输出 之 间 的 受 控 连 接 来 实现 
按照 我 们 的 定义 ， 一 个 基本 的 基于 总 线 的 SMP 系统 包括 一 条 连接 所 有 处 理 器 和 存储 器 
的 总 线 ， 以 及 把 这 些 部 件 与 外 设 相连 的 基于 总 线 的 交换 机 的 简单 层次 结构 。 总 线 中 的 控制 通 
路 是 专用 的 ， 与 某 个 输入 的 事务 相关 的 地 址 被 广播 给 所 有 的 输出 ， 应 管 信 号 决定 了 哪个 输出 
参与 该 事务 。 网 络 交 换 机 是 一 种 更 加 通用 的 装置 ， 这 里 ， 输 入 提供 的 信息 足以 使 交换 机 控制 器 
决定 合适 的 输出 ， 而 不 必 询 癌 所 有 的 节点 。 一 对 模块 通过 经 由 一 系列 网 络 交换 机 的 路 由 连接 。 
可 扩展 机 器 的 最 通用 的 结构 用 图 7-2 中 的 体系 结构 来 说 明 ， 其 中 把 一 个 或 多 个 处 理 器 与 
一 个 或 多 个 存储 器 模块 以 及 一 个 通信 辅助 部 件 封装 在 一 起 ， 成 为 一 个 容易 复制 的 单元 ， 称 其 
为 一 个 节点 。 上 典型 的 节点 的 内 部 交换 机 是 高 性 能 总 线 。 系 统 也 可 以 通过 “舞池 ”的 方式 构 
成 ， 也 就 是 处 理 器 节点 通过 网 络 和 存储 器 节点 分 开 ， 如 图 7-3 中 所 示 。 在 每 种 情况 下 ， 都 存 
在 大 量 的 可 选择 的 交换 机 设计 方式 、 互 连 网 络 拓扑 结构 和 路 由 算法 ， 这 些 将 在 第 10 章 中 进 
行 研究 。 可 扩展 网 络 的 一 个 关键 特性 是 它 提供 了 大 量 独立 的 节点 间 通 信 路 径 ， 这 样 当 节点 增 
加 时 ， 带 宽 就 可 以 相应 增加 。 理 想 情 况 下 ， 节 点 间 传 输 数 据 的 时 延 、 节 点 的 成 本 不 应 该 随 节 
点 数量 的 增加 而 上 升 ; 但 是 ， 正 如 我 们 即将 讨论 的 ， 时 延 和 成 本 的 某 些 增加 是 不 可 避免 的 。 
如 果 像 图 7-3 所 示 的 那样 ， 存 储 器 模块 位 于 互连网 络 的 另 一 侧 ， 对 网 络 带 宽 的 需求 随处 
理 咒 的 数量 线性 增长 ， 即 使 在 进程 间 没 有 通信 发 生 也 是 如 此 。 提 供 足 够 可 扩展 带宽 可 能 对 计 
算 性 能 的 可 扩展 性 是 不 够 的 ， 因 为 随 着 处 理 器 数量 的 增加 ， 存 取 时 延 也 相应 增加 。 通 过 把 存 
储 器 分 布 到 各 个 处 理 器 ， 所 有 的 进程 能 够 以 固定 的 时 延 访 问 本 地 存储 器 ， 与 处 理 器 的 数量 无 
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可 扩展 网 络 


图 7-2 通用 的 分 布 存 储 句 多 处 理 器 的 组 成 。 一 组 拥有 自己 的 处 理 器 和 存储 器 的 
本 质 上 完整 的 计算 机 ， 通 过 通用 的 、 高 性 能 的 、 可 扩展 的 互连网 络 进行 
通信 。 典 型 地 ， 每 个 节点 包含 一 个 能 够 辅助 产生 和 接受 通信 操作 的 控制 器 


图 7-3 “舞池 ” 式 的 多 处 理 器 组 成 结构 。 处 理 
器 经 由 可 扩展 的 互连网 络 来 访问 存储 
器 模块 。 即 使 处 理 器 完全 独立 没有 任 
何 通 信和 共享 ， 对 网 络 的 带宽 要 求 也 
会 随 着 处 理 器 的 数目 增加 而 线性 增长 





关 ; 所 以 ， 系 统 的 计算 性 能 能 够 完美 地 扩展 ， 至 少 在 进程 间 没有 通信 的 简单 情况 下 是 如 此 。 
网 络 必须 满足 与 实际 通信 以 及 信息 共享 相关 的 需求 。 在 进程 间 确 实 通信 的 更 有 意义 的 情况 
下 ,计算 性 能 如 何 扩展 取决 于 网 络 本 身 的 扩展 性 、 通 信 体 系 结构 的 效率 以 及 程序 通信 的 方式 。 

为 了 实现 可 扩展 的 带宽 ， 必 须 抛弃 基于 总 线 的 设计 中 的 几 个 关键 假设 ， 也 就 是 说 ， 只 有 
有 限 数量 的 并 发 事务 ， 它 们 是 通过 集中 仲裁 决定 处 理 次 序 ， 而 且 是 全 局 可 见 的 。 相 反 ， 非 党 
多 的 并 发 事务 可 能 使 用 不 同 的 连 线 。 它 们 独立 地 产生 ， 没 有 全 局 的 仲裁 机 制 。 一 次 事务 处 理 
的 效果 《比如 状态 变化 ) 只 被 该 事务 处 理 涉及 的 节点 直接 可 见 (通过 其 他 的 事务 处 理 的 传 
播 ， 其 效果 对 其 他 节点 最 终 也 将 是 可 见 的 )。 尽 管 可 以 把 信息 广播 给 所 有 节点 ， 广 播 带 宽 
( 即 广播 可 以 被 执行 的 速率 ) 并 不 随 节点 的 增加 而 增加 。 这 样 ， 在 大 的 系统 中 ， 广 播 不 能 经 
常 使 用 。 


7.1.2 时 延 的 可 扩展 性 


我 们 可 以 延伸 可 扩展 网 络 的 抽象 模型 ， 来 考虑 通信 时 延 的 基本 要 素 。 总 的 来 讲 ， 在 两 个 
节点 闻 传 输 n 个 字 节 的 时 间 是 : 





334 HTH APRA AH 





T (n) = 额外 开销 + 通道 时 间 + 路 由 延迟 (7-1) 


这 里 ， 额 外 开销 是 开始 和 结束 传输 的 处 理 时 间 ， 通 道 时 间 是 n/B (这 里 B 是 指 “ 最 窜 通 道 ” 
的 带宽 ) ， 路 由 延迟 是 路 由 步 数 〈 或 跳 数 ) 和 传输 的 字 节 数 的 函数 f(H,n )。 

处 理 开销 可 能 是 固定 的 , 或 者 当 处 理 器 必须 要 为 传输 而 拷贝 数据 时 ， 随 n 增加 。 对 并 
行 机 器 中 使 用 的 大 部 分 网 络 来 说 ， 路 由 器 一 跳 的 延迟 是 固定 的 ， 独 立 于 传输 数据 量 的 大 小 ， 
因为 消息 直通 穿 过 一 系列 交换 机 ” 。 与 此 相 比较 ， 传 统 的 数据 通信 网 络 在 每 一 级 队 数 据 进行 
“存储 - 转发 "， 在 每 一 跳 产 生 与 传输 尺寸 成 正比 的 延迟 ” 。 在 大 规模 并 行 机 中 ， 存 储 -转发 
路 由 是 不 实际 的 。 因 为 网 络 交换 机 的 度数 有 限 ， 节 点 间 的 平均 路 由 距离 一 定 会 随 着 节点 数 的 
增加 而 增加 。 所 以 ,通信 时 延 将 随 着 规模 的 增加 而 上 升 。 然 而 ， 当 交换 机 足够 快 而 且 互 连 拓 
扑 结构 比较 合理 的 时 候 ， 时 延 的 上 升 和 额外 开销 以 及 传输 时 间 比 起 来 相对 较 小 〈 见 例 7.1)。 

例 7.1 很 多 经 典 的 网 络 采用 固定 度数 的 交换 机 来 构建 ， 比 如 对 n 个 节点 的 配置 或 拓扑 
结构 来 说 ， 从 任何 网 络 输入 到 任何 网 络 输出 的 距离 是 logpn， 而 交换 机 的 总 数 是 anlogn，a 
是 小 的 常数 。 假 设 额外 开销 是 每 个 消息 1 ws， 链 路 的 带宽 是 64 MBps， 路 由 器 的 延迟 是 每 跳 
200 ns。 当 系统 从 64 节点 扩展 到 1 024 节点 时 ， 传 输 128 个 字 节 所 用 的 时 间 将 增加 多 少 ? 

解答 : 在 64 节点 时 ， 需 要 6 跳 ， 所 以 





128 B 
64 Blus 

对 一 个 1 024 节点 的 配置 ， 它 将 增加 到 S us。 这 样 在 机 器 规模 扩大 16 倍 后 ， 时 延 增加 不 
到 20% 。 即 使 对 于 这 么 小 的 传输 量 ， 存 储 - 转 发 模型 将 在 每 一 个 跳 增 加 2 ys (用 来 缓冲 128 
字 节 的 时 间 )。 所 以 ， 时 延 将 会 是 : 


Ta (128) =1.0 ps += +6x0.200 ps =4.2 ps 


128 B 
64 Bips 


128 B 
64 Blus 

实际 上 ,在 例 7.1 中 忽略 了 带宽 和 时 延 之 间 存 在 的 一 个 重要 联系 。 如 果 两 个 传输 涉及 到 
网 络 中 相同 的 节点 或 者 利用 了 相同 的 连 线 ， 由 于 竞争 共享 资源 的 缘故 ， 一 个 传输 可 能 会 使 另 
一 个 传输 延迟 。 当 使 用 更 多 的 可 用 带宽 时 ,发 生 竞争 的 概率 和 时 延 的 期 望 值 都 会 增加 。 此 
外 ， 网 络 中 将 形成 等 待 队 列 ， 进 一 步 增加 时 延期 望 值 。 这 种 基本 的 饱和 现象 在 任何 资源 共享 
的 情况 下 都 会 发 生 。 设 计 一 个 好 网 络 的 目的 之 一 是 为 了 保证 这 些 与 负载 相关 的 时 延 在 实际 发 
生 通 信 模 式 中 不 至 于 太 大 。 但 是 ， 当 很 多 处 理 器 同时 向 一 个 节点 传输 数据 时 ， 就 不 可 能 没有 
竞争 。 该 问题 必须 通过 在 较 高 级 别 ， 使 用 第 3 章 所 讨论 的 技术 平衡 通信 负载 来 解决 。 


7.1.3 成 本 的 可 扩展 性 
对 大 的 机 器 来 说 ， 成 本 的 可 扩展 也 非常 重要 。 一 般 来 说 ， 我 们 认为 它 是 一 个 固定 的 系统 


TĘ (128) =1.0 ys + (二 和 一 +0.200ps) x6=14.2 ps (64 个 节点 ) 


Třm (128) =1.0 ps + ( 





+0.200 ps) x 10=23 ps (1 024 个 节点 ) W 





号 可 以 把 消息 看 作 一 列 火车 ， 火 车 头 在 沿 铁轨 的 每 个 交叉 点 做 出 决定 ,而 后 面 的 车 啉 只 是 跟着 走 ; 当 火 车 头 做 出 
新 的 拐弯 决定 时 ， 某 些 车 彩 可 能 还 在 通过 以 前 的 交叉 点 。 

”存储 -转发 的 方法 类 似 于 火车 到 达 车 站 。 整 列 火 车 必须 停靠 在 一 个 站 台 上 ， 装 印 货 物 、 乘 客 上 下 车 之 后 ， 才 能 重 
新 出 发 。 所 以 ， 茶 节 车 苯 在 车 站 上 停 舍 的 时 间 线 性 正比 于 火车 的 长 度 。 
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FEAR CS AY BRAS Sy FA BEST) AEE BB AP aS A AS AD: 
MA (p.m) = 固定 成 本 + HERE (p,m) 


固定 成 本 和 增 量 成 本 两 者 都 很 重要 。 例 如 ， 在 基于 总 线 的 机 器 中 ， 固 定 成 本 典型 地 包括 
机 箱 、 电 源 以 及 支持 一 个 全 配置 的 总 线 。 和 单 处 理 器 相 比 ， 一 个 小 规模 配置 是 不 太 合算 的 ， 
但 是 鼓励 扩展 ， 因 为 增加 处 理 器 的 增 量 成 本 是 固定 的 ， 并 且 常 常 要 比 单机 的 处 理 器 便宜 很 
多 。{( 有 趣 的 是 ， 对 大 多 数 商用 的 基于 总 线 机 器 来 说 ， 典 型 配置 一 般 只 是 最 大 配置 的 一 半 。 
这 即 充 分 的 补偿 了 基本 硬件 的 固定 开销 ， 并 生还 在 总 线 上 保留 了 “扩展 的 余地 ”。 提 供 较 大 
规模 SMP 系统 机 器 的 厂商 (比如 说 ，20 个 或 更 多 处 理 器 配置 的 ) ， 也 经 常 提供 带 有 扩展 槽 的 
低 端 配置 。) 我 们 要 强调 成 本 方程 式 中 存储 器 所 增加 的 代价 ， 因 为 存储 器 经 常 占据 很 大 一 部 
分 系统 成 本 ， 并 且 一 台 并 行 机 器 不 一 定 要 有 P 售 于 单 处 理 器 的 存储 器 。 

经 验 表 明 ， 可 扩展 的 机 器 一 定 要 支持 多 样 性 的 配置 ， 不 一 定 非 得 是 大 型 机 和 巨型 机 。 所 
以 ， 对 可 扩展 机 器 来 讲 ， 基 于 总 线 的 机 器 这 种 “前 面 一 笔 付 清 (Pay-up-front)” 模 型 就 不 大 划 
算 了 。 相 反 ， 基 本 硬件 必须 是 模块 化 的 ， 这 样 当 加 入 更 多 的 处 理 器 时 ， 再 增加 相应 的 电源 和 
机 柜 以 及 更 多 的 网 络 设施 。 对 于 具有 好 的 带宽 和 时 延 扩 展 性 的 网 络 来 讲 ， 网 络 的 成 本 将 以 高 
于 节点 数 的 线性 函数 的 速度 增长 ;实际 中 ， 这 个 增长 的 速率 并 不 是 太 大 的 负担 ， 正 如 例 7.2 
中 所 说 明 的 那样 。 

例 7.2 在 很 多 网 络 中 ， 对 于 n 个 节点 ， 网 络 交换 机 的 数量 以 nlogn 的 规模 增长 。 假 设 
在 64 个 节点 的 系统 中 ， 系 统 的 成 本 在 处 理 器 、 存 储 器 、 网 络 之 间 等 量 平衡 ， 那 么 在 一 个 
1 024 节 点 的 系统 中 有 多 大 部 分 的 成 本 用 在 网 络 上 (假设 每 个 处 理 器 使 用 同样 大 小 的 存 
储 器 )? 

解答 : 我 们 可 以 将 系统 的 成 本 标准 化 为 64 节点 系统 的 单个 处 理 器 的 成 本 。 在 1 024 的 大 
配置 中 ， 每 个 处 理 器 所 具有 的 路 由 器 数量 将 会 是 小 型 系统 中 的 10/6 倍 。 所 以 ， 假设 网 络 的 
成 本 正比 于 路 由 器 的 数量 ， 在 1 024 节点 的 系统 中 ， 每 个 处 理 器 的 标准 成 本 是 ， 


1 个 处 理 器 x0.33+ 1 个 存储 器 x 0.33 + 1016 个 路 由 器 x0.33=1 .22 


系统 规模 扩大 16 倍 ， 网 络 所 占 的 成 本 部 分 从 33% 增加 到 45% 。 (实际 中 ， 其 他 的 因素 如 线 
长 的 增加 可 能 使 网 络 成 本 的 增加 稍 快 于 交换 机 的 增长 。) 图 

带宽 如 何 随 端 口 数 的 增加 而 增长 ， 成 本 如 何 增长 ， 网 络 延迟 如 何 增 长 ， 在 不 同 网 络 设计 
中 也 有 很 大 不 同 ， 但 它们 无 疑 都 要 增加 。 对 这 三 个 因素 有 很 多 细微 的 权衡 ， 而 大 部 分 情况 
下 ， 带 宽 增 加 越 大 ， 时 延 的 增加 就 越 小 ， 而 成 本 的 增加 就 越 大 。 好 的 设计 包括 很 多 折 中 。 最 
终 ， 这 些 要 根据 目标 负载 的 应 用 需求 来 决定 。 

最 后 ， 当 我 们 考虑 成 本 的 问题 时 ， 很 自然 会 问 大 规模 并 行 机 器 是 不 是 合算 ， 或 者 是 不 是 
仅仅 是 一 种 能 够 达到 高 性 能 的 手段 。 对 效率 的 标准 定义 (效率 (p) = 加 速 比 (p) Ip) 反 
上 映 了 只 有 当 所 有 的 处 理 吕 在 所 有 时 间 都 被 充分 利用 时 ， 并 行 机 器 才 是 最 有 效率 的 。 这 个 以 处 
理 吉 为 中 心 的 观念 忽视 了 这 样 的 事实 : 系统 成 本 很 大 一 部 分 在 其 他 的 部 分 ， 尤 其 在 存储 器 系 
BP (Wood and Hill 1995)。 假 如 我 们 以 和 加 速 比 类 似 的 方式 定义 了 系统 的 成 本 可 扩展 参数 
成 本 上 升 比 (costup)， 即 Costup (p) =cost (p) /cost (1), 我 们 就 会 看 到 并 行 计 算 的 性 价 比 
是 好 的 ， 也 就 是 说 ， 当 加 速 比 (p) > 成 本 上 升 比 (p) 时 ， 它 具有 较 小 的 人 性 能 价格 比 。 所 
以 ， 在 一 个 真实 应 用 场景 中 ， 我 们 要 考虑 解决 问题 所 需要 的 整体 系统 代价 。 
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7.1.4 物理 可 扩展 性 


尽管 普遍 认为 应 该 使 用 模块 化 结构 来 构建 大 规模 的 机 器 ， 但 是 在 物理 尺寸 的 特殊 要 求 方 
面 却 很 少 有 一 致 的 意见 ， 比 如 说 节点 的 紧凑 程度 、 连 线 长 度 的 选择 、 时 钟 的 策略 等 等 。 在 某 
些 商 用 机 器 中 ， 单 个 的 节点 占用 稍稍 多 于 一 个 微 处 理 器 的 空间 ; 而 在 另 一 些 情况 下 ， 一 个 节 
点 将 会 占用 主板 的 很 大 一 部 分 甚至 是 占据 整个 工作 站 机 箱 。 在 某 些 机 器 中 ， 线 的 长 度 不 会 超 
过 几 英 和 寸 ; 而 在 其 他 一 些 机 器 中 ， 线 长 可 以 达到 数 英尺 。 有 些 机 器 中 ， 链 路 只 有 1 比特 宽 ， 
但 在 其 他 一 些 机 器 中 ， 有 8 比特 或 者 16 比特 宽 。 总 的 来 说 ， 链 路 的 速度 随 长 度 的 增加 而 降 
低 ， 并 且 每 一 种 链 路 技术 由 于 能 耗 需求 和 信 噪 比 的 因素 都 有 自己 的 最 大 长 度 的 限制 。 支 持 很 
长 距离 连接 的 技术 ， 比 如 光纤 ， 每 条 链 路 的 收发 器 和 连接 器 都 有 比较 高 的 固定 成 本 。 因 此 ， 
节点 在 物理 空间 上 的 紧密 排放 对 扩展 性 有 很 大 的 好 处 。 另 一 方面 ， 松 散 的 封装 允许 更 多 地 采 
用 市 售 部 件 ， 因 此 有 利于 降低 工程 上 的 努力 ， 也 降低 了 在 大 型 并 行 计算 机 中 采用 新 的 微 处 理 
器 和 存储 器 技术 的 时 间 滞 后 性 。 因 此 ， 松 散 封装 就 有 了 更 好 的 技术 可 扩展 性 。 物 理 封装 策略 
间 的 众多 复杂 的 折 中 产生 了 众多 的 设计 ， 所 以 最 好 看 一 些 具体 例子 。 这 些 例子 也 有 助 于 使 扩 
展 的 其 他 方面 更 为 具体 。 

1. BAAR 

一 些 设 计 把 通信 体系 结构 直接 集成 在 处 理 器 芯片 上 。nCUBE/2 是 这 种 密集 封装 节点 方法 
的 很 好 的 代表 ， 尽 管 这 种 机 器 本 身 已 经 是 相当 老 。 这 种 高 度 集成 的 节点 方式 在 MIT 的 ]-ma- 
chine (Dally, Keen, and Noakes 1993) 和 很 多 其 他 研究 性 机 器 及 能 入 式 系 统 中 也 被 采用 。 在 芯 
片 密度 继续 增加 的 情况 下 ， 这 种 设计 风格 将 会 变 得 更 加 流行 。 

在 nCUBE 中 ， 每 个 节点 拥有 处 理 器 、 存 储 器 控制 器 、 网 络 接口 和 网 络 路 由 器 ， 集 成 在 
单个 芯片 上 上 。 节 点 芯片 直接 和 DRAM 芯片 以 及 14 个 双向 网 络 链 路 相连 ， 所 有 的 部 件 都 集成 
在 一 个 几 平 方 英寸 的 板 卡 上 ， 图 7-4 显示 了 它 的 真实 尺寸 。 网 络 链 路 形成 了 直接 和 其 他 节点 
连接 的 位 串 行 的 通道 ? 以 及 一 个 到 1/0 系统 的 双向 通道 。28 条 线 中 的 每 一 条 在 节点 芯片 上 都 
有 一 个 专用 的 DMA 设备 。 节 点 插 到 主板 的 插 槽 上， 每 块 主板 64 个 节点 。 而 主板 插 到 无 源 的 
连 线 背 板 上 ， 每 个 处 理 器 芯片 和 其 他 log n 个 处 理 器 之 间 形 成 了 直接 的 节点 对 节点 的 线 对 。 
每 个 处 理 器 一 个 的 IO 链 路 从 主机 架 引 出 ， 连 接 到 包含 一 个 节点 芯片 (连接 到 8 个 处 理 器 ) 
和 一 个 IO 设备 的 V0 节点 上 。 最 大 的 配置 是 8 096 个 处 理 器 ，1991 年 建造 了 具有 2 048 个 节 
点 的 机 器 。 在 所 有 配置 中 ， 系 统 运 行 在 40 MHz 的 单 时 钟 下 。 因 为 有 些 线 需 要 横 跨 整个 机 器 
的 宽度 ， 所 以 密集 封装 对 于 限制 最 大 线 长 而 言 是 关键 的 。 

nCUBE/2 应 该 被 理解 为 当时 的 一 项 重要 设计 。 节 点 芯片 大 约 包含 50 万 个 晶体 管 ， 在 当 
时 是 很 多 的 。 处 理 器 类 似 于 一 个 精简 的 VAX 机 器 ， 运 行 在 20 MHz 的 频率 下 ， 具 有 64 位 的 
整数 运算 和 64 位 IEEE 浮 点 运算 ， 峰 值 运算 速度 7.5 MIPS 和 2.4 MFLOPS 的 双 精 度 运算 。 而 
通信 支持 部 件 占用 了 同 代 单 处 理 器 本 来 应 该 用 于 高 速 缓存 的 硅 片 面积 ， 指 令 高 速 缓存 只 有 
128 字 节 ， 数 据 高 速 缓存 可 以 容纳 8 个 64 位 的 操作 数 。 网 络 链 路 的 宽度 为 1 位， 每 个 DMA 
通道 运行 在 2.22 MBps。 





O nCUBE 节点 以 超 立 方 体 结构 连接 。 一 个 超 立 方 体 ， 或 称 n 立方 体 ， 是 图 74 所 示 的 立方 体 的 一 般 化 形式 ， 在 一 个 
n 节点 的 配置 中 每 个 节点 直接 和 logn 个 其 他 节点 连接 ， 所 以 ，13 条 链 路 可 以 支持 多 达 8096 个 节点 的 设计 方案 。 


RIF THRZRHLB 337 








单 片 节点 


图 74 nCUBE/2 机 的 组 成 结构 。 这 种 设计 基于 一 个 紧凑 的 包含 单 片 节点 的 模块 ， 该 模块 包括 

处 理 器 、 存 储 器 接口 、 网 络 交换 机 和 网 络 接口 ， 直 接 与 DRAM 芯片 和 其 他 的 节点 相连 
就 时 延 可 扩展 而 言 ，nCUBE/2 比 我 们 的 直通 模型 要 复杂 一 点 。 一 条 消息 可 以 包含 任意 数 
基 的 32 位 的 字 ， 发 往 任何 目的 节点 ， 其 中 第 一 个 字 是 目的 节点 的 地 址 。 消 息 以 一 系列 36 位 
的 块 的 形式 被 路 由 到 目的 节点 ， 每 个 块 中 32 位 是 数据 ， 另 加 4 位 是 奇偶 校 验 位 ， 每 一 跳 的 
路 由 时 延 是 44 个 周期 (2.2 ps)， 传 输 时 间 是 每 字 36 个 周期 。 对 mn 个 节点 的 网 络 ， 跳 数 最 多 
为 logn， 平均 距离 是 它 的 一 半 。 作 为 对 照 ，J-machine 把 节点 组 织 成 三 维 的 网 格 〈 实 际 上 是 
三 维 花环 ) ， 这 样 每 个 节点 就 用 很 短 的 连 线 和 六 个 相 邻 节点 连接 。 链 路 相对 较 宽 (8 位 ) 。 这 


种 组 织 结构 中 最 大 跳 数 大 约 是 了 4， 平均 长 度 是 它 的 一 半 。 


2. BARR 

大 规模 机 器 设计 的 最 常用 的 硬件 策略 使 用 标准 的 处 理 器 部 件 并 将 它们 在 板 级 集成 ， 获 得 
中 等 密度 的 封装 。 这 种 方法 的 代表 包括 Caltech 的 超 立 方 体 机 器 (Seitz 1985) 和 Intel 的 IPSC 
和 iPSC/2, 它们 本 质 上 是 在 每 个 节点 中 放置 了 一 个 早期 个 人 计算 机 的 内 核 。 Thinking Machines 
的 CM-5 复制 了 Sun Spare Station! 工作 站 的 核心 部 件 ，CM-500 复制 了 Sun Sparc Station10; 而 
CRAY T3D 和 T3E 基本 上 复制 了 DEC Alpha 工作 站 的 内 核 。 大 多 数 近代 的 机 器 在 一 块 主板 上 
放置 几 个 处 理 器 ， 在 某 些 人 情况 下 ， 每 个 主板 包含 一 台 基于 总 线 的 多 处 理 器 。 例如 ，Intel ASCI 
Red 机 器 就 有 4 000 个 以 上 的 Pentium Pro 双 路 多 处 理 器 。 

在 1993 年 左右 ，Thinking Machines 的 CM-5 是 板 级 方法 的 一 个 很 好 的 代表 。 图 7-5 显示 了 
CM-5 的 基本 硬件 组 成 。 节 点 基本 上 由 一 个 当时 的 工作 站 的 部 件 所 构成 ， 即 一 个 33 MHz 的 
Sparc 微 处 理 器 、 它 的 外 部 浮 点 部 件 以 及 连接 到 基于 MBUS 的 存储 器 系统 的 高 速 缓存 控制 
器 ”。 网 络 接口 是 Spare MBUS 上 的 一 个 附加 的 专用 集成 电路 。 每 一 个 节点 与 两 个 数据 网 络 ,一 





岛 ”CM-5 使 用 专用 的 存储 器 控制 器 ， 该 控制 器 包含 专用 的 、 存 储 器 映射 的 向 量 加 速 器 。 这 种 设计 源 自 CM-2 的 SIMD 
风格 ， 并 且 是 伴随 物理 机 器 的 伸缩 而 来 的 。 
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个 控制 网 络 、 一 个 诊断 网 络 相连 接 。 网 络 组 织 成 4 叉 的 树 ， 其 叶子 是 处 理 节点 。 一 块 板 包含 
4 个 节点 和 一 个 把 这 些 节 点 连结 成 为 树 的 第 一 层 的 网 络 交换 机 。 为 了 提供 可 扩展 的 带宽 ， 
CM-5 使 用 了 一 种 多 根 树 ， 或 称 为 胖 树 〈 将 在 第 10 章 详细 讨论 )， 它 在 每 一 层 具 有 同样 数量 
的 网 络 交换 机 。 每 个 板 包 含 了 构成 16 个 节点 的 网 络 的 第 2 层 的 4 个 网 络 交换 机 中 的 一 个 。 
网 络 树 的 更 高 的 层次 则 位 于 额外 的 网 络 板 上 ， 这 些 板 通过 电费 连 在 一 起 。 一 个 机 柜上 安装 几 
块 板 , 但 是 对 于 具有 几 千 个 节点 规模 的 系统 来 说 ， 就 要 进一步 把 多 个 机 柜 用 大 的 线束 连接 起 
来 。 此 外 ， 使 用 几 个 机 架 的 路 由 器 来 完成 整个 的 互连网 络 。 网 络 中 的 链 路 宽度 为 4 位 ， 时 钟 
频率 40 MHz， 提供 的 峰值 带宽 为 12 MBps。 路 由 延迟 是 每 跳 10 个 周期 ， 最 多 会 有 2log, n Bk. 











控制 
处 理 器 





图 7-5 CM-5 机 的 组 织 结构 。 每 一 个 节点 是 一 个 重新 封装 的 Spare Station 芯片 组 (包括 处 理 器 、 
MMU、 高 速 缓存 、 存 储 器 控制 器 和 DRAM) 和 一 个 MBUS 上 的 网 络 接口 芯片 。 网 络 
(数据 、 控 制 、 诊 断 ) 形成 了 一 个 “可 扩展 的 背 板 ”, 把 计算 分 区 和 LO 节点 连接 起 来 
CM-5 网 络 提 供 了 一 种 可 扩展 的 背 板 ， 以 支持 多 个 独立 的 用 户 划分 以 及 一 些 VO 设备 。 
尽管 存储 器 被 分 配给 了 每 个 处 理 器 ，LIO 却 采 用 了 “舞厅 ”的 方式 来 解决 。 处 理 器 通过 网 络 
以 便 一 致 地 访问 专用 的 IO 节点 集合 。 其 他 机 器 使 用 了 类 似 的 板 级 集成 方法 ， 如 Intel 的 Par- 
agon 和 CRAY T3D 和 T3E， 把 主板 以 类 似 网 格 的 形式 连接 以 保持 连 线 较 短 ， 并 且 使 用 更 宽 更 
快 的 链 路 (Dally 1990b), VO 节点 通常 位 于 网 格 的 面 或 占用 了 立方 体 的 内 面 。 
3. 系统 级 集成 
为 了 减少 采用 最 新 的 微 处 理 器 和 操作 系统 的 工程 化 的 时 间 ， 一 些 现代 的 大 规模 机 器 使 用 
了 较 松 散 的 装配 技术 。IBM 可 扩展 并 行 系统 设计 (SP-1 和 SP-2) 就 是 很 好 的 代表 ; 它 把 多 个 
近乎 完整 的 RS6000 工作 站 装 人 一 个 机 柜 。 因 为 完整 的 标准 系统 用 作 节 点 ， 通 信和 辅助 部 件 和 
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网 络 界面 就 成 为 了 系统 插 卡 的 一 部 分 。 对 IBM SP 来 说 ， 是 使 用 微 通道 适 配 卡 连接 到 位 于 机 
柜 的 基 座 的 交换 机 上 。 每 条 网 络 链 路 工作 于 40 MBps。 一 个 机 柜 装 有 8 到 16 个 节点 ， 所 以 通 
过 连接 很 多 个 机 柜 ， 其 中 包括 一 些 交换 机 机 柜 来 完成 大 的 系统 配置 。 由 于 每 个 节点 都 是 一 个 
完整 的 系统 ， 可 以 选择 将 磁盘 和 其 他 VO 设备 分 布 到 整个 机 器 上 。 在 SP 系统 中 ， 计 算 节 点 
的 磁盘 通常 只 用 作 交 换 空间 和 和 临时 存储 。 大 部 分 的 VO 设备 集中 在 专用 的 VO 节点 上 。 这 种 
设计 方式 允许 节点 间 一 定 程度 的 异 构 性 ， 因 为 只 要 网 络 接 口 卡 可 以 插入 就 行 了 。 例 如 ，SP 
系统 支持 多 种 工作 站 模型 作为 节点 ， 甚 至 包括 SMP 系统 节点 。 

为 大 规模 并 行 机 开发 的 高 速 网 络 技术 已 经 被 为 数 众多 的 局 域 网 所 采用 。 比 如 ，ATM (F 
步 传输 模式 ) 就 是 一 个 可 扩展 的 、 基 于 交换 机 的 网 络 ， 支 持 155 MBps 和 622 MBps 链 路 。 还 
有 连接 多 个 100 MBps 环 路 的 FDDI 网 络 以 及 基于 交换 机 的 光纤 通道 (FiberChannels) 和 HPPI。 
很 多 厂商 提供 了 基于 交换 的 100 MBps 的 以 太 网 ， 基 于 交换 的 千 兆 以 太 网 正在 出 现 。 此 外 ， 
很 多 高 带宽 、 低 时 延 的 系统 域 网 络 (SAN) 可 以 在 较 短 的 物理 距离 上 运行 ， 它 们 已 经 被 商品 
化 ， 如 Myrinet、SCI 和 ServerNet 等 。 这 些 网 络 和 传统 的 大 规模 多 处 理 器 网 络 非常 相似 并 且 人 允 
许 传统 的 计算 机 系统 通过 一 个 可 扩展 、 低 时 延 的 互连网 络 集成 为 一 个 “机 群 ”"。 在 很 多 情况 
下 ， 作 为 节点 的 单 台 机 器 是 小 规模 的 多 处 理 器 。 因 为 节点 是 完备 的 、 独 立 的 系统 ， 这 种 方法 
被 广泛 使 用 来 提供 高 可 用 性 的 服务 ， 比 如 数据 库 ， 当 一 个 节点 失效 时 ， 它 的 那 部 分 工作 由 其 
他 节点 代为 完成 。 


7.1.5 通用 并 行 体系 结构 的 可 扩展 性 


在 几 个 公司 日 常生 产 具 有 成 百 上 千 高 性 能 的 处 理 器 系统 的 今天 ， 大 规模 并 行 机 工程 实现 
上 的 挑战 已 经 被 广泛 认识 。 在 物理 上 密集 集成 和 使 用 新 的 微 处 理 器 技术 的 工程 化 所 需 时 间 之 
间 是 有 矛盾 的 ， 因 而 产生 了 很 多 种 装配 的 解决 方案 。 这 些 方案 概念 上 的 组 成 结构 和 图 7-2 所 
示 的 通用 并 行 体系 结构 是 相同 的 。 可 扩展 互连网 络 的 设计 是 并 行 体系 结构 的 一 个 重要 而 有 趣 
的 子 领域 ， 在 过 去 几 年 来 有 了 巨大 的 进步 ， 对 此 ， 我 们 将 在 第 10 章 中 进行 讨论 。 已 经 推出 
了 一 些 好 的 商品 化 的 网 络 产品 ， 它 们 提供 了 高 的 带宽 和 低 的 时 延 ， 而 且 时 延 随 着 系统 规模 扩 
展 增长 缓慢 。 而 且 ， 这 些 网 络 提供 了 可 扩展 的 集合 带宽 ， 允 许 大 量 的 传输 同时 进行 。 它 们 的 
硬件 传输 错误 率 很 低 ， 有 时 和 现代 的 总 线 错误 率 相当 ， 所 以 是 健壮 的 。 这 些 设计 中 的 每 一 种 


部 因为 带宽 、 时 延 、 成 本 等 因素 而 具有 固有 的 扩展 限制 。 但 是 从 工程 的 观点 来 看 ， 今 天 对 构 


建 一 个 机 器 的 规模 限制 主要 来 自 经 济 上 的 可 行 性 。 

在 实际 中 ， 最 大 目标 规模 对 于 评价 一 个 设计 权衡 来 说 非常 重要 。 它 决定 了 设计 的 级 别 和 
系统 每 一 个 方面 的 工程 努力 。 例 如 ， 为 了 构造 非常 大 的 系统 ， 达 到 高 的 封装 密度 和 高 度 的 模 
块 化 所 付出 的 工程 努力 ， 对 于 中 等 的 系统 来 说 就 不 太 合 算 了 ， 因 为 不 太 复杂 的 方案 就 可 以 满 
足 需 要 。 一 个 实际 设计 寻求 计算 性 能 、 通 信人 性 能 、 机 器 建造 的 当时 成 本 之 间 的 平衡 。 比 如 ， 
较 好 的 网 络 性 能 或 更 高 的 物理 密度 可 以 通过 把 网 络 和 处 理 器 更 紧密 的 集成 来 实现 。 然 而 ， 这 
可 能 会 提高 成 本 ， 也 可 能 由 于 增加 了 处 理 器 到 存储 器 的 时 延 或 延长 了 设计 时 间 而 牺牲 了 性 
能 ， 所 以 ， 可 能 不 是 最 有 效 的 选择 。 由 于 处 理 器 的 性 能 随 着 时 间 不 断 快速 提高 ， 在 技术 曲线 
的 较 后 位 置 开 始 的 一 个 更 为 基本 的 设计 ， 可 以 实现 较 高 的 计算 性 能 ， 但 通信 性 能 可 能 较 低 。 
正 像 设计 的 所 有 方面 一 样 ， 问 题 在 于 如 何平 衡 。 

大 规模 并 行 机 的 一 个 共同 特点 是 允许 很 多 传输 同时 进行 ， 本 质 上 没有 全 局 的 信息 和 全 局 
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的 仲裁 ， 通 信 时 间 主 要 来 自 于 节点 到 网 络 的 接口 。 这 些 问 题 主导 了 我 们 从 体系 结构 角度 出 发 
的 思考 。 单 单 硬件 能 力 的 可 扩展 是 不 够 的 ; 整个 系统 解决 方案 必须 可 以 扩展 ， 包 括 实现 编程 
模型 的 协议 以 及 操作 系统 所 提供 的 能 力 ， 比 如 进程 调度 、 存 储 管理 、L/0 等 。 即 使 硬件 本 身 
能 很 好 地 扩展 ， 由 于 锁 的 竞争 锁 和 应 用 中 资源 共享 所 导致 的 串 行 化 甚至 操作 系统 本 身 ， 也 可 
能 会 限制 系统 有 用 的 扩展 。 假 如 以 性 价 比 好 的 方式 ， 能 够 满足 将 系统 实际 扩展 到 要 求 规模 的 
工程 上 ， 还 必须 保证 支持 目标 编程 模型 的 通信 和 同步 操作 的 可 扩展 性 ， 同 时 维持 一 个 是 够 小 
的 固定 性 价 比 。 


7.2 编程 模型 的 实现 


本 节 ， 我 们 将 考察 如 何在 大 的 分 布 存储 器 型 机 器 上 实现 编程 模型 。 从 历史 角度 看 ， 这 些 
机 器 和 基于 消息 传递 的 编程 模型 密切 相关 ， 但 是 共享 地 址 空间 的 编程 模型 正 变 得 越 来 越 重 
要 。 第 1 章 介绍 了 通信 抽象 的 概念 ， 它 定义 了 提供 给 用 户 的 通信 原 语 集合 。 这 些 可 以 由 硬件 
直接 实现 ,或 由 系统 软件 实现 ,或 者 是 两 者 的 结合 ， 我 们 所 熟悉 的 图 7-6 说 明了 这 一 点 。 它 
把 我 们 的 注意 力 集中 到 支持 通信 的 节点 结构 方面 。 在 小 规模 的 共享 存储 器 的 机 器 中 ， 通 信 抽 
象 被 当 作 存 储 器 接口 的 扩展 由 硬件 直接 支持 。 在 一 致 的 共享 存储 器 抽象 模型 中 ， 根 据 由 状态 
机 集合 所 定义 的 特殊 协议 ， 装 人 和 存储 操作 通过 一 系列 基本 的 总 线 事务 来 实现 。 


CAD 数据 库 科学 建 模 并 行 应 用 


多 道 编程 共享 地 址 消息 传递 。 数据 并 行 编程 模型 


; 通信 抽象 
WERE 用 户 / 系统 界面 
[ stance 


通信 硬件 


物理 通信 介质 
图 7-6 并 行 体系 结构 的 层次 。 这 个 图 表示 了 抽象 的 关键 层 ， 以 及 实现 每 一 层 的 系统 设计 的 各 个 方面 


在 大 规模 并 行 机 中 ， 编 程 模型 用 类 似 的 方式 来 实现 ， 只 是 基本 的 事件 是 跨越 网 络 的 事 
务 ， 即 网 络 事务 ， 而 不 是 总 线 事务 。 一 个 网 络 事务 是 从 源 输出 缓冲 区 到 目的 输入 缓冲 区 的 单 
向 传输 ， 并 在 目的 节点 引发 了 某 种 从 源 节 点 不 能 直接 看 到 的 动作 。 如 图 7.7 所 示 。 这 种 动作 
可 能 非常 简单 比如， 把 数据 存 人 可 以 访问 的 位 置 ， 或 者 一 个 有 限 状态 机 发 生 一 次 状态 转 
换 ), 或 者 可 能 更 具有 一 般 性 比如， 执行 一 个 消息 处 理 例 程 )。 网 络 事务 的 效果 只 能 通过 其 
他 事务 观察 到 。 传 统 的 、 大 规模 机 器 的 硬件 所 直接 支持 的 通信 抽象 隐藏 在 厂商 的 消息 传递 库 
之 下 ， 但 是 一 个 趋势 是 ， 用 户 的 应 用 越 来 越 可 以 访问 较 低层 的 抽象 。 

总 线 和 网 络 事务 间 的 差别 有 着 意义 深远 的 结果 。 潜 在 的 设计 空间 比 我 们 在 第 5 章 中 所 看 
到 的 还 要 大 ， 在 那里 总 线 提供 了 品行 和 广播 的 方式 ,而 基本 事件 在 传统 的 总 线 事务 中 变化 很 
小 。 但 在 大 规模 的 机 器 中 ， 基 本 网 络 事务 本 身 变 化 很 大 ， 这 些 事务 在 端点 如 何 被 驱动 和 如 何 
钻 解 释 也 是 如 此 。 它 们 可 以 对 处 理 器 表达 为 VO 操作 并 完全 由 软件 来 驱动 ， 或 者 可 以 集成 到 
存储 器 系统 中 被 专门 的 硬件 控制 器 所 驱动 。 已 经 设计 和 实现 了 很 多 种 类 的 大 规模 机 器 ， 强 调 
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了 一 系列 编程 模型 ， 在 硬件 /软件 边界 上 使 用 了 一 系列 原 语 ， 提 供 了 不 同 程度 的 硬件 直接 支 
持 和 系统 软件 干预 。 


通信 网 络 
串 行 化 的 数据 包 


输出 缓冲 区 输入 缓冲 区 


源 节 点 目的 节点 





图 7-7 网 络 事务 原 语 。 一 个 从 源 节点 输出 缓冲 区 到 指定 的 目的 节 
点 输入 缓冲 区 的 单 向 的 信息 传输 ， 引 起 目的 端的 某 种 动作 


为 了 和 弄 明白 这 些 设计 的 多 样 性 ， 我 们 将 循序 渐进 地 展开 。 本 节 首 先 更 加 精确 地 定义 网 络 
事务 并 将 其 和 一 个 总 线 事务 仔细 地 做 对 比 。 然 后 概括 了 利用 这 些 原 语 实现 共享 存储 器 和 消息 
传递 抽象 所 涉及 的 方面 ， 但 不 要 受到 网 络 事务 本 身 无 数 实现 方式 的 阻碍 。 在 后 面 的 章节 中 ， 
将 系统 地 考察 实现 网 络 事务 以 及 建立 在 它们 之 上 的 编程 模型 的 设计 选择 空间 。 


7.2.1 基本 的 网 络 事务 


为 了 理解 网 络 事务 中 所 包含 的 内 容 ， 让 我 们 先 再 次 考察 总 线 事务 ， 两 者 之 间 有 很 多 相似 
性 。 在 开始 一 个 总 线 事务 之 前 ， 作 为 虚 - 实 地 址 翻译 的 一 部 分 ， 先 进行 保护 检查 。 总 线 事务 
中 的 信息 格式 由 总 线 的 物理 连 线 所 决定 ， 即 包括 数据 线 、 地 址 线 和 命令 线 。 将 要 传送 到 总 线 
上 的 信息 在 它们 可 以 被 送 到 总 线 之 前 ， 在 特定 的 输出 寄存 器 中 放置 (包括 地 址 、 命 令 、 数 据 
寄存 器 )。 一 个 总 线 事务 以 对 介质 的 仲裁 开始 。 大 多 数 总 线 使 用 全 局 的 仲裁 策略 ， 一 个 请 求 
总 线 事务 的 处 理 器 在 总 线 请 求 线 上 给 出 信号 电 平 ， 并 等 待 相应 的 总 线 许可 信和 号。 事务 的 目的 
地 址 隐 仿 在 地 址 中 。 总 线 上 的 每 个 模块 都 配置 成 能 够 对 应 一 组 物理 地 址 。 所 有 的 模块 检查 地 
址 信息 ， 其 中 有 一 个 会 对 该 事务 做 出 响应 (如果 没 有 模块 响应 ， 总 线 控制 器 将 检测 到 超时 信 
号 并 中 止 该 事务 )。 每 一 个 模块 包括 一 组 给 入 寄存 器 ， 能 够 缓冲 它 可 能 做 出 响应 的 所 有 请 求 。 
每 一 个 总 线 事务 包括 一 个 请 求 和 随后 的 一 个 响应 。 在 读 的 情况 下 ， 响 应 包括 数据 和 一 个 相关 
的 结束 信号 ; 对 于 写 ， 则 只 有 完成 确认 。 在 每 一 种 情况 下 ， 源 和 目的 都 被 通知 事务 的 结束 。 
在 很 多 总 线 中 ， 根 据 一 个 良好 定义 的 调度 来 保证 每 一 个 事务 的 结束 。 主 要 的 差异 是 从 目的 地 
返回 响应 时 间 的 长 短 。 在 事务 拆 分 型 总 线 中 ， 事 务 的 响应 阶段 可 以 要 求 重新 仲裁 并 且 有 可 能 
以 不 同 于 请 求 的 顺序 来 执行 。 

在 事务 拆 分 型 (和 每 个 操作 包括 多 个 总 线 事务 的 一 致 性 协议 ) 中 必须 注意 避免 死 锁 ， 因 
为 在 总 线 上 的 一 个 模块 可 能 在 同时 请 求 和 服务 于 事务 。 模 块 必须 继续 为 总 线 请 求 提供 服务 ， 
并 且 在 它 力图 提出 自己 的 请 求 时 接受 应 答 。 总 线 设计 保证 了 这 一 点 ， 对 任何 可 能 放置 在 总 线 
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上 的 事务 来 讲 ， 在 目的 节点 要 有 足够 的 输入 缓冲 空间 来 接受 事务 。 这 可 以 通过 为 最 坏 的 情况 
提供 足够 的 资源 的 保守 方式 来 解决 ， 或 者 通过 添加 否认 信号 (NACK) 以 乐观 的 方式 实现 。 
在 这 两 种 情况 下 ， 解 决 方案 都 相对 简单 ， 因 为 总 线 上 很 少 有 并 发 的 通信 同时 进行 ， 源 和 有 目的 
HRHR R. 

对 总 线 的 讨论 也 引发 了 网 络 事务 中 的 一 些 问题 。 这 些 问 题 包 括 保护 、 格 式 、 输 出 缓冲 、 
介质 仲裁 、 目 的 地 命名 及 路 由 、 输 入 缓冲 、 动 作 、 结 束 检测 、 事 务 排 序 ， 死 锁 避 免 以 及 传输 
RIE, MHS ABR HEAR AL, HMR SAE, 也 就 是 说 ， 它 们 之 
间 可 能 没有 直接 的 连 线 ， 在 系统 中 也 没有 对 资源 的 全 局 仲裁 。 在 同一 个 时 刻 ， 对 所 有 的 模块 
没有 全 局 的 信息 可 用 ， 大 量 的 事务 可 能 同时 进行 。 这 些 基 本 差别 使 得 上 述 问 题 具有 与 总 线 情 
况 非常 不 同 的 性 质 ， 下 面 让 我 们 依次 考虑 每 一 个 问题 。 

"保护 。 当 部 件 的 数目 较 大 ， 部 件 间 的 耦合 较为 松散 ， 单 个 部 件 更 加 复杂 时 ， 限 制 每 

个 部 件 对 其 他 部 件 的 正确 操作 的 信任 程度 可 能 是 有 意义 的 。 尽 管 在 一 个 基于 总 线 的 
系统 中 ， 处 理 器 在 把 事务 放 到 总 线 之 前 进行 所 有 的 保护 检查 ; 但 在 一 个 可 扩展 系统 
中 ， 单 个 部 件 将 经 常 对 网 络 事务 进行 检查 ， 这 样 一 个 错误 的 程序 或 硬件 部 件 的 失效 
束 不 会 导致 系统 其 他 部 件 的 朋 演 。 
格式 。 大 多 数 网 络 链 路 较 窗 ， 所 以 和 一 个 事务 相关 的 信息 以 串 行 流 方式 传输 。 典 型 
的 链 路 的 宽度 只 有 几 位 (1 ~ 16 位 )。 事 务 的 格式 由 信息 在 传输 链 路 上 串 行 的 方式 来 
决定 ， 而 不 像 总 线 方式 中 以 并 行 的 方式 传输 ， 其 格式 由 物理 连 线 决 定 。 这 样 ， 设 计 
中 就 有 了 很 大 的 灵活 性 。 我 们 可 以 把 网 络 事务 的 信息 看 作 内 部 装 有 更 多 信息 的 一 个 
信封 。 信 封包 括 和 物理 网 络 相关 的 信息 ， 用 来 把 包 从 源 发 送 到 目的 端口 。 这 非常 像 
总 线 事务 中 的 命令 和 地 址 部 分 ， 告 诉 涉及 的 所 有 方面 如 何 处 理事 务 。 一 些 网 络 被 设 
计 成 只 能 发 送 固定 大 小 的 包 ; 而 其 他 的 一 般 可 以 发 送 变 长 包 。 信 封 中 经 常 进一步 包 
含 其 他 信封 。 通 信和 辅助 部 件 可 以 把 用 户 信 息 封装 到 和 远 处 的 通信 辅助 部 件 密切 相关 
的 信封 中 ， 然 后 将 它 再 封装 在 物理 网 络 的 信封 中 。 这 种 把 信息 包 放 置 在 更 大 信封 中 
的 概念 和 传统 网 络 协议 栈 的 封装 很 相似 。 这 提供 了 一 种 对 通信 子 系统 的 层次 进行 抽 
象 的 方式 。 
”输出 缓冲 。 源 必须 提供 容纳 将 要 被 串 行 送 到 链 路 上 信息 的 存储 空间 ， 这 可 能 在 寄存 
ak FIFO 或 者 存储 器 中 。 当 事务 是 固定 格式 时 ， 它 可 以 像 总 线 的 输出 缓冲 区 一 样 简 
单 。 因 为 网 络 事务 是 单 向 的 并 且 具 有 流水 的 潜力 ， 所 以 希望 提供 一 个 输出 寄存 器 的 
队列 。 如 果 包 的 格式 在 某 个 尺寸 范围 内 变化 时 ， 可 以 采取 一 种 简单 的 方法 ， 人 允许 输 
出 缓冲 区 中 的 每 个 项 的 尺寸 可 变 。 假 如 一 个 包 很 长 ， 典 型 的 做 法 是 ， 输 出 控制 器 包 
售 一 个 描述 符 缓冲 区 ， 描 述 符 指向 存储 器 中 的 数据 。 然 后 ， 它 分 阶段 把 存储 器 中 的 
包 的 一 部 分 传送 到 小 的 输出 缓冲 区 中 进而 送 到 链 路 上 ， 经 常 使 用 DMA 的 传输 方式 。 
介质 仲裁 。 对 网 络 的 访问 没有 全 局 的 仲裁 ， 可 以 同时 启动 很 多 网 络 事务 (在 类 总 线 
的 网 络 ， 比 如 以 太 网 中 ， 具 有 对 一 个 或 少量 同时 发 生 的 事务 分 布 式 的 仲裁 )。 启 动 一 
次 网 络 事务 提出 了 对 源 和 目的 间 通 信 路 径 资源 以 及 对 目的 资源 的 隐 式 请 求 。 这 些 资 
源 可 能 是 和 其 他 的 事务 共享 的 。 在 源 端 进行 局 部 的 仲裁 ， 来 决定 是 否 应 该 开始 该 事 
务 。 然 而 ， 这 并 不 意味 着 通 往 目的 节点 的 所 有 需要 的 资源 已 经 预 留 了 ; 资源 是 在 消 
息 前 进 时 逐步 分 配 的 。 
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。 目的 地 命名 和 路 由 。 源 必须 能 够 指定 足够 的 信息 来 使 得 事务 可 以 被 引导 到 合适 的 目 
的 地 。 这 和 总 线形 成 了 对 比 ， 总 线 方式 中 ， 源 只 是 简单 地 把 地 址 放置 到 连 线 上 ， 由 
目的 地 来 选择 是 否 应 该 接受 这 个 请 求 。 有 很 多 不 同 的 路 由 指定 和 执行 的 方式 ， 但 是 
基本 上 ， 源 执行 从 目的 地 的 逻辑 名 到 某 种 形式 的 目的 物理 地 址 的 转换 。 

。 输入 缓冲 。 在 目的 地 ， 网 络 事务 上 的 信息 一 定 要 从 物理 链 路 传送 到 一 些 存 储 单元 中 。 

与 输出 缓冲 区 一 样 ， 这 可 能 是 简单 的 寄存 器 或 队列 ， 或 可 能 直接 传 到 存储 器 中 。 关 

键 的 差别 是 ， 事 务 可 能 来 自 很 多 个 源 ; 与 此 对 照 ， 源 对 于 它 能 发 出 多 少 事务 有 完全 

的 控制 。 在 某 种 意义 上 ， 输 入 缓冲 区 是 由 很 多 远 地 处 理 器 共享 的 资源 ; 对 它 如 何 管 

理 以 及 在 它 被 装 满 后 该 怎么 办 是 我 们 稍 后 要 讨论 的 关键 问题 。 

动作 。 在 目的 地 发 生 的 动作 可 能 非常 简单 ， 比 如 ， 一 次 存储 器 访问 ， 它 也 可 能 相当 

复杂 。 不 管 是 哪 种 情况 ， 它 都 会 产生 一 个 响应 。 

结束 检测 。 源 具有 事务 已 经 被 发 送 到 网 络 上 的 指示 ， 但 是 通常 没有 表明 它们 已 经 到 

达 了 目的 地 的 指示 。 结 束 状 态 必须 通过 响应 、 确 认 或 某 种 进一步 的 事务 来 获得 。 

。 事务 排序 。 尽 管 总 线 提 供 了 很 强 的 对 事务 进行 排序 的 特性 ， 但 在 网 络 中 排序 的 能 力 

很 弱 。 即 使 在 一 个 具有 多 个 未 决 事务 的 分 裂 事务 总 线 上 ， 我 们 也 可 以 依靠 对 地 址 总 

线 的 串 行 仲裁 提供 全 局 的 次 序 。 某 些 网 络 保证 ， 从 给 定 的 源 到 单一 目的 地 的 一 系列 

事务 ， 可 以 在 目的 地 顺序 地 接收 到 ;， 其 他 的 网 络 甚至 对 这 种 有 限 的 保证 都 无 法 做 到 。 

无 论 是 哪 种 情况 ， 没 有 节点 可 以 察觉 到 全 局 的 顺序 性 。 在 大 规模 机 器 上 实现 编程 模 

型 时 ， 必 须 通 过 网 络 事务 强加 次 序 的 约束 。 

死 锁 避免 。 大 多 数 现代 网 络 在 网 络 模块 能 够 在 持续 接受 事务 的 情况 下 无 死 锁 。 在 网 

络 上 ， 这 可 能 需要 限制 允许 的 路 由 或 采取 其 他 的 特殊 预防 措施 ， 正 像 我 们 将 在 第 10 

章 讨论 的 。 当 然 ， 我们 必须 小 心 ， 我 们 为 了 实现 编程 模型 而 使 用 网 络 事务 不 要 引入 

死 锁 。 特 别 地 ， 当 我 们 等 待 ， 不 能 够 产生 事务 时 ， 通 常 需 要 能 继续 接受 进入 的 事务 。 

除了 同时 出 现 的 事务 数目 很 多 和 没有 全 程 仲裁 或 立即 的 反馈 以 外 ， 这 种 情况 非常 类 

似 于 “分 裂 事务 ”总 线 。 

传输 保证 。 可 扩展 网 络 设计 中 一 个 基本 的 决策 是 当 目 的 缓冲 器 满 时 的 行为 。 这 显然 

是 一 个 基于 端 到 端的 问题 ， 因 为 对 于 源 来 说 ， 要 想 在 试图 开始 一 个 事务 前 ， 了 解 目 

的 端的 输入 缓冲 是 否 可 用 并 不 是 一 件 容易 的 事情 。 对 于 网 络 本 身 来 说 ， 这 也 是 一 个 

基于 链 路 到 链 路 的 问题 。 我 们 有 两 个 基本 的 选择 ， 当 缓冲 区 满 时 抛弃 信息 或 者 推迟 

传输 直到 有 空间 时 为 止 。 第 一 种 方法 要 求 能 够 检测 到 缓冲 区 满 并 且 重 试 的 方法 ; 第 

二 种 方法 则 要 求 一 个 流 控 机 制 并 能 导致 事务 堆积 。 将 在 本 章 后 面 考察 这 两 种 方法 。 

总 而 言 之 ， 网 络 事务 是 一 个 从 源 输出 缓冲 区 到 指定 的 目的 地 的 输入 缓冲 区 的 单 向 信息 传 

输 过 程 ， 使 得 目的 端 发 生 某 种 动作 。 让 我 们 接着 考虑 ， 根 据 这 些 原 语 ， 实 现 常用 的 编程 模型 

中 的 通信 抽象 时 所 涉及 的 问题 。 


7.2.2 共享 地 址 空间 


实现 共享 地 址 空间 的 通信 抽象 根本 上 要 求 一 个 双向 的 请 求 -响应 协议 ， 如 图 7-8 所 抽象 
地 说 明 的 那样 。 一 个 全 局 的 地 址 被 分 解 成 一 个 模块 号 和 一 个 局 部 地 址 。 对 于 一 个 读 操作 ， 请 
求 发 送 给 指定 的 模块 ， 请 求 读 取 所 期 望 的 地 址 并 且 指 定 足够 的 信息 来 把 结果 通过 一 次 响应 网 
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络 事务 返回 给 请 求 者 。 一 个 写 操作 与 读 操作 很 相似 ， 只 是 数据 通过 地 址 和 命令 送 到 指定 的 模 
块 ， 而 应 答 不 过 是 把 写 操作 已 经 执行 的 确认 返回 给 请 求 者 。 响 应 则 通知 源 ， 请 求 已 经 被 接受 
或 者 被 服务 ， 这 取决 于 它 在 远程 事件 之 前 还 是 之 后 被 产生 。 这 种 响应 是 保证 合适 的 事务 次 序 
的 基本 需要 。 


源 目的 地 
(1) 启动 存储 器 访问 Loadr e [全 局 地 址 ] 
(2) 地 址 变换 
(3) 局 部 / 远程 检查 
(4) 请 求 事务 读 请 求 
1 
1 读 请 求 
1 


7 I 

(5) 远程 存储 器 访问 ! 等 竺 存储 器 访问 
1 
i 


， 读 响 应 
(6) 应 答 事务 
读 响应 


(7) 存储 器 访问 完成 
时 间 


图 7-8 共享 地 址 空间 通信 抽象 。 该 图 说 明了 基于 基本 的 网 络 事务 ， 对 大 规模 机 器 中 读 操作 的 
剖析 。1) 源 处 理 器 启动 对 全 局 地 址 的 存储 器 访问 。2) 全 局 地 址 被 翻译 成 节点 号 (或 
路 由 ) 和 该 节点 上 的 局 部 地 址 。3) 执行 一 个 检查 以 决定 该 地 址 对 于 发 出 的 处 理 器 是 
否 是 局 部 的 。4) 如 果 不 是 ， 就 执行 一 个 读 请 求 事务 ， 把 请 求 发 送 给 指定 处 理 器 ，5) 
访问 指定 的 地 址 ，6) 通过 一 次 应 答 事 务 把 值 返回 给 原来 的 节点 ,7) 存储 器 访问 完成 
一 个 读 请 求 通常 具有 简单 的 固定 格式 ， 描 述 要 读 的 地 址 和 返回 的 信息 。 写 确认 也 比较 简 
单 。 如 果 只 支持 固定 尺寸 的 传输 〈 即 一 个 字 或 一 个 高 速 缓存 块 )， 读 响应 和 写 请 求 也 是 简单 
的 固定 格式 。 这 可 以 很 容易 地 扩展 以 支持 部 分 字 的 传输 ， 比 如 引入 字 节 使 能 ， 然而， 任意 长 
度 的 传输 要 求 一 个 更 加 通用 的 格式 。 对 于 固定 格式 传输 来 讲 ， 输 出 缓冲 通常 和 总 线 的 情况 一 
样 。 地 址 、 数 据 和 命令 在 输出 寄存 器 上 顺序 分 级 ， 串 行 化 地 送 上 链 路 。 
目的 地 名 通常 由 地 址 翻译 过 程 的 结果 决定 ， 它 把 一 个 全 局 地 址 转化 为 一 个 模块 名 (或 一 
个 到 该 模块 的 路 由 ) 以 及 一 个 模块 的 局 部 地 址 。 成 功 的 翻译 通常 意味 着 获得 对 指定 目的 模块 
的 访问 ， 然 而 ， 源 必须 仍然 要 获得 对 物理 网 络 和 输入 缓冲 区 的 访问 。 因 为 大 量 的 节点 可 能 对 同 
一 个 目的 端 发 出 请 求 ， 并 且 在 源 和 目的 之 问 没 有 全 局 的 仲裁 和 直接 的 耦合 ， 请 求 的 存储 需求 的 
和 可 能 会 超过 节点 的 输入 缓冲 区 。 请 求 可 以 被 处 理 的 速率 只 是 单个 节点 的 处 理 速率 ， 所 以 请 求 
可 能 在 网 络 中 堆积 ， 甚 至 一 直 堆 积 到 源 。 另 一 种 做 法 ， 请 求 可 能 被 丢掉 ， 要 求 重 传 的 机 制 。 因 
为 当 节点 在 发 送 的 时 候 ， 网 络 可 能 无 法 接受 一 个 请 求 ， 每 一 个 节点 即使 在 它 不 能 够 向 网 络 注 人 
自己 的 请 求 时 ， 也 必须 能 够 接受 应 答 和 请 求 ， 以 使 得 网 络 上 的 包 得 以 继续 前 进 。 这 是 在 前 一 章 
节 已 经 看 到 的 读 死 锁 的 一 个 更 加 普遍 的 形式 。 这 种 输入 缓冲 区 问题 和 取 死 锁 问 题 在 很 多 不 同 的 
通信 抽象 中 都 有 发 生 ， 所 以 在 考察 消息 传递 抽象 的 协议 后 ， 对 其 进行 更 详细 的 讨论 。 
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当 支 持 一 个 共享 地 址 空间 的 抽象 时 ， 我 们 需要 询问 它 是 否 是 一 致 的 ， 支 持 什么 样 的 存储 
器 同一 性 模型 。 本 章 ， 我 们 考虑 不 自动 通过 高 速 缓存 复制 数据 的 设计 ; 第 8、9 章 将 集中 讨 
论 这 个 问题 。 因 此 ， 每 一 个 远程 读 和 写 到 达 那 个 具有 被 访问 地 址 的 节点 并 对 该 位 置 进行 读 
写 ， 一 致 性 是 由 穿越 网 络 和 访问 存储 器 的 自然 的 串 行 化 实现 的 。 一 个 重要 问题 是 ， 远 端 节点 
来 的 访问 要 和 本 地 节点 的 访问 相 一 致 。 这 样 ， 如 果 共 享 的 数据 在 本 地 高 速 缓存 ， 远 端 访问 的 
处 理 就 要 在 这 个 节点 满足 高 速 缓 存 的 一 致 性 。 

在 可 扩展 机 器 中 得 到 顺序 的 一 致 性 比 在 基于 总 线 的 设计 中 更 具有 挑战 性 ， 因 为 互连网 络 
没有 把 对 不 同 节 点 存储 器 的 访问 串 行 化 。 而 且 ， 因 为 网 络 事务 的 时 延 较 大 ， 我 们 将 会 尽 可 能 
的 将 它 隐藏 起 来 。 特 别 是 ， 在 不 等 待 返回 完成 确认 而 开始 多 个 写 事务 ， 是 非常 诱 人 的 。 为 了 
了 解 这 将 如 何 破坏 一 致 性 模型 ， 考 虑 我 们 所 熟悉 的 基于 标记 的 代码 段 在 具有 物理 的 分 布 存储 
器 但 无 高 速 缓存 的 多 处 理 器 上 执行 的 情况 。 变 量 A 和 flag 分 配 在 两 个 不 同 的 处 理 节点 上 ， 
如 图 7-9a 所 示 。 由 于 网 络 的 延迟 ,处 理 器 巴 看 到 的 对 A 和 flag 的 写 入 次序 可 能 和 它们 产生 的 顺 


A=1; while (flag==0); 
flag=1; print A; 





图 7-9 对 于 共享 标记 的 存储 器 访问 的 可 能 的 重 排序 。 假 设 网 络 保持 一 个 点 到 点 的 次 序 。 处 
理 器 没有 高 速 缓存 如 图 中 a) 部 分 所 示 。 变 量 A 假设 分 配 在 P 的 存储 器 内 ， 而 变量 
flag 假设 在 PB 的 存储 器 内 被 分 配 。 假 设 所 有 的 处 理 器 不 会 被 存储 指令 暂停 ,就 像 
大 部 分 的 单 处 理 器 系统 那样 。 很 容易 看 到 ， 假 如 从 P, BP, 的 链 路 上 有 网 络 阻塞 ， 
P, 可 能 从 P, 得 到 更 新 过 的 flac, MM P, 读 到 A 的 旧 值 (a =0)。 这 种 情况 很 容易 发 
E, 就 像 图 中 b) 部 分 所 示 的 那样 ， 消 息 在 2D 网 格 中 总 是 先 走 方向 路 由 , BE 了 方向 
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序 相反 。 在 每 一 对 节点 间 保 证 包 的 点 到 点 的 顺序 并 不 能 解决 这 个 问题 ， 因 为 可 能 要 涉及 到 多 
对 的 节点 。 因 为 使 用 网 络 的 不 同 路 径 而 造成 的 可 能 的 重 排序 情况 在 图 7-9b 中 显示 。 写 操作 
需要 确认 的 原因 之 一 就 是 要 解决 这 个 问题 。 这 种 结构 的 一 种 正确 的 实现 方法 是 在 发 出 flag 
的 写 之 前 等 待 写 A 操作 的 完成 。 通 过 使 用 写 的 完成 和 读 应 答 ， 满 足 顺 序 一 致 性 的 充分 条 件 
就 是 简单 的 了 。 更 深层 的 设计 问题 是 如 何在 减 小 等 待 时 间 的 情况 下 来 满足 这 些 条件 ， 做 法 是 
判断 写 操作 已 经 提交 ， 并 且 对 所 有 的 处 理 器 来 讲 ， 它 似乎 已 经 被 执行 了 。 


7.2.3 消息 传递 


在 消息 传递 模型 中 的 一 个 发 送 /接收 对 在 概念 上 是 一 个 从 源 用 户 进 程 指定 的 源 区 域 到 目 
的 用 户 进程 所 指定 的 目的 区 域 的 单 向 传送 。 而 且 ， 它 包含 了 两 个 进程 间 的 成 对 同步 事件 。 在 
第 2 章 ， 我 们 注意 到 基本 的 消息 传递 抽象 中 的 重要 语义 的 变型 ， 比 如 同步 和 异步 消息 发 送 。 
用 户 级 的 消息 传递 模型 根据 基本 网 络 事务 实现 ， 不 同 的 同步 语义 有 相当 不 同 的 实现 〈 即 不 同 
的 网 络 事务 协议 )。 在 大 多 数 早期 的 大 规模 机 器 中 ， 这 些 协议 隐藏 在 厂商 的 内 核 和 库 软件 中 。 
在 较 现代 的 机 器 中 ， 原 语 事务 变 得 对 外 可 见 ， 以 便 能 够 支持 更 多 的 编程 模型 。 

本 章 使 用 和 消息 传递 接口 (MPI) 相关 的 概念 和 术语 。MPI 把 发 送 或 者 接受 调用 的 返回 
和 一 个 消息 操作 的 完成 区 别 开 来 。 一 旦 一 个 相 匹 配 的 接收 被 执行 ， 一 个 同步 发 送 也 就 完成 
了 ， 源 数据 缓冲 区 就 可 以 被 重用 ， 并 且 保 证 数据 已 经 到 达 了 目标 的 接收 缓冲 区 。 一 个 带 缓冲 
的 发 送 一 旦 在 源 发 送 缓冲 区 可 以 重用 时 就 结束 了 ， 不 管 相对 应 的 接收 操作 是 否 已 经 开始 ; 数 
据 可 能 已 经 被 传输 或 者 可 能 在 系统 中 某 处 被 缓存 ? 。 缓 冲 的 发 送 结束 和 接收 进程 是 异步 的 。 
当 消息 数据 已 经 到 达 接收 端的 目的 缓冲 区 时 ， 一 次 接收 过 程 完成 。 一 个 阻塞 式 发 送 或 接收 函 
数 ， 只 有 当 消 息 操作 完成 时 才 返 回 。 一 个 非 阻 塞 的 函数 则 立即 返回 ， 不 管 消 息 完成 与 否 ， 并 
且 进 一 步调 用 探测 函数 来 检测 是 否 完成 。 协 议 只 关心 消息 操作 和 完成 情况 ， 而 和 函数 是 否 阻 
塞 无 关 。 

为 了 理解 从 用 户 消息 传递 操作 到 机 器 的 网 络 事务 原 语 的 映射 ， 让 我 们 先 考虑 同步 消息 。 
执行 源 进程 的 处 理 器 知道 匹配 的 接收 是 否 已 经 执行 的 惟一 方法 是 ， 信 息 通过 一 种 显 式 的 事务 
被 传送 。 从 而 ， 同 步 消 息 操作 可 以 通过 一 个 三 阶段 的 网 络 事务 协议 来 实现 ， 如 图 7-10 所 示 。 
这 个 协议 是 用 于 一 次 发 送 者 启动 的 传输 。 发 送 操作 使 得 一 个 “准备 好 发 送 ” 信 号 传送 给 目的 
地 ， 携 带 了 源 进程 和 标记 信息 。 发 送 者 然后 等 待 ， 直 到 对 应 的 “准备 好 接收 ”信和 号 到 达 。 远 
端的 动作 是 检查 一 个 局 部 表 ， 从 而 决定 对 应 的 接收 是 否 已 经 执行 。 假 如 还 没有 执行 ， 就 把 
“准备 好 发 送 ”信息 记录 在 表 中 ， 以 等 待 匹 配 的 接收 。 假 如 发 现 了 一 个 匹配 的 接收 ， 就 产生 
一 个 “准备 好 接收 ”的 响应 。 接 收 操作 检查 同一 个 表 。 如 果 匹 配 的 发 送 还 没有 在 那里 记录 ， 
则 接收 就 被 记录 下 来 ， 包 括 目的 数据 地 址 。 假 如 一 个 匹配 的 发 送 已 经 存在 ， 接 收 产生 一 个 
准备 好 接收 “事务 。 当 一 个 "准备 好 接收 ?到 达 了 发 送 者 , 它 就 可 以 开始 一 次 数据 传输 .假设 网 








O ” 标 准 的 MPI 模式 是 缓冲 模式 和 同步 模式 的 混合 ， 于 是 给 实现 带 来 很 大 的 自由 ， 但 给 程序 员 很 少 的 保证 。 实 现 可 
以 自由 选择 对 数据 进行 缓冲 ， 但 是 不 能 假定 它 一 定 这 样 做 。 因 此 ， 当 发 送 完成 时 ， 发 送 缓冲 区 可 以 被 重用 ， 但 
不 能 假设 接收 者 已 经 到 达 了 接收 调用 的 地 方 。 也 不 能 假设 发 送 缓冲 能 够 打破 两 个 节点 由 于 互相 发 送 然后 再 接收 
信息 所 造成 的 死 锁 。 非 阻塞 的 发 送 可 以 用 来 避免 死 锁 ， 即 使 在 同步 发 送 的 情况 下 也 可 以 。 就 绪 模式 的 发 送 是 同 
步 模式 的 一 种 更 强 的 变型 ， 当 消息 到 达 目 的 端 时 如 果 接 收 还 没有 执行 就 将 报错 。 因 为 得 到 非 局 部 进程 状态 的 惟 
一 方式 是 通过 消息 的 交换 ， 需 要 用 一 个 显 式 的 消息 事件 来 表明 是 否 已 经 就 绪 。 在 宣布 就 绪 的 接收 和 传送 同步 消 
息 之 间 的 竞争 条 件 和 共享 地 址 空间 情况 的 标记 的 例子 非常 相似 。 
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络 是 可 靠 的 ,一 旦 所 有 的 数据 已 经 传输 ， 发 送 操作 就 结束 了 。 接 收 操作 在 数据 到 达 后 就 会 结 
东 。 注 意 ， 根 据 这 个 协议 ， 源 和 目的 节点 两 者 在 实际 数据 传输 发 生 时 ， 知 道 源 和 目的 地 缓冲 
区 的 局 部 地 址 。“ 准 备 好 ”事务 是 小 的 、 团 定格 式 的 包 ， 而 数据 是 可 变 长 传送 的 。 


源 目的 地 
(1) 启动 发 送 Send (Past, Local VA, len) Recy ( Psr, local VA, Jen ) 
(2) Psre。 上 的 地 址 变换 
(3) 本 地 /远程 检查 
(4) 发 送 准 备 好 请 求 


发 送 准 备 好 请 求 
(5) 远 端 对 发 出 的 接收 的 
检查 (假定 成 功 ) 


s 
(6) 应 答 事务 
《7) 块 数据 传输 I 
源 va 一 目的 
VAH 
™ 接收 准备 好 应 答 
数据 传输 请 求 == 


在 很 多 的 消息 传递 系统 中 ， 和 同步 消息 相 联系 的 匹配 规则 有 相当 大 的 限制 性 ， 接 收 显 式 
地 指定 了 发 送 进程 。 这 就 允许 了 另 一 种 接收 者 启动 的 协议 ， 这 里 ， 匹 配 表 在 发 送 者 处 维护 ， 
只 需要 两 次 网 络 事务 (“接收 准备 好 ”和 “数据 传送 ”)。 

如 图 7-11 所 建议 的 那样 ， 带 缓冲 的 发 送 通过 一 个 “乐观 ”的 单 阶段 协议 简单 地 实现 。 
发 送 操作 在 一 次 大 的 事务 中 传输 源 数 据 ， 使 用 一 个 含有 匹配 信息 (比如 源 进程 和 标记 ) 和 长 
度 信息 的 信封 。 目 的 端 将 信封 剥离 ， 检 查 它 的 内 部 表 ， 决 定 一 个 匹配 的 接收 是 否 已 经 发 出 。 [ae 
假如 有 匹配 接收 ， 它 就 可 以 向 指定 的 接收 地 址 发 送 数据 。 假 如 没有 匹配 接收 ， 目 的 端 将 为 整 
个 消息 分 配 存储 空间 并 且 把 它们 放 入 临时 的 缓冲 区 。 当 后 来 发 出 匹配 的 接收 时 ， 消 息 就 被 拷 
贝 到 指定 的 目的 区 域 ， 清 空 缓冲 区 。 

这 个 简单 的 协议 代表 了 一 类 问题 。 首 先 ， 消 息 数据 的 合适 的 目的 地 址 ， 直 到 检查 了 进程 
和 标记 信息 并 询问 了 匹配 表 之 后 ， 才 能 够 决定 。 这 些 是 代价 很 高 的 操作 ， 一 般 由 软件 来 执 
行 。 同 时 ， 消 息 数据 通过 网 络 以 一 个 较 高 的 速率 流入 。 一 种 方法 是 先 把 数据 接收 到 一 个 临时 
输入 缓冲 区 ， 然 后 把 它们 拷贝 到 合适 的 目的 地 。 当 然 ， 这 就 引入 了 存储 -转发 延迟 并 消耗 了 
相当 数量 的 处 理 器 资源 。 

和 这 个 乐观 方法 相关 的 第 二 个 问题 与 针对 共享 地 址 空间 抽象 的 输入 缓冲 区 的 问题 非常 相 
似 ， 因 为 在 数据 传输 前 没有 “准备 好 接收 ”的 握手 。 事 实 上 ， 问 题 在 很 多 方面 放大 了 。 首 
先 ， 传 输 基 更 大 了 ， 所 以 在 目的 端 所 需要 的 存储 空间 总 量 要 求 相当 大 。 第 二 ， 缓 冲 存储 空间 


时 间 
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的 大 小 依靠 程序 的 行为 ， 它 不 只 是 多 个 发 送 和 接收 者 之 间 速 率 不 匹配 的 结果 ， 也 不 是 数据 恰 
好 在 接收 者 就 绪 之 前 到 达 的 定时 不 匹配 。 多 个 进程 可 能 选择 向 单一 进程 发 送 很 多 消息 ， 该 进 
程 可 能 恰好 要 推迟 很 久 才 接收 它们 。 从 概念 上 来 讲 ， 异 步 消息 传递 模式 假设 在 通常 的 程序 数 
据 结构 外 有 无 限 大 小 的 存储 空间 。 消 息 数据 一 直 存 储 到 接收 事件 发 出 并 执行 。 而 且 ， 必 须 允 
许 阻塞 的 异步 发 送 结束 ， 以 避免 像 成 对 交换 这 样 简单 的 通信 模式 所 引起 的 死 锁 。 要 人 允许 程序 
通过 这 个 发 送 而 继续 执行 ， 直 到 接收 发 出 。 我 们 的 乐观 协议 在 消息 传递 层 没 有 区 分 临时 的 接 
收 端 缓冲 和 拖 长 的 数据 累积 。 
源 目的 地 


(1 启动 发 送 
〈《2]) 地 址 转换 


(3) 本 地 /远程 检查 Send (Pyest, local VA, len) 
(4) 发 送 数据 


(5) 远 端 对 发 出 的 接收 的 
检查 ;如 果 未 发 出 , 分 
配 数据 缓存 






数据 传输 请 求 


Recv(Psrc, Local VA, len) 


时 间 


图 7-11 异步 (乐观 的 ) 消息 传递 协议 。 该 图 说 明了 一 个 用 于 异步 消息 传递 的 简单 的 单 阶段 乐观 

协议 ， 源 只 是 简单 地 把 数据 传送 给 目的 端 ， 而 不 关心 目的 端 是 否 有 存储 空间 来 容纳 数据 

一 个 更 加 健壮 的 消息 传递 系统 使 用 一 个 针对 大 块 传送 的 三 阶段 协议 ， 如 图 7-12 所 示 。 
发 送 端 用 信封 发 出 一 个 “准备 好 发 送 "， 但 是 把 数据 缓冲 在 发 送 端 直到 目的 端 能够 接收 到 为 
止 。 目 的 端 在 有 足够 的 缓冲 空间 ， 或 者 当 一 个 配对 的 接收 已 经 执行 时 发 出 一 个 “准备 好 接 
收 “， 以 使 得 传输 可 以 发 生 于 正确 的 目标 区 域 。 注 意 在 这 种 情况 下 ， 源 和 目的 地 址 在 实际 的 
数据 传输 发 生 之 前 已 经 被 传输 双方 所 知 。 对 于 握手 可 能 成 为 实际 数据 传输 的 主要 代价 的 短 消 
息 来 说 ， 可 以 使 用 一 个 简单 的 信用 方案 。 每 一 个 进程 为 每 个 可 能 会 向 它 发 送 短 消 息 的 进程 设 
置 一 定数 量 的 空间 。 当 发 送 了 一 个 短 消息 后 ， 发 送 者 局 部 地 扣 减 它 的 目的 信用 ， 直 到 接 到 短 
消息 已 经 被 接收 的 确认 。 以 这 种 方式 ， 一 个 短 消息 通常 无 需 等 待 握手 的 往返 延迟 就 可 以 发 
出 。 以 后 使 用 结束 确认 来 决定 什么 时 候 可 以 在 无 需 握手 的 情况 下 发 送 其 他 的 短 消息 。 

至 于 共享 地 址 空间 ， 这 里 的 设计 问题 与 源 和 目的 地 址 是 物理 地 址 还 是 虚拟 地 址 有 关 。 在 
每 一 端的 虚 - 实 映射 可 以 作为 发 送 和 接收 调用 的 一 部 分 来 执行 ， 允 许 通 信 辅 助 部 件 交换 可 用 
作 DMA 传输 的 物理 地 址 。 当 然 ， 页 必须 在 数据 传送 人 存储 器 的 时 候 保 持 常 驻 。 然 而 ， 驻 贸 
的 时 间 可 以 限制 在 将 要 开始 握手 到 传输 结束 为 止 。 另 外 ， 非 常 长 的 传输 可 以 在 源 处 进行 分 
段 ， 以 使 用 很 少 的 驻 留 页 。 而 作为 另 一 种 选择 ， 临 时 缓冲 区 可 以 驻 留 ， 处 理 器 依靠 这 种 驻 贸 
从 源 到 目的 区 域 拷贝 数据 。 解 决 这 个 问题 主要 依靠 通信 辅助 部 件 的 能 力 ， 这 将 在 下 面 进 行 
讨论 。 

简 而 言 之 ， 发 送 /接收 的 消息 传递 抽象 在 逻辑 上 是 一 个 单 向 的 传输 ， 源 和 目的 地 址 由 两 
候 参 加 的 进程 单独 指定 ， 并 且 任 意 数量 的 数据 可 以 在 其 中 任何 数据 被 接受 之 前 发 送 。 这 类 和 
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源 目的 地 


(1) 启动 发 送 Send ¢ Piest, local VA, len ) 


(2) Paesi 上 的 地 址 转换 
(3) 本 地 /远程 检查 


SAME EAR 
(4) BR eR eee 
i 
(5) 远 端 对 发 出 的 接收 的 + 
检查 (假定 失败 ) ;记录 返回 并 计算 RERA 
发 送 准 备 好 


(6) 接收 准备 好 请 求 


(7) Sean 
AVA FNI Recv (Pare local VA, len) 


YA 或 ID 
接收 准备 好 请 求 


数据 传输 应 答 
时 间 


图 7-12 保守 的 异步 消息 传递 协议 。 该 图 说 明了 一 个 1 加 2 阶段 的 保守 异步 消息 传输 协 
议 。 数 据 在 源 处 保持 ， 直 到 匹配 的 接收 执行 ， 使 目的 地 址 在 数据 被 递交 之 前 已 知 
基本 网 络 事务 相关 的 抽象 ， 在 实现 时 要 使 用 三 阶段 的 协议 来 管理 两 端的 缓冲 区 。 尽 管 通过 某 
些 形式 的 流 控制 可 以 安全 地 使 用 一 个 乐观 的 单 阶段 协议 。 


7.2.4 主动 消息 


尽管 共享 地 址 空间 和 消息 传递 成 为 现代 并 行 机 器 的 主要 编程 模型 ， 提 供 一 个 和 这 些 模型 
所 依赖 的 网 络 事务 相近 的 通信 抽象 也 是 可 能 的 。 最 为 广泛 使 用 的 低级 通信 抽象 是 主动 消息 机 
i] (von Eicken et al. 1992), 主动 消息 以 一 种 本 质 上 是 受 限 的 远程 过 程 调用 的 形式 形成 了 请 
求 和 应 答 事务 。 每 一 个 消息 标识 一 个 目的 节点 的 处 理 例 程 ， 在 消息 到 达 时 被 调用 来 处 理事 
务 。 一 个 典型 的 请 求 包括 目标 处 理 器 地 址 ， 在 那个 处 理 器 上 的 消息 处 理 例 程 标识 符 ， 还 有 在 
源 处 理 器 寄存 器 中 作为 参数 传递 给 处 理 例 程 的 少量 数据 字 。 一 个 优化 的 指令 序列 通过 一 个 通 
信和 辅助 部 件 把 消息 发 送 到 网 络 上 。 在 目的 端的 处 理 器 ， 一 个 优化 的 指令 序列 从 网 络 上 抽取 消 
息 并 调用 处 理 例 程 ， 针对 消息 数据 热 行 一 个 简单 的 操作 并 发 出 响应 ， 该 响应 标明 了 源 处 理 器 
上 的 响应 处 理 例 程 。 通 过 构造 实现 适当 协议 的 处 理 例 程 ， 可 以 在 主动 消息 原 语 的 基础 上 建立 
更 高 级 的 编程 模式 (Tucker and Mainwaring 1994; Shah et al. 1998), 

消息 到 达 《〈 即 调用 处 理 例 程 ) 通知 ， 可 以 通过 中 断 或 激励 一 个 线程 的 方式 提供 ， 但 它 必 
须 作为 发 出 一 个 主动 消息 的 一 部 分 ， 以 便 使 这 样 一 个 低层 的 通信 操作 在 没有 任何 缓冲 的 情况 
下 达到 无 死 锁 。 当 力图 发 送 一 个 请 求 的 时 候 ， 网 络 可 能 会 满 ， 处 理 器 应 该 允许 调用 针对 进入 
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的 消息 的 处 理 例 程 ， 以 继续 执行 。 所 以 ， 通 过 一 个 称 作 轮 询 的 空 消 息 事 件 ， 可 以 显 式 地 调用 
处 理 例 程 进行 网 络 服务 。 与 中 断 和 线程 不 同 ， 这 种 方式 允许 处 理 例 程 和 目的 进程 同步 执行 。 

批量 传输 可 以 与 主动 消息 方法 相 结 合 ， 这 可 以 通过 为 事务 安排 相关 的 数据 缓冲 区 (作为 
请 求 的 一 部 分 ， 提 供 了 一 个 指向 源 数据 缓冲 区 的 指针 ， 缓 冲 区 被 拷贝 到 了 目的 端 ， 指 向 目的 
缓冲 区 的 指针 被 提供 给 了 处 理 例 程 )， 或 者 存储 器 到 存储 器 的 拷贝 优先 于 处 理 例 程 的 调用 
(Mainwaring and Culler 1996) 。 


7.2.5 共同 的 挑战 


在 大 规模 系统 中 实现 编程 模型 的 固有 挑战 在 于 每 个 处 理 器 只 了 解 系统 状态 的 一 部 分 ， 而 
非常 多 的 网 络 事务 可 以 同时 进行 ， 并 且 事 务 的 源 和 目的 之 间 并 无 耦合 。 每 一 个 节点 必须 从 自 
己 的 点 到 点 事件 中 推断 系 统 的 相关 状态 。 在 这 样 的 情况 下 ， 一 组 源 节点 在 发 现 问题 之 前 ,可 
能 已 经 使 一 个 目的 节点 过 载 严 重 。 而 且 ， 因 为 涉及 的 时 延 很 大 ， 我 们 试图 使 用 乐观 协议 和 大 
尺寸 的 传输 。 这 些 都 会 增加 目的 端的 过 载 的 可 能 性 。 而 且 ， 用 来 实现 编程 模型 的 协议 对 于 一 
个 操作 往往 需要 多 个 网 络 事务 。 所 有 的 这 些 问 题 都 应 该 被 考虑 到 ， 以 保证 在 没有 全 局 仲裁 的 
情况 下 程序 可 以 向 前 推进 。 这 些 问 题 和 基于 总 线 的 设计 中 遇 到 的 问题 非常 相似 ， 但 是 不 能 够 
依靠 对 总 线 的 约束 ， 即 少量 的 处 理 器 、 有 限 数 目的 未 决 事务 以 及 总 的 全 局 的 排序 来 解决 。 

1. 输入 缓冲 区 溢出 

考虑 一 下 对 远 端 节点 输入 缓冲 区 的 竞争 问题 。 为 了 保持 讨论 的 简单 性 ， 暂 时 假设 在 完全 
可 靠 的 网 络 上 的 固定 格式 的 传输 。 输 入 缓冲 区 的 管理 是 简单 的 : 一 个 队列 就 足够 了 。 每 一 个 
进入 的 事务 放 在 下 一 个 空闲 的 队列 槽 中 。 然 而 ， 很 可 能 有 大 量 处 理 器 同时 请 求 同 一 个 模块 。 
如 果 这 个 模块 具有 固定 的 输入 缓冲 区 容量 ， 在 一 个 大 的 系统 中 ， 它 可 能 会 过 载 。 这 种 情况 类 
似 于 在 网 络 中 对 有 限 缓冲 区 的 竞争 ， 并 且 可 以 以 一 种 类 似 的 方式 来 处 理 。 一 种 解决 方案 是 使 
输入 缓冲 区 变 大 ， 并 且 为 每 个 源 预 留 一 部 分 。 当 源 端 耗 尽 了 自己 在 目的 端的 份额 后 ， 就 必须 
限制 自己 的 请 求 。 这 就 带 来 一 个 问题 ， 源 怎么 知道 它 是 否 还 能 得 到 空间 ? 必须 有 一 些 流 控 信 
息 从 目的 端 传 回 到 发 送 者 。 这 是 一 个 设计 方面 的 问题 ， 可 以 通过 确认 每 一 个 事务 或 者 在 更 高 
的 层次 将 确认 和 协议 硝 合 来 解决 〈 例 如 ， 回 答 指 示 处 理 请 求 的 完成 ) 。 

为 一 种 在 可 靠 的 网 络 中 常用 的 方案 是 ,让 目的 端 在 其 输入 缓冲 区 满 的 时 候 ， 简 单 地 拒绝 
接受 进入 的 事务 。 当 然 ， 数 据 无 处 可 去 ， 所 以 它 会 灌 留 在 网 络 中 一 段 时 间 。 正 向 满 的 缓冲 区 
发 送 的 网 络 交 换 机 将 处 于 一 种 不 能 以 包 到 达 速 度 转交 包 的 状态 。 由 于 它 的 缓冲 有 限 ， 它 最 终 
会 拒绝 接受 输入 包 。 这 种 现象 称 作 反 向 压力 。 假 如 日 的 端的 过 载 持 续 了 足够 长 的 时 间 ， 阻 塞 
的 块 将 会 在 反 向 通 往 所 有 源 的 路 径 上 形成 一 棵 树 。 这 些 源 感到 从 过 载 的 目的 端 传 来 的 反 向 压 
力 ， 被 迫 放 慢 速度 ， 以 使 得 向 目的 端 发 送 的 源 端的 速率 之 和 低 于 目的 端 接收 的 速率 。 

我 们 可 能 担心 系统 在 这 种 情况 下 会 崩溃 。 一 般 来 说 ， 网 络 以 无 死 锁 的 方式 来 构建 一 一 即 
只 要 消息 在 目的 端 可 以 被 移 去 ， 消 息 就 应 该 可 以 前 进 (Dally and Seitz 1987)。 所 以 会 产生 进 
展 。 问 题 在 于 ， 网 络 在 阻塞 的 情况 下 ， 不 是 向 过 载 的 目的 端 方向 前 进 的 消息 也 会 被 阻塞 。 因 
此 ， 在 这 种 阻塞 建立 的 时 候 ， 总 的 通信 时 延 将 会 急剧 增加 。 

一 个 可 靠 网 络 上 的 反 向 压力 在 处 理 节 点 和 网 络 间 建立 了 一 个 有 趣 的 “契约 ”"。 从 源 的 观 
点 看 ， 假 如 网 络 接收 了 一 个 事务 ， 它 就 会 保证 事务 最 终 会 被 传送 到 目的 端 。 但 是 ， 事 务 可 能 
不 会 在 任意 长 的 时 间 内 接收 ， 并 且 在 这 段 时 间 内 源 必须 继续 接受 进入 的 事务 。 
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或 者 ， 可 以 以 另 一 人 使 得 目的 端 可 以 通知 源 端 它 的 输入 缓冲 区 的 状态 。 
这 通常 是 通过 在 反 向 预 留 一 个 特殊 的 确认 路 径 来 实现 。 当 目的 端 接受 一 个 事务 的 时 候 ， 它 会 
对 源 端 明确 地 发 出 确认 ; pees 它 就 会 发 送 一 个 否认 ， 通知 源 以 后 重 发 。 如 
以 太 网 、FDDI 和 ATM 这 样 的 局 域 网 ， 在 没有 足够 的 空间 缓冲 事务 时 ， 会 采取 更 加 原始 的 方 
法 将 其 抛弃 。 源 依靠 超时 来 决定 事务 可 能 已 被 丢弃 并 且 重 发 。 

2. RRA 

输入 缓冲 区 问题 在 请 求 -应 答 协 议 的 情况 下 ， 显 示 了 额外 的 复杂 性 ， 这 是 共享 地 址 空间 
所 固有 的 并 存在 于 消息 传递 的 实现 中 。 在 一 个 可 靠 的 网 络 中 ， 当 处 理 器 试图 启动 一 个 请 求 事 
务 时 ， 由 于 目的 节点 竞争 和 /或 网 络 竞争 ， 网 络 可 能 会 拒绝 接受 它 。 为 了 使 得 网 络 无 死 锁 ， 
就 要 求 源 即 使 在 不 能 开始 自己 事务 的 情况 下 继续 接受 事务 。 然 而 ， 进 入 的 事务 可 能 是 一 个 请 
求 ， 它 将 会 产生 一 个 响应 。 这 个 响应 在 网 络 满载 的 情况 下 无 法 进行 。 

对 这 个 取 死 锁 问 题 的 一 个 通常 解决 方法 是 ， 为 请 求 和 响应 提供 两 个 逻辑 上 独立 的 通信 网 
络 。 这 可 以 通过 两 个 物理 网 络 或 在 单一 网 络 中 具有 单独 的 输出 和 输入 缓冲 的 独立 虚 通 道 来 实 
现 。 尽 管 在 因 试图 发 送 请 求 而 阻塞 时 必须 继续 接受 响应 ， 但 响应 可 以 在 不 启动 进一步 的 事务 
的 情况 下 完成 。 因 此 ， 响 应 事务 最 终 将 有 所 进展 。 这 意味 着 ， 进 入 的 请 求 最 终 将 被 服务 ， 阻 
塞 的 请 求 最 终 将 继续 执行 。 

另 一 个 解决 方案 是 保证 当 一 个 事务 被 启动 时 ， 在 目的 端 输入 缓冲 空间 总 是 可 以 使 用 ， 
是 通过 限制 未 决 事务 的 数量 实现 的 。 AIRRA 
量 的 方法 是 简单 的 ;维护 一 个 计数 器 ， 每 个 响应 将 计数 器 减 -一 ， 人 允许 发 出 一 个 新 的 请 求 。 标 
准 的 阻塞 读 和 写 通过 在 结束 当前 请 求 之 前 等 待 响应 来 实现 。 然 而 ， 如 果 有 P 个 处 理 器 ， 每 
个 处 理 器 最 多 有 个 未 决 请 求 ， 很 有 可 能 所 有 这 kP 个 请 求 指向 同一 个 模块 。 对 于 发 往 同一 
个 目的 地 的 (P-1) 个 未 决 请 求 和 目的 节点 发 出 的 对 请 求 的 响应 ， 空 间 应 该 可 用 。 显 然 ， 
可 以 使 用 的 输入 缓冲 区 最 终 将 限制 系统 的 可 扩展 性 。 因 为 网 络 总 是 把 事务 吸纳 在 目的 地 可 用 
的 输入 缓存 中 ， 所 以 能 保证 请 求 事务 的 进展 。 当 节点 在 它 的 未 决 事务 信用 已 经 耗 尽 时 试图 产 
生 请 求 就 导致 了 取 死 锁 的 问题 。 为 了 接收 它 自己 的 响应 ， 它 必须 对 进入 的 事务 服务 ， 使 进 一 
步 的 事务 得 以 产生 。 进 入 的 请 求 能 被 服务 ， 因 为 请 求 者 保证 为 响应 预 留 了 输入 缓存 空间 。 所 
以 ， 即 使 节点 在 力图 提交 响应 时 ， 仅 仅 将 进入 的 事务 入 队 并 忽略 ， 也 能 够 保证 向 前 的 进展 。 

最 后 ， 我 们 可 以 采用 在 分 裂 事 务 总 线 所 使 用 的 方法 ， 当 输入 缓冲 区 满 的 时 候 ， 和 否认 
(NACK) 事务 。 当 然 ， 否 认可 以 任意 推迟 。 这 里 假设 网 络 可 靠 的 传送 事务 和 和 否认， 但 是 目的 
节点 为 了 腾 出 输入 缓冲 空间 可 能 选择 抛弃 它们 。 响 应 从 来 不 需要 被 否认 ， 因 为 它们 被 其 目的 
节点 吸纳 ， 该 节点 是 与 该 响应 对 应 的 请 求 的 源 并 为 响应 留 有 输入 缓冲 空间 。 当 试图 启动 一 个 
请 求 时 阻塞 ， 我 们 需要 接受 和 吸纳 响应 并 否认 请 求 。 可 以 假设 在 NACK H AIR A EEK 
是 可 用 的 ， 因 为 它 只 是 简单 地 使 用 为 预期 的 响应 预 留 的 空间 。 只 要 每 个 节点 为 请 求 提 供 了 一 
定 输入 缓冲 空间 ， 我 们 就 可 以 保证 最 终 一 些 请 求 将 成 功 ， 并 且 系 统 不 会 活 锁 。 需 要 进一步 的 
预防 措施 来 减少 饿 死 的 概率 。 


7.2.6 通信 体系 结构 设计 空间 


在 本 章 的 其 余部 分 , 将 考察 大 规模 分 布 存储 器 型 机 器 的 重要 设计 间 题 。 回 忆 一 下 ， 如 图 
7-13 所 建议 的 ， 我 们 通用 的 大 规模 机 器 体系 结构 包含 相当 标准 的 节点 结构 ， 由 硬件 的 通信 辅 
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助 部 件 所 增强 。 关 键 的 设计 问题 是 网 络 事务 中 信息 被 通信 辅助 部 件 直接 解释 ， 无 需 节 点 处 理 
器 的 参与 。 为 了 解释 进入 的 信息 ， 必 须 指定 其 格式 ， 就 像 在 构造 一 个 解释 器 ( 即 处 理 器 ) 之 
前 要 定义 一 个 指令 集 的 格式 一 样 。 事 务 的 格式 化 必须 与 地 址 转换 、 目 的 路 由 选择 和 介质 仲裁 
一 起 ， 由 源 通 信 辅 助 部 件 部 分 地 执行 。 所 以 ， 在 产生 网 络 事务 时 源 通 信 辅 助 部 件 执行 的 处 理 
和 目的 地 执行 的 处 理 一 起 ， 实 现 了 提交 给 节点 的 低层 硬件 通信 原 语 的 语义 。 实 现 所 希望 的 纺 
程 模型 的 任何 其 他 处 理 ， 由 节点 处 理 器 在 用 户 级 或 系统 级 进行 。 


可 扩展 网 络 





图 7-13 通用 的 大 规模 体系 结构 中 的 网 络 事务 处 理 。 一 个 网 络 事务 是 一 个 单 向 的 从 源 端 输 出 缓冲 区 到 目 
的 端 输入 缓冲 区 的 数据 传输 ， 引 起 在 目的 端 发 生 某 种 动作 ， 这 种 动作 的 发 生 对 源 端 不 是 直接 可 
见 的 。 源 通信 辅助 部 件 〈《CA) 对 事务 做 格式 化 并 且 通 过 网 络 将 其 送出 。 目 的 通信 辅助 部 件 必 
须 解释 该 事务 并 且 引 发 适当 的 动作 。 这 种 解释 的 本 质 是 可 扩展 多 处 理 器 设计 方面 的 关键 问题 


确立 两 个 通信 辅助 部 件 执行 的 网 络 事务 处 理 本 质 的 地 位 ， 对 设计 的 其 余部 分 有 着 深远 的 
含义 ， 包 括 如 何 实施 输入 缓冲 ， 如 何 加 强 保护 ， 数 据 在 节点 内 拷贝 几 次 ， 地 址 如 何 翻 译 等 
等 。 对 进入 的 事务 的 最 小 解释 就 是 对 它 完全 不 做 解释 。 它 被 看 作 原 始 的 物理 二 进 制 串 ， 只 是 
简单 地 被 放置 在 存储 器 或 寄存 器 中 。 更 多 的 特殊 解释 提供 了 用 户 级 的 消息 、 一 个 全 局 的 虚拟 
地 址 空间 或 者 甚至 一 个 全 局 的 物理 地 址 空间 。 在 后 续 几 节 ， 将 依次 考察 每 一 个 部 分 。 我 们 将 
考察 一 些 使 用 了 相关 设计 的 重要 机 器 进行 案例 分 析 。 


7.3 物理 DMA 


本 节 考 虑 不 对 网 络 事务 中 的 信息 进行 解释 的 设计 。 这 种 方法 在 大 多 数 早期 的 基于 消息 传 
递 的 机 器 上 很 典型 ， 包 括 nCUBE10 和 nCUBE/2, Intel 的 iPSC、iPSC/2 和 iPSC860, Delta. 
Ametek 以 及 IBM SP-1。 另 外 ,大 多 数 的 局 域 网 的 接口 也 遵循 这 一 设计 。 硬 件 可 以 十 分 简单 ， 
并 且 用 户 通信 抽象 非常 通用 ， 只 是 典型 的 额外 开销 太 大 。 


7.3.1 节点 到 网 络 的 接口 


硬件 本 质 上 支持 物理 的 直接 存储 器 存 取 (DMA)， 如 图 7-14 所 示 。 一 个 DMA 设备 或 
DMA 通道 带 有 它 的 地 址 和 长 度 寄存 器 、 状 态 〈 例 如 ， 传 输 就 绪 、 接 收 就 绪 ) 以 及 中 断 使 能 。 
该 设备 或 者 是 存储 器 映射 的 ,或 者 提供 特权 指令 来 访问 这 些 寄存 器 。 地 址 是 物理 地 址 ?3 ， 所 





O 在 Sun 工作 站 和 服务 器 中 使 用 的 SBUS 是 一 个 例外 。 它 提供 虚 DMA， 人 允许 VO 设备 对 虚 地 址 而 不 是 实地 址 操作 。 
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以 在 网 络 事务 中 传输 的 是 连续 的 存储 器 区 段 。 发 送 通常 会 导致 陷 人 操作 系统 。 特 权 软 件 会 提 
供 源 地 址 翻译 ， 把 逻辑 节点 转换 成 物理 路 由 ， 对 物理 介质 进行 仲裁 ， 访 问 物 理 设 备 。 通 常 ， 
数据 会 被 拷贝 到 内 核 区 ， 这 样 ， 可 以 建立 包括 路 由 信息 和 其 他 信息 的 封装 。 圭 装 的 其 他 部 
分 ， 例 如 ， 错 误 检测 位 可 以 由 通信 辅助 部 件 产生 。 操 作 系统 内 核 选 择 适 当 的 通道 ， 把 通道 地 


址 设置 为 消息 物理 地 址 并 且 设置 计数 。( 另 一 种 方案 是 内 核 建立 一 个 包括 这 些 信息 的 描述 符 ， 


并 把 它 发 到 临时 队列 中 去 。) DMA 引擎 把 消息 放 到 网 络 上 。 当 传输 结束 时 ， 输 出 通道 就 绪 标 
记 置 位 ， 产 生 一 个 中 断 ， 如 果 中 断 没有 被 屏蔽 的 话 。 消 息 通过 网 络 到 达 目 的 地 ， 目 的 节点 的 
输入 通道 的 DMA 必须 被 启动 ， 允 许 消息 流 过 网 络 进 入 节点 。( 如 果 在 启动 输入 通道 时 发 生 延 
B, 或 者 如 果 消 息 在 网 络 中 与 其 他 使 用 同一 链 路 的 消息 碰撞 ， 消 息 一 般 会 停留 在 网 络 中 ) 通 
常 ， 输 入 通道 的 地 址 寄存 器 中 预先 设置 了 数据 将 要 存 人 区 域 的 基地 址 。DMA 会 把 网 络 上 到 
达 的 数据 字 送 和 存储 器 。 消 息 尾部 会 设置 输入 就 绪 位 并 产生 一 个 中 断 ， 除 非 中 断 被 屏蔽 。 为 
了 避免 死 锁 ， 必 须 激活 输 入 信道 来 接收 消息 并 排 空 网 络 ， 即 使 在 忙碌 的 输出 通道 上 有 输出 消 
息 需 要 发 送 。 





图 7-14 通信 辅助 部 件 中 对 单纯 物理 的 DMA 的 硬件 支持 。 单 纯 的 物理 DMA 是 最 小 化 的 解释 。 它 允许 目 
标 通 信和 辅助 部 件 仅仅 把 事务 数据 存 人 存储 器 ， 在 那里 由 处 理 器 解释 。 因 为 事务 的 类 型 没有 事先 
决定 ， 所 以 使 用 系统 内 核 缓冲 区 存储 ， 事务 的 处 理 通常 会 涉及 现场 切换 和 一 次 或 多 次 拷贝 过 程 
这 个 方法 的 关键 特征 在 于 目的 处 理 器 启动 一 次 从 网 络 到 存储 器 的 DMA 传输 ， 下 一 个 进 
入 的 网 络 事务 只 是 言 目地 放 到 指定 的 存储 器 区 域 。 当 系统 在 目的 地 端 设 置 输入 DMA 时 ， 它 
无 法 知道 下 一 个 消息 是 用 户 消息 还 是 系统 消息 。 它 只 是 盲 自 地 传人 预先 指定 的 物理 区 域 。 消 
息 到 达 通 常会 引起 一 个 中 断 ， 这 样 ， 特 权 软 件 可 以 检查 消息 ， 处 理 它 或 者 把 它 交 给 适当 的 用 
户 进程 。 节 点 处 理 器 上 的 系统 软件 解释 网 络 事务 并 且 给 用 户 提供 一 个 清晰 的 抽象 。 
一 个 降低 通信 额外 开销 的 可 能 的 方法 是 允许 对 DMA 设备 的 用 户 级 访问 。 如 果 DMA 设备 
是 存储 器 映射 的 ， 正 如 大 多 数 的 情况 ， 问 题 在 于 如 何 设置 用 户 的 虚拟 地 址 空间 以 覆盖 包含 了 
设备 控制 寄存 器 的 WO 空间 。 但 是 ， 采 用 这 种 方法 ， 保 护 域 和 资源 共享 的 级 别 相当 粗糙 。 当 
前 用 户 得 到 整个 机 器 。 如 果 用 户 错误 地 使 用 网 络 ， 那 么 操作 系统 除了 重启 计算 机 之 外 ， 无 法 
进行 干预 。 这 个 设计 已 经 用 于 一 些 试验 性 的 场合 ， 但 不 是 很 健壮 ， 这 使 得 并 行 机 变 得 像 晶 贵 
的 个 人 计算 机 。 
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7.3.2 通信 抽象 的 实现 


因为 在 这 些 机 器 中 的 硬件 通信 辅助 部 件 是 相对 基本 的 ， 关 键 问题 是 如 何 将 新 接收 的 网 络 
事务 以 一 种 健壮 的 、 被 保护 的 方式 递交 给 用 户 进 程 。 这 就 是 编程 模型 和 通信 原 语 的 连接 点 。 
最 常用 的 方法 就 是 直接 在 内 核 支持 消息 传递 的 抽象 。 网 络 事务 到 达 时 触发 一 个 中 斯 。 网 络 事 
务 中 进程 标识 符 和 标记 被 解析 ， 在 图 7-10 或 图 7-12 的 过 程 中 发 生 一 个 协议 动作 。 例 如 ， 如 
果 已 经 发 出 了 匹配 的 接收 ,那么 数据 就 会 被 直接 拷贝 到 用 户 存储 器 空间 。 如 果 未 发 出 ， 那 么 
内 核 就 会 提供 缓冲 或 在 目的 用 户 空 间 分 配 存储 空间 来 缓冲 数据 ， 直 到 匹配 的 接收 被 执行 为 
止 。 田 一 种 方法 是 ， 用 户 进程 可 以 预先 分 配 缓冲 并 利通 知 内 核 它 要 在 何 处 接收 消息 。 一些 消 
息 传递 层 允 许 接 收 者 在 缓冲 区 外 直接 操作 ， 而 不 是 把 数据 接收 到 自己 的 地 址 空间 。 

让 内 核 软件 提供 一 种 全 局 虚拟 地 址 空间 的 用 户 级 抽象 也 是 可 能 的 。 在 这 种 情况 下 ， 读 或 
写 请 求 或 者 直接 通过 系统 调用 发 出 ， 或 者 通过 对 远程 逻辑 页 的 存 取 的 陷阱 而 发 出 。 源 节点 的 
内 核发 送 请 求 并 处 理 响 应 。 目 标 节点 的 内 核 从 网 络 事务 中 提取 用 户 进程 、 命 令 和 县 标 虚 拟 地 
址 并 且 执 行 读 写 操 作 (如 图 7-8 所 示 )， 发 出 响应 。 当 然 ， 与 这 样 的 共享 地 址 空间 抽象 的 实 
现 相 关 的 额外 开销 是 相当 大 的 ， 特 别 是 对 一 次 一 字 的 操作 而 言 。 通 过 成 块 数据 的 传输 可 以 获 
得 更 高 的 效率 ， 它 使 得 这 种 共享 地 址 空间 的 方法 和 消息 传递 一 样 有 竞争 力 。 已 经 建立 了 许多 
软件 共享 虚拟 存储 器 的 系统 ， 多 数 在 工作 站 机 群 上 ， 但 是 主要 的 努力 在 于 自动 复制 ,减少 通 
信 量 。 这 些 将 在 第 9 章 详细 论述 。 

在 内 核 和 用 户 间 的 其 他 连接 是 可 能 的 。 例 如 ， 内 核 可 以 提供 一 个 用 户 级 输入 队列 的 抽 
象 ， 简 单 地 把 消息 附加 到 适当 的 队列 中 ， 在 队列 溢出 时 遵循 某 些 良好 定义 的 策略 (Brewer 等 
1995). 


7.3.3 案例 分 析 : nCUBE/2 


nCUBE/2 是 关于 物理 DMA 型 机 器 的 典型 代表 。 网 络 接 口 的 组 成 结构 如 图 7-15 所 示 ， 每 
一 个 DMA 输出 通道 驱动 一 个 输出 端口 ， 并 且 每 一 个 输入 通道 和 一 个 输入 端口 相连 。 这 个 机 
静 是 直接 网 络 的 一 个 例子 ， 在 直接 网 络 中 ， 数 据 通过 中 间 节 点 从 源 传送 到 目的 地 。 交 换 机 把 
网 络 事务 从 输入 端口 转发 到 输出 端口 。 网 络 接口 检查 到 达 各 个 输入 端口 的 消息 封装 ， 决 定 消 
息 是 否 以 本 节点 为 目的 地 。 如 果 是 ， 就 激活 输入 DMA 将 消息 取 到 存储 嚣 中。 否则 ， 将 消息 
转发 到 适当 的 输出 端口 ? 。 逐 链 路 的 流 控 保 证 这 种 传递 是 可 靠 的 。 A 
子 立方 体 中 ， 路 由 方式 使 得 子 立 方 体 的 链 路 仅仅 由 立方 体内 的 流量 使 用 ;因此 对 于 空间 共 
的 机 器 ， 用 户 程序 不 能 相互 于 扰 。nCUBE/2 的 一 MERZ AEE RAE PH RF 
器 ， 所 以 源 节 点 和 目的 节点 的 内 核 必 须 保 证 进入 的 消息 的 长 度 不 能 超过 存储 器 输入 缓冲 区 。 

为 了 帮助 解释 网 络 事务 和 不 经 拷贝 将 用 户 数据 传送 到 希望 的 存储 区 域 ， 在 nCUBE/2 中 ， 
有 可 能 在 一 次 连续 的 传输 中 传输 一 系列 消息 段 。 在 目标 节点 ， 输 入 DMA 会 在 每 一 个 逻辑 段 
处 停 下 来 。 因 此 ， 目 标 节点 可 以 中 断 ， 检 测 第 一 个 段 ， 决 定 将 其 余 段 引 向 何方 ; 例如 ， 通 过 
查找 一 个 接收 表 。 但 是 ， 这 种 能 力 代价 很 高 ， 因 为 对 每 一 个 逻辑 段 都 需要 一 个 启动 DMA 和 
中 断 (或 忙 等 待 )。 








O ”这 个 路 由 步骤 是 六 立方 体 的 互连网 络 拓扑 与 节点 设计 关联 的 基本 所 在 。 正 如 我 们 在 第 10 章 将 要 讨论 的 ， 输 出 器 
口 是 由 本 地 节点 地 址 和 消息 目的 地 址 的 第 一 个 不 同位 的 位 置 决 定 的 。 
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输入 端口 输出 端口 





图 7-15 nCUBE/2 的 网 络 接口 组 成 结构 。 多 个 DMA 通道 直接 驱动 从 存储 器 到 网 络 或 从 网 络 到 存储 
器 的 网 络 事务 。 输 入 通道 把 数据 存放 进 存 储 器 ， 地 址 由 处 理 器 指定 ， 与 内 容 无 关 。 为 了 避 
免 拷 贝 ， 机 器 允许 多 个 消息 段 合成 一 个 单独 的 单元 通过 网 络 传输 。 一 个 典型 的 方法 是 处 理 
器 向 通信 辅助 部 件 提供 一 个 输入 DMA 描述 符 的 队列 ， 每 个 描述 符 包含 存储 器 缓冲 区 的 地 
址 和 长 度 。 当 网 络 事务 到 达 时 ， 从 队列 弹出 一 个 描述 符 ， 数 据 被 放 入 相关 的 存储 缓冲 区 

最 好 的 策略 是 ， 在 内 核 一 级 ， 当 输出 缓冲 区 正 被 注 人 输出 端口 时 为 每 一 个 输入 通道 保留 
一 个 输入 缓冲 区 (von Eiken et al. 1992) 。 典 型 地 ， 每 个 消息 将 包含 一 个 消息 头 ， 人 允许 内 核 根 
据 消 息 类 型 分 发 消息 ， 并 采取 适当 的 动作 来 处 理 这 一 消息 ; 例如 执行 标记 匹配 或 把 消息 拷贝 
到 用 户 数 据 空间 。 

在 这 个 平台 上 最 有 成 效 并 具有 最 细致 的 文档 的 通信 抽象 是 主动 消息 (von Eiken et al. 
1992)。 用 户 消息 的 第 一 个 字 包 含 了 处 理 该 消息 的 用 户 例 程 的 地 址 。 消 息 的 到 达 触 发 一 个 中 
断 ， 在 栈 上 有 被 中 断 的 用 户 地 址 ， 内 核 执 行 一 个 中 断 返回 ， 切 换 到 消息 处 理 例 程 。 采用 这 种 
方法 ， 可 以 在 13 ps 中 将 一 个 消息 传 到 网 络 上 (16 条 指令 ， 包 括 18 次 存储 器 访问 ， 花费 260 
个 周期 )， 用 15 us 从 网 络 抽取 消息 (18 条 指令 ,包括 26 次 存储 器 访问 ， 花 费 300 个 周期 )。 
将 此 与 厂商 消息 传递 库 所 需要 的 150 ps 的 启动 时 间 相 比 ， 反映 出 消息 传递 编程 模型 中 用 户 级 
操作 和 硬件 基本 操作 之 间 的 差距 。 厂 商 消息 传递 层 使 用 乐观 的 单 向 协议 ， 但 是 需要 匹配 和 组 
冲 区 管理 。 


7.3.4 典型 的 局 域 网 接口 


nCUBE/2 中 的 简单 DMA 控制 器 对 于 并 行 机 是 典型 的 ， 但 质量 上 和 那些 外 部 设备 和 局 域 
网 的 DMA 控制 器 是 不 同 的 。 注 意 ， 每 一 个 DMA 通道 都 能 及 任 一 个 单一 连续 的 传输 。 几 条 简 
短 的 指令 就 完成 了 下 一 次 输入 或 输出 操作 的 通道 地 址 和 通道 限制 的 设置 。 传 统 的 DMA 控制 
侣 提供 了 把 大 量 的 传输 链接 起 来 的 能 力 。 为 了 启动 一 次 输出 DMA， 把 DMA 描述 符 链 接 到 输 
出 DMA 队列 中 去 。 外 设 控制 器 轮 询 这 个 队列 ， 发 出 DMA 操作 并 在 操作 完成 时 通知 处 理 器 。 
大 多 数 的 LAN 控制 器 ， 包 括 Ethernet LANCE, Sun ATM 适配器 以 及 其 他 适配器 ， 提 供 一 
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个 发 送 描述 符 队列 和 一 个 接收 描述 符 队列 。( 这 里 还 有 每 种 描述 符 的 一 个 自由 链表 。 典 型 做 
法 是 ,队列 和 它 的 自由 列表 组 合成 一 个 单一 环 ,) 内 核 在 存储 器 中 建立 了 输出 消息 ， 并 且 建 
立 了 一 个 包括 输出 信息 的 地 址 、 长 度 以 及 某 些 榨 制 信息 的 发 送 描述 符 。 在 某 些 控制 器 中 ， 一 
个 单一 消息 可 以 用 一 系列 描述 符 来 描述 ， 所 以 控制 器 能 从 不 同 的 存储 器 区 域 得 到 包 的 封装 和 
数据 。 典 型 地 ， 控 制 器 有 一 个 通 往 网 络 的 端口 ， 所 以 它 能 把 消息 推 到 网 线 上 。 对 于 以 太 网 和 
令 牌 环 网 ， 每 个 控制 器 在 消息 经 过 的 时 候 检查 ， 所 以 事务 说 明 的 是 目标 地 址 而 不 是 路 由 。 

输入 端 更 加 有 趣 。 每 个 接收 描述 符 有 一 个 目标 缓冲 区 地 址 。 当 一 个 消息 到 达 时 ， 从 队列 
中 弹出 一 个 缓冲 区 描述 符 ， 启 动 一 次 DMA 传送 ， 把 消息 数据 装 人 存储 器 的 相关 区 域 。 如 果 
没有 可 用 的 描述 符 ， 就 丢掉 消息 ， 更 高 层 的 协议 必须 重 传 (就 好 像 消 息 在 传输 中 被 破坏 了 )。 
大 多 数 设备 有 可 配置 的 中 断 逻 辑 ， 所 以 每 次 消息 到 达 的 时 候 产生 一 个 中 断 。 操 作 系统 的 驱动 
程序 管理 这 些 输入 和 输出 队列 。 使 用 这 样 的 设备 ， 即 使 是 一 次 较 小 的 传输 ， 其 设置 所 需 的 指 
令 的 数量 也 是 相当 大 的 ， 部 分 是 由 于 要 形成 描述 符 以 及 控制 器 之 间 的 握手 。 


7.4 用 户 级 访问 


对 进入 的 网 络 事务 的 最 基本 的 硬件 解释 区 分 用 户 消息 和 系统 消息 ， 并 且 无 需 操作 系统 介 
入 ， 把 用 户 的 消息 递交 给 用 户 程序 。 每 个 网 络 事务 携带 一 个 用 户 / 系 统 的 标记 位 ， 在 消息 到 
达 的 时 候 由 通信 辅助 部 件 检查 。 此 外 ， 应 该 能 在 用 户 级 将 用 户 消息 插入 到 网 络 中 去 ; 通信 畏 
助 部 件 在 生成 事务 时 自动 插入 用 户 标 记 。 事 实 上 ， 这 种 设计 观点 提供 了 一 种 用 户 级 的 网 络 端 
口 ， 即 一 种 无 需 系统 介入 就 能 够 被 写 和 人 和 读 出 的 网 络 访问 路 径 。 


7.4.1 节点 到 网 络 的 接口 


图 7-16 显 示 了 一 种 典型 的 支持 用 户 级 网 络 访问 的 并 行 机 组 成 结构 .地 址 空间 的 一 个 区 域 
被 映射 到 网 络 的 输入 和 输出 端口 及 状态 寄存 器 中 ， 如 图 7-17 所 示 。 处 理 器 可 以 通过 向 输出 
端口 写 人 目的 节点 号 和 数据 产生 一 个 网 络 事务 。 通 信 辅 助 部 件 执行 保护 检测 ， 把 逻辑 目的 节 





图 7-16 在 通信 辅助 部 件 中 对 用 户 级 网 络 端口 的 硬件 支持 。 网 络 事务 被 区 分 为 系统 和 用 户 两 类 。 通 
信 辅 助 部 件 向 系统 和 用 户 提供 先进 先 出 的 (FIFO) 网 络 输入 输出 队列 。 通 信和 辅助 部 件 在 发 
送 用 户 消息 时 ， 给 它 打 上 标记 ; 在 接收 到 消息 时 ， 检 查 事务 的 类 型 。 用 户 消息 会 停留 在 用 
Pai A FIFO 中 ， 直 到 用 户 应 用 将 它 取 出 。 系 统 事务 引起 一 个 中 断 ， 由 系统 以 特权 方式 对 
其 进行 处 理 。 由 于 缺少 用 户 级 中 断 的 支持 ， 产 生 中 断 的 用 户 事务 被 当 作 特 殊 的 系统 事务 处 理 
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点 号 转换 成 物理 地 址 或 路 由 ， 并 且 进 行 介质 仲裁 。 它 还 插 人 消息 类 型 和 任何 差错 校 验 信息 。 
当 消 息 到 达 的 时 候 ， 一 个 系统 消息 会 触发 一 个 中 断 ， 系 统 会 把 它 从 网 络 中 抽取 出 来 ， 而 一 个 
用 户 消息 会 留 在 输入 队列 中 ， 直 到 用 户 进程 从 网 络 读 取 它 ， 将 它 从 队列 中 弹出 。 如 果 网 络 阻 
塞 ， 向 网 络 写 消 息 的 企图 就 会 失败 ， 用 户 进程 必须 能 继续 从 网 络 抽取 信息 ， 以 便 能 向 前 推 
进 。 由 于 当前 的 微 处 理 器 不 支持 用 户 级 中 断 ， 一 个 产生 中 断 的 用 户 消 息 会 被 通信 辅助 部 件 当 
作 系 统 消 息 处 理 ， 系 统 迅速 地 将 控制 转交 给 用 户 级 的 处 理 例 程 。 


虚拟 地 址 空间 


图 7-17 用 户 级 网 络 端口 的 典型 体系 结构 。 除 了 指 
令 集体 系 结构 和 存储 器 空间 所 提供 的 存 
储 ， 在 用 户 虚拟 地 址 空间 的 一 个 区 域 提供 
了 网 络 输出 端口 、 输 入 端口 和 状态 寄存 器 
的 访问 。 通 过 写 人 和 读 出 这 些 端口 ， 加 上 
检测 状态 寄存 器 ， 来 启动 和 接收 网 络 事务 





程序 计数 器 


这 种 设计 点 意味 着 通信 和 原 语 多 许 在 网 络 中 的 进程 状态 部 分 ， 即 已 经 离开 了 源 ， 但 还 设 
有 到 达 目 的 地 。 所 以 ， 如 果 构 成 一 个 并 行程 序 的 用 户 进程 集合 是 根据 时 间 片 调度 的 ， 那 么 程 
序 切换 时 中 途 的 消息 集合 也 需要 保护 。 在 程序 恢复 时 ， 它 们 将 被 重新 插 人 到 网 络 或 目的 输入 
队列 中 。 


7.4.2 案例 分 析 : Thinking Machines CM-5 


真正 支持 用 户 级 网 络 的 最 早 的 商用 计算 机 是 1991 年 由 Thinking Machines Corporation 发 明 
的 CM-5。 通 信和 辅助 部 件 包含 在 一 块 网 络 接口 (NI1) 芯片 中 ， 该 芒 片 连接 在 存储 器 总 线 上 ， 
就 好 像 它 是 一 个 附加 的 存储 器 控制 器 ， 如 图 7-5 所 示 。NI 对 两 个 数据 网 络 和 一 个 “控制 网 
络 ” 都 提供 了 输入 和 输出 FEFO， 控 制 网 络 专门 完成 像 栅 障 、 广 播 、 规 约 、 扫 描 这 样 的 全 局 
操作 。 通 过 把 网 络 输入 输出 端口 和 一 些 状态 寄存 器 映射 到 地 址 空间 ， 如 图 7-17 所 示 ， 通 信 
辅助 部 件 可 以 为 处 理 器 所 用 。 内 核 可 以 访问 所 有 的 FIFO 和 和 寄存器， 而 用 户 进程 只 能 访问 用 
户 FIFO 和 状态 。 在 这 两 种 情况 下 ， 都 是 通过 使 用 传统 的 装 人 和 存储 指令 ， 对 通信 辅助 部 件 
的 寄存 器 读 写 来 启动 和 完成 通信 操作 的 。 此 外 ,通信 辅助 部 件 可 以 产生 中 断 。 在 CM-5 中 ， 
每 次 网 络 事务 包括 一 个 小 的 标记 ， 通 信和 辅助 部 件 维 护 一 个 表 ， 用 来 指出 哪些 标记 应 该 引起 中 
断 。( 所 有 的 系统 标记 引起 中 断 。) 

在 CM-5 中 ,可 以 在 1.5 ns (50 个 周期 ) 内 将 五 个 字 的 消息 写 人 网 络 ， 用 1.6 Ls 将 它 读 
出 。 此 外 ， 穿 过 无 载 网 络 的 时 延 从 邻近 节点 闻 的 3 ps 到 跨越 1 024 个 节点 的 5 ps 不 等 。 用 户 
级 向 量 中 断 耗 费 10 ys。 如果 几 个 消息 快速 相继 到 达 ， 用 户 级 的 处 理 例 程 可 能 会 处 理 几 个 消 
息 。 将 消息 传人 或 传 出 网 络 接口 的 时 间 由 在 存储 器 总 线 上 所 花费 的 时 间 决 定 的 ， 因 为 这 些 操 
作 都 是 作为 不 经 高 速 缓存 的 读 写 执行 的 。 如 果 消 息 的 数据 从 寄存 器 出 发 ， 它 可 以 作为 一 系列 
的 缓冲 存储 写 人 网 络 接口 。 但 是 ， 它 后 面 必 须 紧 跟 着 一 个 读 操作 来 检查 消息 是 否 被 接受 ， 在 
这 点 上 ， 要 经 历 写 时 延 ， 因 为 要 再 次 将 写 缓 冲 发 给 NI。 
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如 果 消 息 数 据 从 存储 器 发 出 ， 并 且 要 被 存 到 存储 器 而 不 是 寄存 器 中 ,评价 是 否 使 用 
DMA 将 数据 传人 或 传 出 NI 是 有 趣 的 。 关 键 的 资源 是 存储 器 总 线 。 当 使 用 传统 的 存储 器 操作 
访问 用 户 级 的 网 络 端口 时 ， 消 息 的 每 个 字 先 被 读 到 寄存 器 中 ， 然 后 被 写 到 NI 或 存储 器 中 。 
如 果 数 据 不 能 被 高 速 缓 在， 那么 贺 络 事务 中 每 个 数据 字 涉 及 4 次 总 线 操作 。 如 果 存 储 器 数据 
可 以 被 高 速 缓存 ， 那 么 处 理 器 和 存储 器 的 传输 作为 高 速 缓存 块 传输 执行 ， 当 数据 在 高 速 缓存 
中 时 ， 这 种 传输 可 以 避免 。 但 是 ，NI 读 和 写 依 然 存 在 。 对 于 DMA 传输 ， 使 用 阵 发 传输 模 
式 ， 数 据 在 网 络 事务 的 两 个 端点 只 经 过 存储 器 总 线 一 次 ， 然 而， 仍然 必须 把 DMA 描述 符 写 
入 NI。 如 果 消 息 数 据 不 处 于 存储 器 能 被 高 速 缓存 的 区 域 ， 采 用 DMA 的 性 能 优势 就 会 丧失 列 
尽 ， 因 此 ，NI 所 执行 的 DMA 传输 必须 要 和 处 理 器 的 高 速 缓存 一 致 。 所 以 ， 节 点 存储 器 体系 
结构 支持 一 致 的 高 速 缓存 十 分 关键 。 在 接收 端 ，NI 必须 根据 网 络 事务 中 的 信息 和 NI 内 部 状 
态 局 动 DMA， 否 则 ， 我 们 又 将 面临 单纯 物理 DMA 的 问题 。 这 将 导致 我 们 对 网 络 事务 做 额外 
的 解释 ， 以 便 通 信 辅 助 部 件 抽取 地 址 字段 。 我 们 在 7.5 节 将 进一步 考虑 这 种 方法 。 

CM-5 中 的 两 个 数据 网 络 提供 了 取 死 锁 问 题 的 一 个 简单 解决 方案 : 一 个 网 络 用 于 请 求 ， 
一 个 网 络 用 于 响应 CLeiserson et al. 1996)。 当 请 求 阻塞 时 ， 节 点 继续 接收 到 来 的 应 答 和 请 
求 ， 这 可 能 会 产生 向 外 的 应 答 。 当 发 送 应 答 时 阻塞 ， 只 从 网 络 接受 到 来 的 应 答 。 最 终 应 答 会 
成 功 ， 人 允许 请 求 继续 。 另 一 种 方法 是 ， 可 以 在 每 个 节点 提供 缓冲 区 ， 以 某 种 端 到 端的 流 控 来 
保证 缓冲 区 不 会 溢出 。 当 用 户 程 序 试图 从 输入 队列 弹出 消息 时 被 中 断 ， 系 统 会 提取 消息 的 其 
余部 分 并 在 恢复 程序 执行 之 前 将 消息 放 回 到 输入 队 首 。 


7.4.3 用 户 级 的 处 理 程 序 


几 种 实验 性 的 体系 结构 研究 了 用 户 级 网 络 端口 和 处 理 器 更 紧密 集成 方案 ， 包 括 Manches- 
ter Dataflow Machine (Gurd Kerkham, and Watson 198S) 、 Sigma-1 (Shimada, Hiraki, and Nishida 
1984), iWARP (Borkar et al. 1990). Monsoon (Papadopoulos and Culler 1990), EM-4 (Sakai, Ko- 
dama, and Yamaguchi 1991) il J-machine (Dally, Keen, and Noakes 1993) 。 关 键 的 差别 在 于 网 络 
中 的 输入 和 输出 端口 是 处 理 器 的 寄存 器 ， 如 图 7-18 所 未 ， 而 不 是 特殊 的 存储 器 区 域 。 这 大 
大 改变 了 节点 的 工程 实现 ， 因 为 这 样 ， 通 信和 辅助 部 件 本 质 上 成 了 处 理 器 的 一 个 功能 部 件 。 各 
种 操作 的 时 延 大 大 降低 ， 因 为 是 使 用 寄存 器 到 寄存 器 指令 把 数据 移入 和 移出 网 络 的 。 对 存储 





图 7-18 通信 辅助 部 件 中 对 用 户 级 处 理 例 程 的 硬件 支持 。 用 户 级 处 理 例 程 所 要 求 的 基本 支持 
是 通信 辅助 部 件 能 判定 网 络 事务 发 往 用 户 进程 并 直接 将 它 提交 给 那个 进程 。 这 或 者 
意味 着 每 个 用 户 进程 拥有 一 组 逻辑 FIFO ， 或 者 一 组 FIFO 被 所 有 用 户 进 程 分 时 共享 
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器 总 线 的 带宽 需求 也 降低 了 ， 并 且 通 信 支 持 部 件 的 设计 与 存储 器 系统 的 设计 分 离 了 。 但 是 ， 
处 理 器 要 介 人 每 一 次 网 络 事务 。 大 规模 的 数据 传输 消耗 处 理 器 周期 ， 而 且 有 可 能 污染 处 理 器 
的 高 速 缓存 。 

有 趣 的 是 ， 这 些 实验 性 的 机 器 以 完全 不 同 的 途径 到 达 了 一 个 类 似 的 设计 点 。CMU 和 In- 
tel 联合 开发 的 WARP 机 (Borkar et al. 1990) 把 主 寄存 器 文件 中 的 两 个 寄存 器 绑 定 为 网 络 答 
人 和 和 输出 端口 的 涉 。 在 消息 从 网 络 流 和 时， 处理 器 可 能 会 逐 字 访问 消息 。 此 外 ， 消 息 也 可 以 
被 DMA 控制 器 伪 脱 机 送 到 存储 嚣 中。 处理 器 通过 说 明 一 个 消息 标记 来 指明 它 希 望 通过 此 端 
口 寄 存 句 访 问 哪 个 消息 ， 很 像 一 个 传统 的 接收 调用 中 所 做 的 那样 。 其 他 消息 通过 DMA 控制 
器 写 和 人 存储 器 ，DMA 控制 器 用 一 个 输入 缓冲 队列 来 指明 目的 地 址 。 引 导 一 个 进入 和 离开 的 
消息 通过 寄存 器 文件 的 额外 的 硬件 机 制 是 受到 脉动 算法 的 启发 ， 在 脉动 算法 情况 中 ， 数 据 流 
被 宵 过 高 度 规则 的 处 理 器 流水 线 ， 在 数据 流 经 过 时 ， 做 少量 的 计算 。 通 过 在 网 络 接口 中 解释 
标记 ， 或 者 以 WARP 的 术语 虚拟 通道 ， 基 于 存储 器 的 消息 流 没 有 受到 基于 寄存 器 的 消息 流 
的 打扰 。 与 此 对 照 ， 在 CM-5 风格 的 设计 中 ， 所 有 的 消息 在 单一 的 输入 缓冲 中 交错 。 

MIT 和 Motorola 提出 的 "人 机 (Nikhil, Papadopoulos, and Arvind 1993) 为 用 户 级 消息 处 理 
例 程 提供 了 一 个 更 通用 的 体系 结构 。 它 扩展 了 Motorala 的 88110 RISC 微 处 理 器 ， 使 它 包含 了 
一 个 包括 一 组 寄存 器 的 网 络 功能 部 件 ， 很 像 浮 点 部 件 。 在 这 个 设计 中 ， 一 个 多 字 的 输出 消息 
在 一 组 输出 寄存 器 中 组 成 ， 通 过 一 条 特殊 指令 ， 网 络 功能 部 件 把 它 发 送出 去 。 几 个 输出 寄存 
器 组 构成 一 个 队列 ， 发 送 使 队列 指针 向 前 移动 ， 对 用 户 呈 现下 一 个 可 用 的 组 。 功 能 部 件 的 状 
态 位 指出 是 否 有 一 个 输出 寄存 器 组 可 用 ， 这 些 状 态 位 可 以 直接 在 转移 指令 中 使 用 。 也 有 几 个 
输入 消息 寄存 器 组 ， 所 以 当 一 个 消息 到 达 时 ， 会 被 装 入 一 个 输入 寄存 器 组 中 ， 状 态 位 被 置 位 
或 者 产生 一 个 中 断 。 为 了 允许 处 理 器 快速 转移 到 消息 的 第 一 个 字 所 说 明 的 地 址 ， 提 供 了 额外 
的 硬件 支持 。 

“了 设计 大 量 借鉴 了 以 前 的 支持 消息 驱动 执行 和 数据 流体 系 结构 的 计划 ， 特 别 是 ma- 
chine (Dally, Keen, and Noakes 1993) 、Monsoon (Papadopoulos and Culler 1990) 和 EM-4 (Sakai, 
Kodama and Yamaguchi 1991)。 这 些 早期 的 设计 使 用 了 相当 不 寻常 的 处 理 器 体系 结构 ， 所 以 通 
信和 辅助 部 件 没有 很 明白 地 说 明 。JT-machine 的 设计 提供 了 两 个 执行 现场 ， 每 一 个 现场 都 有 -一 个 
程序 计数 器 和 一 个 小 的 寄存 器 集 -“ 系 统 ”执行 现场 的 优先 权 高 于 “用 户 ” 现 场 。 指 令 集 包 
括 分 段 的 存储 器 模型 ， 一 个 段 是 一 个 特殊 的 在 片上 的 消息 输入 队列 。 每 个 现场 也 有 一 个 消息 
输出 端口 。 网 络 事务 的 第 一 个 字 被 指定 为 消息 处 理 例 程 的 地 址 。 当 用 户 现场 空闲 并 且 一 个 消 
息 在 输入 队列 中 时 ， 消 息 头 自动 地 装 人 程序 计数 器 并 为 访问 消息 的 其 他 部 分 设置 一 个 地 址 寄 
存 器 。 处 理 例 程 在 挂 起 或 结束 之 前 必须 从 输入 缓存 抽取 消息 。 一 个 系统 级 的 消息 的 到 来 会 抢 
占用 户 现场 ， 并 启动 一 个 系统 处 理 例 程 。 

在 Monsoon 的 设计 中 ， 网 络 事务 具有 固定 的 格式 ， 并 且 规 定 包 括 处 理 例 程 的 地 址 、 数 据 
巾 的 地 址 和 一 个 64 位 的 值 。 处 理 器 支持 这 种 小 消息 的 大 队列 。 基 本 的 指令 调度 和 消息 处 理 
机 制 深度 集合 在 一 起 。 在 每 个 取 指 周期 ， 一 个 消息 弹出 队列 ， 消 息 的 第 一 个 字 指 明 的 指令 被 
执行 。 指 令 具 有 1 + x 的 地 址 格式 并 且 指明 一 个 相对 于 帧 地 址 的 偏 移 量 ， 那里 有 第 2 个 操作 
数 。 每 个 帕 的 位 置 包含 一 个 在 在 位 ， 指 明 这 一 位 置 是 满 还 是 空 。 如 果 为 空 ， 消息 中 的 数据 字 
就 会 被 写 入 指定 的 位 置 (类 似 存 储 累 加 器 指令 )。 如 果 位 置 非 空 ， 它 的 值 会 被 取出 ， 对 两 个 
操作 数 执行 操作 ， 产 生 携带 运算 结果 的 一 个 或 多 个 消息 ， 发 到 一 个 本 地 队列 或 者 跨越 网 络 的 
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队列 。 在 较 早 的 更 传统 的 数据 流 机 器 中 ， 网 络 事务 携带 一 个 指令 地 址 和 一 个 标记 ， 标 记 用 于 
在 一 个 相关 匹配 中 定位 第 2 个 操作 数 ， 而 不 是 简单 的 相对 于 帧 的 寻 址 。 较 晚 一 些 的 机 器 (Ni- 
khil and Arvind 1989; Grafe and Hoch 1990; Culler et al. 1991; Sakai, Kodama and Yamaguchi 1991) 
对 每 一 个 消息 出 队 和 匹配 操作 都 执行 一 个 指令 序列 。 


7.5 专用 消息 处 理 


基于 分 布 存储 器 的 大 规模 计算 机 的 第 三 种 重要 的 设计 风格 寻求 使 用 专用 硬件 资源 对 网 络 
事务 进行 复杂 的 处 理 ， 但 不 在 硬件 设计 中 加 入 解释 功能 。 解 释 是 通过 在 通信 处 理 器 (CP) 
上 的 软件 执行 的 ， 专 用 通信 处 理 器 直接 对 网 络 接口 操作 。 有 了 这 种 能 力 ， 很 自然 就 想到 把 与 
消息 传递 抽象 有 关 协 议 处 理 转移 到 CP 中 。CP 能 执行 缓冲 、 匹 配 、 拷 贝 和 确认 操作 。 支 持 一 
个 全 局 的 地 址 空间 ，CP 代表 请 求 节点 执行 远程 读 操 作 也 成 为 合理 的 。CP 之 间 可 以 互相 协 
作 ， 提 供 把 全 局 地 址 空间 中 的 数据 从 一 个 区 域 移 到 另 一 个 区 域 这 样 的 通用 的 能 力 。CP RE 
提供 同步 操作 或 数据 移动 和 同步 的 组 合 ， 比 如 写 数 据 和 标记 设置 或 数据 入 队列 。 本 节 考 察 这 
类 机 器 的 基本 的 组 织 特性 ， 以 便 理解 关键 的 设计 问题 。 作 为 案例 分 析 ， 我 们 会 详细 考察 两 台 
Lat Intel Paragon 和 Meiko CS-2。 

这 种 设计 的 通用 组 成 结构 如 图 7-19 所 示 ， 这 里 计算 处 理 器 (P) 和 通信 处 理 器 (CP) 是 
对 称 的 ， 两 者 都 在 存储 器 总 线 上 。 即 以 基于 总 线 的 SMP 作为 节点 的 基本 部 分 (如 第 5 章 所 
概述 的 )， 扩 充 一 个 与 前 两 节 的 叙述 类 似 的 基本 网 络 接口 。SMP 节点 的 一 个 处 理 器 用 软件 专 
门 设计 ， 作 为 专用 CP。 另 一 种 组 成 结构 是 把 通信 处 理 器 能 人 在 网 络 接口 中 ， 如 图 7-20 所 未 。 
这 两 种 结构 有 不 同 的 时 延 、 带 宽 和 成 本 权衡 。 后 面 将 会 说 明 。 从 概念 上 说 ， 它 们 是 非常 类 似 
的 。 通 信 处 理 器 通常 运行 于 系统 优先 级 ， 使 机 器 设计 者 不 再 受到 前 面 讨论 过 的 与 用 户 级 网 络 
接口 相关 问题 的 困扰 。 这 两 个 处 理 器 通过 共享 存储 器 通信 ， 通 常 采用 命令 队列 和 应 答 区 的 形 
式 ， 所 以 特权 级 的 变换 本 质 上 是 区 域 交 接 的 一 部 分 ， 没 有 什么 代价 。 因 为 设计 假定 系统 级 的 








图 7-19 具有 对 称 处 理 器 的 专用 消息 处 理 的 机 器 组 成 结构 。 每 个 节点 在 共享 存储 器 总 线 上 有 一 个 与 主 处 
理 妖 对 称 的 处 理 器 ， 专 用 于 启动 和 处 理 网 络 事务 。 因 为 是 专用 的 ， 所 以 它 总 是 运行 于 系统 模式 ， 
所 以 通过 存储 器 传送 数据 隐 含 着 跨越 保护 边界 。 CP 能 对 事务 的 内 容 提供 任何 额外 的 保护 性 检查 
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处 理 器 负责 管理 网 络 事务 ， 所 以 它 人 允许 逐 字 地 访问 网 络 接口 的 FIFO 和 DMA。 通 信和 处 理 器 能 
够 检查 消息 各 部 分 ， 决 定 采 取 何 种 动作 。CP 可 以 轮 询 网 络 和 命令 队列 ， 来 执行 通信 进程 。 


数据 用 户 信息 





图 7-20 具有 纤 人 式 处 理 器 的 专用 消息 处 理 的 机 器 组 成 结构 。 通 信和 辅助 部 件 中 包含 一 个 专用 的 、 可 纺 

穆 的 、 舱 人 在 网 络 接口 的 CP。 可 以 和 网 络 之 间 有 直接 路 径 ， 不 需要 和 主 处 理 器 共享 存储 器 总 线 

CP 给 计算 处 理 器 提供 网 络 接口 的 一 个 非常 清晰 的 抽象 。 物 理 网 络 操作 的 所 有 细节 ( 例 

如 ， 硬 件 的 输入 /输出 缓冲 、 状 态 寄 存 器 和 路 由 表示 ) 都 被 隐藏 起 来 。 一 个 消息 的 发 送 是 简 

单 地 把 消息 或 指向 消息 的 指针 写 和 人 共享 存储 器 。 这 两 个 处 理 器 间 交 换 控 制 信息 是 使 用 我 们 熟 

悉 的 共享 存储 器 同步 原 语 ， 例 如 标记 和 锁 。 到 来 的 消息 直接 由 CP 提交 到 存储 器 ， 同 时 通过 

共享 变量 通知 计算 处 理 器 。 通 过 精心 设计 的 用 户 级 抽象 ， 数 据 可 以 直接 放 和 人 用户 地 址 空间 。 

一 个 简单 的 低层 抽象 给 并 行程 序 的 每 个 用 户 进程 提供 一 个 逻辑 的 输入 和 输出 队列 。 在 这 种 情 
况 下 ， 网 络 中 的 消息 流动 如 图 7-21 所 示 。 








图 7-21 具有 对 称 通信 处 理 回 时 的 网 络 事务 流 。 在 主 处 理 器 和 通信 处 理 器 8 之 间 的 缓存 到 缓存 传输 中 ， 每 
个 网 络 事务 流 过 存储 器 ， 或 至 少 通过 存储 器 总 线 。 它 也 跨越 CP 和 网 络 接口 之 间 的 存储 器 总 线 





〇 ”原文 是 存储 器 处 理 器 。 一 一 译 者 注 
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这 种 好 处 并 不 是 没有 代价 的 。 因 为 在 节点 中 ， 计 算 处 理 器 和 CP 间 的 通信 通过 共享 存储 
澳 ， 所 以 通信 的 性 能 受到 高 速 缓存 一 致 性 协议 效率 的 严重 影响 。 在 第 5 章 中 ， 我 们 知道 这 些 
协议 主要 是 为 了 避免 两 个 工作 于 共享 数据 结构 不 相交 区 域 的 处 理 器 间 不 必要 的 通信 而 设计 
的 。 而 共享 的 通信 队列 是 非常 不 同 的 情形 。 生 产 者 写 人 数据 ， 设 置 标 记 ; 消费 者 一 定 要 看 到 
标记 更 新 ， 读 取 数 据 并 清除 标记 。 最 终 ， 生 产 者 看 到 标记 被 清除 ， 再 写 入 数据 。 所 有 的 数据 
应 该 以 最 小 的 时 延 从 生产 者 移 至 消费 者 。 我 们 将 会 看 到 传统 一 致 性 效率 不 高 ， 使 这 一 时 延 变 
得 显著 。 例 如 ， 在 生产 者 写 人 一 个 新 数据 项 之 前 ， 在 消费 者 高 速 缓存 中 的 旧 数 据 的 副本 必须 
作废 。 能 想像 一 个 更 新 协议 或 甚至 没 做 高 速 缓存 的 写 ， 能 够 避 开 这 种 情况 ; 但 如 果 这 样 ， 每 
个 字 ， 而 不 是 每 个 高 速 缓存 块 ， 都 会 产生 一 次 总 线 事务 。 

第 二 个 问题 是 CP 执行 的 功能 是 高 度 并 发 的 。 它 要 同时 面 对 来 自 计 算 处 理 器 的 请 求 、 网 
络 上 到 达 的 消息 和 发 往 网 络 的 消息 。 把 所 有 这 些 事 件 折 秋 成 一 个 串 行 分 支 循环 ， 每 次 只 能 处 
理 一 个 事件 。 这 会 严重 削弱 硬件 的 处 理 速度 。 

最 后 ，CP 直接 把 消息 传送 到 存储 器 的 能 力 并 没有 完全 消除 用 户 级 取 死 锁 的 可 能 性 ， 尽 
管 它 能 保证 当 应 用 死 锁 时 ， 物 理 资源 不 会 停止 工作 。 用 户 应 用 可 能 需要 提供 某 种 额外 流 控 。 


1 案例 分 析 : Intel Paragon 


为 了 这 些 一 般 性 的 论点 具体 化 ， 看 一 下 它们 如 何 体 现在 这 类 机 器 的 一 个 重要 代表 一 一 
Intel Paragon 中 的 ，Intel Paragon 于 1992 年 首次 推出 。 每 个 节点 都 是 一 个 共享 存储 器 的 多 处 理 
器 ,包含 两 个 或 更 多 个 50 MHz i860XP 处 理 器 、 一 个 网 络 接口 (NI) 芯片 、16 MB 或 32 MB 
存储 器 ， 由 一 条 工作 于 400 MBps 的 64 位 高 速 缓存 一 致 的 存储 器 总 线 连结 在 一 起 ， 如 图 7-22 
所 示 。 另 外 ， 在 存储 器 和 网 络 间 成 组 数据 传输 提供 了 两 个 DMA 引擎 (一 个 用 于 发 送 ， 另 - 
个 用 于 接收 )。DMA 传 输 操 作 于 高 速 缓存 一 致 性 协议 之 下 ,在 缓冲 区 溢出 或 内 容 跟 不 上 时 ， 


7. 






NI 片 
2 KB FIFO 





图 7-22 Intel Paragon 机 的 组 成 结构 。 机 器 的 每 个 节点 包括 一 个 专用 的 、 与 挂 在 高 速 组 
存 一 致 的 存储 器 总 线 的 计算 处 理 器 相同 的 CP， 它 与 快速 可 靠 的 网 络 之 间 有 
一 个 简单 的 系统 级 接口 ， 并 有 两 个 高 速 缓存 一 致 的 DMA 引擎 照料 NIC 的 流 控 
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由 网 络 接口 对 DMA 调 速 。 一 个 处 理 器 被 指定 为 CP， 处 理 网 络 事务 和 消息 传递 协议 ， 其 他 的 
是 用 作 通 用 计算 的 计算 处 理 器 。 通 过 添加 SCSI, Ethemet 和 HPPI 连接 的 1/0 子 卡 ,形成 <10" 
节点 。 

i860XP 通常 使 用 回 写 高 速 缓存 ， 也 可 以 在 软件 和 硬件 控制 下 配置 成 使 用 直 写 和 一 次 写 
策略 。 写 缓冲 可 以 容纳 两 个 连续 的 存储 ， 避 免 写 扑 空 时 的 暂停 。i860XP 的 高 速 缓存 控制 器 
实现 了 第 5 章 讨 论 的 MES (修改 、 执 行 、 共 享 、 作 废 ) 高 速 缓存 一 致 性 协议 的 变型 。 外 部 
总 线 接口 也 支持 3 级 地 址 流水 ( 即 3 个 未 决 总 线 周 期 ) 和 突 发 模式 ， 传 输 长 度 为 2 或 4， 速 
率 为 400 MBps。 

NI 芯片 把 一 个 64 位 同步 的 存储 器 总 线 连接 到 16 位 的 异步 〈 自 定时 ) 网 络 链 路 。 一 个 2- 
KB 的 发 送 FIFO (tx) 和 一 个 2-KB 的 接收 FIFO (rx) 用 于 节点 和 全 双 工 175 MBps 的 网 络 链 路 
间 的 速率 匹配 。 接 收 FIFO 的 头 和 发 送 FIFO 的 尾 可 以 作为 存储 器 映射 的 NI 芯片 V0 寄存 器 被 
节点 访问 。 此 外 ， 状 态 寡 存 器 包含 一 些 标记 位 ， 反 映 FIFO, FIFO 空 FIFO 接近 满 或 接近 
空 等 状态 以 及 包 尾 标记 出 现 的 情况 。 在 这 些 标记 位 之 一 被 置 位 时 ，NI 芯片 可 以 选择 产生 一 
个 中 断 。 对 NI 芯片 的 FIFO 的 读 写 是 不 经 过 高 速 缓存 的 ， 每 次 必须 读 写 双 字 (64 位 )。 消息 
的 第 一 个 字 必 须 包含 路 由 信息 (2D 网 格 中 的 X-Y 位 移 量 )， 但 是 硬件 对 消息 的 格式 不 做 任何 
限制 。 特 别 地 ， 它 不 区 分 用 户 和 系统 信息 。 此 外 ，NI 芯片 还 进行 奇偶 校 验 和 CRC 校 验 的 检 
查 ， 保 证 端 对 端的 数据 完整 性 。 

两 个 DMA 引擎 ， 一 个 用 于 发 送 ， 一 个 用 于 接收 ， 可 以 以 400 MBps 的 速度 在 存储 器 和 NI 
芯片 之 间 传 送 连续 的 数据 块 。 存 储 器 区 域 用 对 齐 于 32 字 节 边界 的 物理 地 址 访问 ， 长 度 为 64 
字 节 到 16 KB (一 个 DMA 页 )， 是 32 字 节 (一 个 高 速 缓存 块 ) 的 整 倍数 。 在 DMA 传输 中 ， 
DMA 引擎 侦 听 处 理 器 高 速 缓存 来 保证 一 致 性 。 硬 件 流 控 防 止 DMA LE ak FRE NI 芯片 的 
FIFO 队列 。 如 果 输 出 缓冲 满 ， 发 送 DMA 会 暂停 并 释放 总 线 。 类 似 地 ， 接 收 DMA 在 输入 绥 
冲 空 时 也 会 暂停 。 总 线 仲 裁 器 给 予 DMA 引擎 的 优先 权 高 于 处 理 器 。-- 次 DMA 传输 的 启动 是 
使 用 stio 指令 ， 把 地 址 和 长 度 写 到 存储 器 映射 的 DMA 寄存 器 中 。 结 束 时 ，DMA 在 引擎 状 
态 寄存 器 中 设置 一 个 标记 位 并 可 以 选择 地 产生 一 个 中 断 。 

以 这 种 硬件 配置 ， 可 以 在 10 ps (500 周期) 多 一 点 的 时 间 内 ， 把 一 个 小 于 两 个 高 速 缓存 
块 的 消息 (7 个 字 ) 从 一 个 计算 处 理 器 的 寄存 器 传 到 另 一 个 等 待 的 计算 处 理 器 的 寄存 器 ， 这 
个 时 间 可 以 被 划分 成 几乎 相等 的 三 部 分 处 理 器 到 处 理 器 的 传输 : 计算 处 理 器 通过 总 线 到 CP, 
CP 通过 网 络 到 CP, CP 通过 远程 节点 的 总 线 到 计算 处 理 器 。 令 人 吃惊 的 是 ， 高 速 缓存 一 致 的 
存储 器 总 线 上 的 两 个 处 理 器 间 的 传输 和 经 由 网 络 的 两 个 CP 间 的 传输 有 着 相同 的 时 延 ， 特 别 
是 处 理 器 和 网 络 接口 之 间 的 传输 还 涉及 同一 总 线 上 的 传输 。 

让 我 们 更 仔细 地 看 一 下 这 个 情况 。 一 个 i860 处 理 器 可 以 用 两 条 4 字 的 存储 指令 把 寄存 
帮 中 的 数据 写 人 到 高 速 绥 存 块 中 。 假 定 该 块 的 一 部 分 用 作 满 -. 空 标记 。 在 这 种 典型 情况 下 ， 
对 这 个 块 的 最 后 一 个 操作 是 消费 者 的 一 个 清除 标记 存储 指令 ; 采用 Paragon 的 MESI 协议 ， 这 
个 写 操作 直 写 到 存储 器 ， 使 生产 者 的 块 作废 ， 并 使 消费 者 处 于 独占 状态 。 生产 者 读 取 这 个 标 
记 ， 发 现在 生产 者 的 高 速 缓存 中 标记 扑 空 ， 于 是 从 存储 器 读 这 个 块 ， 并 把 消费 者 的 块 降级 为 
共享 态 。 第 一 个 存储 指令 直 写 并 作废 了 消费 者 的 块 ， 但 是 它 使 生产 者 的 块 处 于 共享 态 ， 因 为 
在 执行 写 操作 时 检测 到 了 共享 .第 二 个 存储 指令 也 是 直 写 ,但 是 因为 没有 共享 者 , 它 使 
生产 者 处 于 独占 态 。 消 费 者 最 终 读 这 个 标记 ， 扑 空 ， 接 着 读 和 整个 块 。 所 以 ， 一 次 高 速 缓存 
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块 传输 要 求 4 次 总 线 事务 。( 通 过 使 用 一 个 额外 的 标记 ， 人 允许 生产 者 检测 几 个 块 为 空 ， 可 以 
将 此 降 为 3 次 总 线 事务 。 这 留 作 习题 。) 数据 以 一 系列 不 经 高 速 缓存 的 双 字 存 储 被 写 人 网 络 
接口 。 它 们 都 经 过 写 缓冲 流水 作业 ; 但 是 ， 它们 确实 涉及 多 次 总 线 传输 。 在 写 数据 之 前 ， 
CP 需要 检查 在 输出 缓冲 区 中 是 否 还 有 空间 来 写 数据 。 为 此 ，CP 检查 处 理 器 状态 字 中 对 应 可 
屏蔽 “输出 缓冲 空 ”中 断 的 一 个 状态 位 ， 而 不 是 付出 一 次 不 经 高 速 缓存 的 读 的 代价 。 在 接收 
端 ，CP 读 取 一 个 类 似 的 “输入 非 空 ”状态 位 ， 然 后 用 一 系列 非 高 速 缓存 的 装 人 来 读 取消 息 
数据 。 在 一 个 无 负载 网 络 上 ， 每 个 实际 的 NI 到 NI 的 传输 只 需 大 约 250 ns 加 上 每 跳 40 ns 的 
时 间 。 

对 于 存储 器 到 存储 器 的 块 传送 ， 需 要 CP 做 一 些 额 外 的 工作 ， 启动 源 于 用 户 源 区 域 的 发 
送 DMA。 这 大 约 需要 2 js 的 时 间 (100 周期 )。DMA 以 400 MBps 的 突 发 方式 传送 到 2 048 字 
节 的 网 络 输出 缓冲 区 。 当 输出 缓冲 区 满 时 ，DMA 暂停 直到 一 些 高 速 缓存 块 被 传 到 网 络 上 。 
在 接收 端 ，CP 检测 到 消息 的 到 来 ， 读 取 包 含 目的 存储 器 地 址 的 前 几 个 字 ， 启 动 接收 DMA 把 
消息 的 其 余部 分 送 入 存储 器 。 对 于 大 批 的 传输 ， 在 接收 DMA 引擎 正 把 数据 移 人 存储 器 时 ， 
RIS DMA 引擎 正在 把 数据 移出 存储 器 ， 传 输 的 部 分 占据 它们 之 间 的 缓冲 区 和 网 络 链 路 。 此 
刻 ， 消 息 在 网 络 链 路 上 以 175 MBps 的 速率 向 前 传输 。 发 送 DMA 引擎 和 接收 DMA 引擎 周期 
性 地 介入 ， 以 400 MBps 的 突 发 速率 把 数据 移 进 和 移出 缓冲 区 。 

对 CP 的 要 求 显示 ， 它 负责 对 CP 必须 采取 动作 的 大 量 的 独立 事件 做 出 响应 。 这 些 包括 
当前 用 户 程序 将 消息 写 人 共享 队列 ， 计 算 处 理 器 内 核 程序 把 消息 写 人 类 似 的 “系统 队列 ”， 
网 络 把 消息 送 入 NI 输入 缓冲 区 ， 网 络 接受 消息 后 NI 输出 缓冲 区 变 为 空 ， 发 送 DMA 引擎 结 
RUR R DMA 引擎 结束 。CP 的 带宽 由 它 检测 各 种 事件 并 根据 各 种 事件 而 分 支 所 花费 的 时 
间 决 定 。 当 处 理 其 中 任何 一 个 事件 时 ， 所 有 其 他 事件 被 有 效 地 锁 在 外 面 。 引 入 DMA 引 警 这 
样 的 额外 硬件 来 最 小 化 处 理 任何 特定 事件 的 工作 量 ， 人 允许 数据 以 一 种 完全 流水 的 方式 从 源 存 
储 区 域 (寄存 器 或 存储 器 ) 流动 到 目的 存储 区 域 。 但 是 ， 通 信 速 率 (每 秒 消息 数 ) 依然 被 
CP 的 串 行 分 支 循环 所 限制 。 此 外 ，CP 上 保持 数据 流动 ， 避 免 死 锁 ， 避 免 网 络 饥饿 的 软件 是 
相当 复杂 的 。 逻 辑 上 讲 ， 它 包括 一 系列 协同 的 独立 线程 ， 但 是 它们 都 塞 进 一 个 单一 串 行 分 支 
循环 中 ， 该 循环 跟踪 每 个 部 分 操作 的 状态 。 我 们 在 下 一 个 案例 中 研究 这 个 并 发 问题 。 

ASCI Red Machine 采用 了 Paragon 的 基本 体系 结构 ，ASCI Red Machine 是 第 一 台 达 到 持续 
的 TFLOPS (每 秒 一 万 亿 次 浮 点 操作 ) 的 机 器 。 它 包含 4 536 个 节点 ， 每 个 节点 有 了 两 个 200- 
MHz 的 Pentium Pro 处 理 器 和 64 MB 的 存储 器 。 它 采用 具有 400 MBps 的 链 路 的 升级 的 Paragon 
网 络 ， 依 然 使 用 网 格 拓扑 结构 。 机 器 分 布 在 85 个 机 柜 中 ， 占 地 1 600 平方 英尺 ， 耗 电 800 
kW。 其 中 40 个 节点 提供 对 大 规模 RAID 存储 系统 的 VO 访问 ，32 个 节点 提供 对 各 个 独立 节 
点 上 的 轻 量 内 核 操作 的 操作 系统 服务 ，16 个 节点 提供 “ 热 ”备份 。 

许多 机 群 设计 采用 SMP 系统 节点 作为 基本 的 构造 块 ， 使 用 高 性 能 的 LAN 或 SAN 相连 。 
这 种 方法 或 者 专门 用 一 个 处 理 器 来 处 理 消息 ， 或 由 消息 流量 请 求 一 个 处 理 器 承担 这 个 责任 。 
一 个 关键 的 区 别 在 于 像 Paragon 所 使 用 的 这 样 的 网 络 ， 在 进入 的 事务 未 被 节点 处 理 之 前 会 售 
顿 ， 所 有 的 通信 (包括 系统 消息 ) 都 停止 前 进 。 所 以 ， 指 定 一 个 处 理 器 来 处 理 消息 提供 了 一 
个 更 为 健壮 的 设计 。 (在 一 些 特 殊 情 形 ， 例 如 试图 创造 LINPACK 基准 测试 程序 的 记录 时 ， 
Paragon 和 ASCI Red 其 至 把 两 个 处 理 器 都 用 于 用 户 计算 。) 机 群 通常 依赖 其 他 的 机 制 ， 例 如 网 
络 接口 卡 中 的 专用 处 理 ， 来 保持 通信 流动 ， 这 将 在 7.7 节 中 讨论 。 
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7.5.2 案例 分 析 : Meiko CS-2 


Meiko CS-2 提供 了 具有 非 对 称 CP 的 代表 性 具体 设计 。CP 与 网 络 接口 紧密 集成 并 有 一 条 
专用 路 径 通 到 网 络 。 节 点 体系 结构 基本 上 是 典型 的 Sun SparcStation 10 体系 结构 ， 在 MBUS 上 
有 两 个 标准 的 超标 量 Spare 模块 ， 每 个 模块 包含 一 个 在 片 一 级 高 速 缓存 L 和 一 个 模块 上 的 二 
级 高 速 缓存 L,。 经 由 总 线 适 配器 可 以 访问 MBUS 上 的 以 太 网 、SBUS 和 SCSI 连接 器 来 提供 
VO。( 节 点 体系 结构 的 一 种 高 性 能 改 型 包括 两 个 Fujitsu pVP 向 量 部 件 ， 它 们 共享 一 个 3 端口 
存储 器 系统 。 第 3 个 端口 连接 MBUS， 和 基本 节点 一 样 ，MBUS 上 有 两 个 计算 处 理 器 和 通信 
模块 。〉 通信 模块 的 功能 可 以 是 MBUS 上 男 一 个 处 理 器 模块 或 存储 器 模块 ， 这 取决 于 它 的 操 
作 。 网 络 链 路 在 每 个 方向 提供 50 MBps 的 带宽 。 这 台 机 器 在 网 络 事务 的 解释 和 通信 处 理 中 的 
并 发 支持 方面 有 独特 的 做 法 。 

Meiko CS-2 中 ， 一 个 网 络 事务 是 一 个 传 过 网 络 并 由 远程 CP 直接 执行 的 代码 序列 。 网 络 
是 电路 交换 的 ， 这 意味 着 一 个 通道 被 建立 ， 并 在 网 络 事务 执行 过 程 中 保持 开放 。 如 果 通 道 被 
建立 ， 并 且 事 务 成 功 地 进行 到 结束 ， 一 个 确认 使 通道 关闭 。 如 果 不 能 建立 连接 ,或 发 生 了 
CRC 错误 ， 或 远程 执行 超时 ， 或 条 件 操 作 失 败 ， 会 返回 一 个 NACK。 网 络 事务 的 控制 流 是 具 
有 条 件 中 止 的 顺序 代码 ， 没 有 分 支 。 超 时 的 典型 原因 是 远 端 的 缺 页 。 能 被 包括 在 网 络 事务 中 
的 操作 包括 远 地 存 储 器 的 读 、 写 、 读 -修改 - 写 ， 设 置 事件 ， 简 单 测试 ，DMA 传输 以 及 简单 的 
应 答 传 输 。 因 此 ， 网 络 事务 中 信息 的 格式 相当 多 。 它 包括 一 个 现场 标识 符 、 一 个 起 始 符 、 一 
系列 具体 格式 的 操作 和 一 个 结尾 符 。 事 务 有 40 ~ 320 个 字 节 长 。 在 考察 机 器 组 成 结构 之 后 ， 
再 来 看 网 络 事务 所 支持 的 操作 。 

基于 前 面 的 讨论 ， 把 CP 分解 成 几 个 独立 的 处 理 器 是 有 意义 的 ， 如 图 7-23 所 示 。 一 -个 命 
令 处 理 器 (Ps) 等 待 用 户 或 系统 发 出 的 通信 的 命令 并 对 它 执行 。 因 为 它 是 存储 器 总 线 上 的 
设备 ， 它 可 以 直接 响应 对 它 负 责 的 地 址 的 读 和 写 。 而 不 像 常规 的 处 理 器 那样 要 轮 询 一 个 共享 
存储 器 单元 。 它 通过 把 路 由 信息 和 数据 推 给 输出 处 理 器 (P. ) ， 或 者 把 数据 从 存储 器 传送 到 








图 7-23 带 有 多 个 专 由 通信 处 理 器 的 Meiko Cs-2 概念 性 结构 。 生 成 和 处 理 网 
络 事务 的 每 一 个 具体 侧面 都 结合 到 独立 运行 的 硬件 功能 部 件 之 中 
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SEMEN LE. ER) Ra AGE HESE (VP) 地 址 转换 的 部 件 的 帮助 。 它 也 提 
供用 户 到 用 户 通信 所 需要 的 保护 检查 。 输 出 处 理 器 P, 监 视 网 络 输出 FIFO 的 状态 ， 把 网 络 事 
务 递 交 到 网 络 。 输 入 处 理 器 (Pa 等 待 网 络 事务 的 到 达 并 执行 它 。 可 能 会 把 数据 送 人 存储 
器 ， 向 事件 处 理 器 Pon) 发 出 一 条 命令 ， 指 示 事 务 的 结束 ， 也 可 能 对 应 答 处 理 器 〈P。,) 
发 出 应 管 操作 ， 后 者 的 操作 和 输出 处 理 器 非常 类 似 。 

Meiko CS-2 提供 这 些 独立 的 功能 ， 虽 然 它们 是 作为 一 个 叫做 elan 的 微 程 序 处 理 器 上 的 分 
时 复 用 的 线程 运行 的 (Homewood and McLaren 1993)。 这 使 得 逻辑 处 理 器 之 间 的 通信 十 分 简 
单 ， 并 提供 了 一 个 清晰 的 概念 性 结构 ， 但 是 它 并 没有 真正 使 所 有 的 信息 流 平滑 地 处 理 。 图 
7-24 描 述 了 实际 的 elan 的 功能 组 成 结构 。 计 算 处 理 器 通过 一 条 交换 指令 (swap) 问 命 令 处 理 
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图 7-24 Meiko CS-2 机 的 组 成 结构 通信 辅助 部 件 以 单个 微 程序 处 理 器 上 的 时 间 片 的 形式 ， 提 供 5 个 简单 

的 处 理 器 。 其 中 的 4 个 专门 用 于 特定 的 功能 : 从 主机 接收 命令 ， 从 网 络 接受 事务 ， 执 行 DMA 传 

输 ， 发 出 应 答 。 另 外 一 个 线程 处 理 器 执行 用 户 级 代码 以 产生 网 络 事务 并 向 其 他 处 理 器 发 出 请 求 
占 发 出 一 个 命令 ， 交 换 指令 交换 寄存 器 和 存储 器 单元 的 值 。 存 储 器 单元 被 映射 到 命令 处 理 器 
输入 队列 的 头 。 返 回 给 处 理 器 的 值 指明 进 队 命令 是 否 成 功 ， 或 者 队列 是 否 已 经 满 了 。 给 命令 
处 理 右 的 值 包含 命令 类 型 和 虚拟 地 址 。 命 令 处 理 器 支持 三 种 命令 ，start-pMA ， 这 种 情况 
下 ， 地 址 指向 一 个 DMA 描述 符 ;， set-event ， 这 种 情况 下 ， 地 址 指向 一 个 简单 的 事件 数据 
结构 ;start-thread ， 这 种 情况 下 ， 地 址 指向 线程 的 第 一 条 指令 。DMA 处 理 器 从 存储 器 中 
读数 据 并 产生 一 系列 网 络 事务 ， 把 数据 存储 到 远程 节点 。 命 令 处 理 器 也 执行 事件 操作 ， 包 括 
更 新 一 个 小 的 事件 数据 结构 和 对 主 处 理 器 发 出 一 个 中 断 ， 以 便 来 唤醒 一 个 休眠 的 线程 。start- 
thread 命令 被 发 送 给 一 个 简单 的 RISC 线程 处 理 器 ， 该 线程 处 理 器 执行 任意 的 指令 序列 来 构造 
和 发 出 网 络 事务 。 网 络 事务 由 输入 处 理 器 解释 ， 它 可 能 引起 线程 执行 ， 启 动 DMA， 发 出 应 
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答 或 设置 事件 。 应 答 是 一 个 简单 的 事件 设置 (set-event) 操作 ， 具 有 一 个 可 选 的 3 个 数据 字 
的 写 。 

为 了 使 机 器 操作 更 加 上 具体， 下面 考 虑 几 个 简单 的 操作 。 假 设 一 个 用 户 进程 想 把 数据 写 进 
同一 个 并 行程 序 的 男 一 个 进程 的 地 址 空间 。 两 个 进程 共享 一 个 通信 现场 的 能 力 提供 了 保护 。 
源 计算 处 理 器 建立 了 一 个 DMA 描述 符 并 发 出 一 个 启动 DMA (start-DMA) 命令 。 源 DMA 处 理 
器 读 这 个 描述 符 ， 并 把 数据 作为 一 系列 的 块 传送 ,每 个 块 都 包括 从 存储 器 中 读 取 的 32 个 字 
节 的 数据 ， 并 形成 一 个 写 块 (write_plock ) 的 网 络 事务 。 远程 节点 的 输入 处 理 器 会 收 到 
并 执行 一 系列 write_block 事务 ， 每 一 个 事务 都 包括 一 个 用 户 虚拟 存储 器 地 址 和 要 写 到 那 
个 地 址 去 的 数据 。 从 远 端 的 地 址 空间 读 取 一 块 数据 更 加 棘 手 。 首 先 在 本 地 CP 上 启动 一 个 线 
程 ， 该 线程 发 出 一 个 start-DMA 事务 。 远 程 节点 的 输入 处 理 器 把 start-DMA 及 其 描述 符 传递 给 
远程 节点 的 DMA 处 理 器 ， 后 者 会 从 存储 器 中 读 取 数据 并 通过 一 系列 的 write block 事务 将 
数据 返回 。 为 了 检测 结束 ， 可 以 增加 一 个 事件 设置 (set-event) 操作 。 

为 了 支持 直接 的 用 户 到 用 户 的 传输 ，Meiko CS-2 的 通信 处 理 器 含有 自己 的 页 表 。 主 处 理 
器 的 操作 系统 将 这 个 页 表 与 正常 页 表 保持 一 致 。 如 果 CP 碰 到 缺 页 ， 就 会 产生 一 个 中 断 ， 操 
作 系 统 调 人 页 并 更 新 页 表 。 

这 个 设计 的 主要 缺点 是 线程 处 理 器 相当 慢 ， 并 且 是 非 抢 占 式 调 度 的 。 这 使 得 除了 一 些 琐 
碎 的 处 理 之 外 ， 很 难 把 其 他 处 理 放 到 线程 处 理 器 中 去 执行 。 此 外 ， 网 络 事务 提供 的 操作 集 也 
不 是 足够 强大 ， 不 能 用 单一 的 网 络 事务 构造 有 效 的 远程 进 队 操作 (Schauser and Scheiman 
1995 ) 。 


7.6 共享 的 物理 地 址 空间 


本 他 考察 可 扩展 多 处 理 器 的 通信 体系 结构 的 第 4 种 主要 设计 风格 一 一 共享 的 物理 地 址 空 
间 。 它 直接 建立 在 较 小 规模 的 共享 存储 器 的 机 器 上 ， 并 提供 了 相同 的 通信 原 语 ; 装 人 、 存 
储 、 对 共享 存储 器 的 原子 操作 。 许多 机 器 把 这 种 方法 扩展 到 大 规模 的 系统 ,包括 CM* 、 
C.mmp, NYU Ultracomputer, BBN Butterfly. IBM RP3, Denelcor HEP-1, BBN TC2000 和 CRAY 
T3D (Scott 1996)。 大 多 数 的 早期 设计 采用 舞厅 组 织 结构 ， 在 存储 器 和 处 理 器 之 间 设 置 互 连 
网 络 ， 而 大 多 数 较 晚 的 设计 采用 分 布 式 存储 器 结构 。 通信 辅助 部 件 把 总 线 事务 转换 为 网 络 事 
务 。 网 络 事务 是 非常 特殊 的 ， 因 为 它 只 是 说 明 预 先 定义 的 存储 器 操作 集合 ， 并 由 远程 节点 的 
通信 辅助 部 件 直接 解释 。 

图 7-25 显示 了 一 个 大 规模 分 布 共享 物理 地 址 空间 的 机 器 的 通用 组 成 结构 。 我 们 最 好 认 
为 通信 辅助 部 件 构 成 一 个 伪 存 储 器 宰 块 和 一 个 伪 处 理 器 ， 集成 为 处 理 器 -存储 器 连接 。 例 如 ， 
考虑 节点 上 的 处 理 器 执行 的 一 条 load 指令 。 片上 的 存储 器 管理 部 件 (MMU) 把 虚拟 地 址 转 
换 成 一 个 全 局 的 物理 地 址 ， 提 交 给 存储 器 系统 。 如 果 该 物理 地 址 落 在 发 出 请 求 的 节点 ， 那 么 
存储 器 简单 地 送 回 指定 单元 的 内 容 。 否 则 ， 通信 辅助 部 件 就 会 访问 远 程 节 点 ， 表 现 得 像 一 个 
存储 器 模块 。 伪 存储 器 控制 器 接受 存储 器 总 线 上 的 读 事 务 ， 从 全 局 地 址 中 提取 远程 节点 号 ， 
对 远程 节点 发 送 一 个 网 络 事务 ,访问 所 希望 的 存储 器 单元 。 注 意 ， 此 刻 ，load 指令 会 停留 在 
存储 器 操作 的 地 址 阶段 和 数据 阶段 之 间 。 远程 的 通信 辅助 部 件 接 收 网 络 事务 ， 读 指定 的 存储 
器 单元 ， 并 对 发 出 请 求 的 原始 节点 送 回 响应 事务 。 远程 的 通信 辅助 部 件 在 邓 存 储 器 发 出 代理 
读 请 求 时 ， 对 该 节点 的 存储 器 来 说 就 像 一 个 伪 处 理 器 。 需要 指出 的 重要 的 一 点 是 当 伪 处 理 器 
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试图 代表 一 个 远程 节点 访问 存储 器 时 ， 当 地 的 主 处 理 器 可 能 也 暂停 在 它 自己 的 远程 load 指 
令 的 中 间 。 支 桂 一 个 未 决 操作 的 简单 存储 器 总 线 不 足以 应 付 这 个 任务 。 必 须 有 两 条 独立 的 通 
往 存 储 器 的 路 径 ， 或 者 总 线 必须 支持 乱 序 结束 的 分 裂 阶 段 操 作 。 最 终 ， 响 应 事务 到 达 原 始 的 
伪 存 储 器 控制 器 。 它 就 像 一 个 慢 的 存储 器 模块 一 样 完成 这 个 存储 器 读 操 作 。 
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图 7-25 共享 物理 存储 器 的 组 织 结构 。 在 可 扩展 共享 物理 地 址 空间 的 机 器 中 ， 网 络 事 务 由 常规 的 
存储 器 指令 产生 。 它 有 一 组 男 定 的 格式 ,由 通信 辅助 部 件 的 硬件 直接 解释 。 操 作 是 请 求 - 
响应 类 型 ， 多 数 系统 为 了 避免 取 指 死 锁 提供 了 两 套 不 同 的 网 络 。 通 信 体 系 结构 在 发 出 事 
务 的 节点 扮演 伪 存 储 器 模块 的 角色 ， 在 接收 节点 扮演 伪 处 理 器 。 远 程 存 储 器 操作 被 发 出 方 
的 伪 存 储 器 单元 接收 ， 携 带 了 一 个 与 远程 节点 的 请 求 -响应 事务 。 源 总 线 事务 在 网 络 事务 请 
求 、 远 程 存储 器 存 取 和 网 络 响应 事务 过 程 这 段 时 间 内 保持 开放 。 所 以 ， 通 信和 辅助 部 件 必 须 
能 够 访问 远程 节点 的 本 地 存储 器 ， 即 使 那个 节点 的 处 理 器 暂停 在 它 自己 的 存储 器 操作 中 间 


在 下 一 章 要 深入 讨论 的 一 个 关键 论题 是 共享 存储 器 单元 的 高 速 缓存 问题 。 在 大 多 数 现代 
微 处 理 器 中 ， 地 址 的 高 速 缓存 能 力 是 由 所 在 页 的 页 表 项 的 一 个 字段 决定 的 。 当 该 单元 被 访问 
Hf, A TLB 中 抽取 该 子 段 。 在 我 们 的 讨论 中 ， 重 要 的 是 区 分 两 个 正 交 的 概念 。 一 个 地 址 ， 
或 者 是 进程 入 有， 或 者 是 多 个 进程 共享 ， 对 于 处 理 器 而 言 它 或 者 是 本 地 的 物理 地 址 ， 或 者 是 
远程 的 物理 地 址 。 很 明显 ， 进 程 私有 ， 对 进程 所 在 处 理 器 而 言 本 地 物理 的 地 址 必须 被 高 速 组 
存 ， 这 不 需要 特殊 的 硬件 支持 。 物 理 远程 的 私有 数据 也 可 以 被 高 速 缓存 ， 虽 然 这 要 求 通信 辅 
助 部 件 支持 高 速 缓存 块 事务 ， 而 不 是 单个 的 字 。 对 远程 块 高 速 缓存 不 需要 处 理 器 有 任何 变 
化 ， 因 为 远程 存储 器 访问 等 同 于 本 地 存储 器 访问 ， 只 不 过 慢 一 些 。 但 是 ， 只 要 进程 保持 不 
变 ， 也 不 存在 高 速 缓 存 一 致 性 问题 ， 因 为 没有 其 他 进程 访问 私有 数据 。 如 果 物 理 本 地 并 且 逻 
辑 共享 的 数据 在 本 地 缓存 ， 那 么 只 要 求 伪 处 理 器 在 代表 远程 节点 执行 存储 器 写 人 时 ， 将 高 速 
缓存 的 数据 作废 。 如 果 以 回 写 模式 缓存 共享 数据 ， 那 么 伪 处 理 器 必须 能 腾空 高 速 缓存 。 最 自 
然 的 方法 是 把 伪 处 理 器 集成 在 高 速 缓存 一 致 的 存储 器 总 线 上， 但 是 总 线 必须 是 分 裂 阶 段 的 ， 
以 便 为 伪 处 理 器 保留 一 些 待 完成 事务 。 最 后 一 个 选择 对 共享 的 远程 数据 进行 高 速 缓存 。 访 
问 、 传 送 、 远 程 块 在 本 地 高 速 缓存 的 放置 所 要 求 的 硬件 支持 已 经 由 前 面 那 些 选 择 所 覆盖 。 新 
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的 问题 是 如 何 是 使 块 在 各 个 高 速 缓 存 中 的 大 量 复 本 保持 一 致 。 我 们 必须 应 付 这 个 带 有 复制 的 
分 布 式 共享 存储 器 的 一 致 性 模型 。 这 些 问 题 要 求 更 多 的 设计 上 的 考虑 ， 我 们 将 在 下 两 章 中 专 
门 讨论 。 对 共享 的 远程 数据 实行 高 速 缓存 ， 以 便 在 多 数 情况 下 可 以 本 地 访问 它们 ， 从 性 能 角 
度 考虑 显然 是 很 有 吸引 力 的 。 


7.6.1 案例 分 析 : CRAY T3D 


CRAY T3D 提供 了 一 个 共享 全 局 物理 地 址 空间 的 设计 范例 。 该 设计 遵循 图 7-13 中 的 指导 
原则 ， 经 由 支持 请 求 和 响应 事务 独立 提交 的 可 扩展 网 络 ， 伪 存储 器 控制 器 和 伪 处 理 器 提供 远 
程 存储 器 访问 。 有 硬件 直接 解释 的 7 种 特定 网 络 事务 格式 。 但 是 ,该 设计 以 几 种 有 效 的 途径 
扩展 了 基本 的 共享 物理 地 址 空间 的 方法 。13D 系统 可 以 扩展 到 2 048 个 节点 ， 每 个 节点 配 有 
一 个 150 MHz 的 双 发 指令 DEC Alpha 21064 的 微 处 理 器 和 64 MB 的 存储 器 ， 如 图 7-26 所 示 。 
DEC Alpha 体系 结构 作为 并 行 体系 结构 的 一 个 基本 构件 块 使 用 (Digital Equipment Corporation 
1992), 21 064 的 几 个 特征 显著 影响 了 T3D 的 设计 。 在 这 个 案例 分 析 中 ， 我们 首先 看 一 下 处 
理 器 本 身 和 局 部 存储 器 的 突出 特征 。 然 后 ， 我 们 讨论 一 下 围绕 基本 处 理 器 构造 ， 提 供 共享 物 
理 地 址 空间 、 时 延 容忍 、 块 传输 、 同 步 和 快速 消息 传递 的 辅助 部 件 。 有 时 ，CRAY 的 设计 者 
称 它 为 环绕 着 实现 并 行 处 理 能 力 的 常规 微 处 理 器 的 一 个 “外 壳 ” 支 持 电 路 。 
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图 7-26 CRAY T3D 的 机 器 结构 。 每 个 节点 包含 一 个 精巧 的 通信 辅助 部 件 ， 它 包括 共享 物理 地 址 空间 要 求 的 
伪 存 储 器 和 伪 处 理 器 功能 。 此 外 ， 提 供 了 一 组 外 部 段 寄存 器 〈DTB)， 扩 展 了 机 器 有 限 的 物理 地 址 
空间 。 预 取 队 列 通过 显 式 的 预 读 ， 支 持 时 延 隐藏 。 消 息 队 列 支 持 与 消息 传递 模式 相关 的 事件 。DMA 
部 件 提供 块 传输 能 力 ， 支 持 特殊 的 点 和 全 局 的 同步 操作 。 机 器 按 3 维 花环 组 织 ， 正 如 它 的 名 字 所 言 


Alpha 21064 具有 片 载 8 KB 数据 和 8 KB 指令 高 速 缓存 以 及 对 外 部 二 级 高 速 缓存 L 的 支 
持 。 在 T3D 设计 中 ， 取 消 了 L 高 速 缓存 以 降低 访问 主 存 的 时 间 。 在 高 速 缓存 扑 空 时 ， 处 理 
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器 会 暂停 ， 所 以 降低 扑 空 时 延 直接 提高 了 可 用 带宽 。CRAY 的 设计 偏向 于 上 典型 向 量 代码 的 存 
取 模 式 ， 这 种 模式 会 扫 过 大 片 的 存储 器 区 域 。 在 T3D 上， 测量 到 的 因 扑 空 而 访问 存储 器 的 
XA (load) 指令 访问 时 间 是 155 ns (23 个 周期 )， 与 此 比较 ， 在 具有 512 KBL 高 速 组 
存 和 相同 时 钟 频率 的 DECAlpha 工 作 站 是 300ns(45 个 周期 )。( 如 果 访 问 跨 DRAM 的 页 ， 
CRAY T3D 的 访问 时 间 增 加 到 255 nso) 对 于 校准 全 局 存储 器 访问 的 性 能 ， 这 个 测量 是 非常 
有 用 的 。 

根据 Alpha 体系 结构 ，Alpha 21064 提供 了 一 个 43 位 的 虚拟 地 址 空间 ， 但 是 ， 物 理 地 址 
空间 只 有 32 位 。 因 为 虚拟 地 址 到 物理 地 址 转换 在 片上 进行 ， 所 以 存储 器 和 通信 辅助 部 件 收 
到 的 是 物理 地 址 。 对 于 一 个 最 大 配置 的 2048 个 节点 的 系统 ， 如 果 每 个 节点 都 有 64 MB 存储 
器 ,需要 37 位 的 全 局 物理 地 址 。 为 了 放大 每 个 节点 上 的 物理 地 址 空间 ，T3D 提供 了 一 个 外 
部 寄存 器 组 ， 叫 做 DTB Annex， 用 5 位 物理 地 址 来 选择 包含 21 位 节点 号 的 寄存 器 ， 和 另外 27 
位 本 地 物理 地 址 相 拼接 ， 形 成 完整 的 全 局 物理 地 址 ? annex 的 寄存 器 还 包含 说 明 访 问 类 型 
的 额外 的 域 ， 例 如 ， 是 否 可 以 高 速 缓存 。annex 的 0 号 寄存 器 总 是 指向 本 地 节点 。T3D 使 用 
Alpha 的 装 入 - 锁 (load-lock) 和 条 件 存储 (store-conditional) 指令 读 出 和 写 人 annex 寄存 器 。 
更 新 一 个 annex 寄存 器 需要 23 个 周期 ， 好 像 一 个 对 片 外 存储 器 的 访问 ， 后 面 可 以 紧 跟 一 条 使 
用 annex 寄存 器 的 装 人 〈]load) 或 存储 (store) 指令 。 

对 全 局 地 址 空间 一 个 单元 的 读 或 写 通过 一 个 短 的 指令 序列 实现 。 首 先 ， 全 局 虚拟 地 址 的 
处 理 器 号 部 分 被 抽取 出 来 ， 并 存 人 一 个 annex 寄存 器 。 然 后 ， 和 构造 一 个 临时 虚拟 地 址 ， 其 高 
位 指向 这 个 annex 寄存 器 ， 低 位 说 明 节 点 内 的 地 址 。 最 后 ， 对 这 个 虚拟 地 址 执行 一 条 装 人 或 
存储 指令 。 装 人 指令 需要 610 ns (91 个 周期 )， 不 包括 annex 设置 和 地 址 处 理 。 (如 果 远 程 
DRAM 访问 跨 页 ， 这 个 数字 增加 100 ns (15 个 周期 )。 此 外 ， 如 果 导 致 取 整个 高 速 缓存 块 ， 增 
加 785 ~ 885 nso) 

记 住 ， 虚 拟 -物理 地 址 转换 发 生 在 发 出 读 的 处 理 器 上 。 建 立 页 表 ， 从 而 使 寄存 器 号 在 虚 
拟 地 址 到 物理 地 址 转换 中 简单 地 保持 。 这 样 ， 产 生 的 物理 地 址 在 远程 节点 才 有 意义 ， 并 行程 
序 中 所 有 进程 的 物理 偏 移 量 是 相同 的 〈 不 支持 分 页 )。 此 外 ， 需 要 确保 并 行程 序 的 所 有 进程 
把 它们 的 堆 扩 展 到 同一 长 度 。 

Alpha 21064 只 提供 非 阻 塞 的 存储 。 在 一 条 存储 指令 之 后 ， 无 须 等 待 存储 完成 ， 后 续 执 
行 就 可 以 继续 。 写 指令 在 写 缓冲 区 缓冲 ， 写 缓冲 区 深度 为 4， 每 个 表 项 中 可 以 合并 多 达 32 
个 字 节 的 写 数据 。 可 以 由 几 条 存储 指令 待 完成 。 提 供 “存储 器 栅 障 ”指令 来 保证 在 其 他 执行 
开始 之 前 写 已 经 完成 。Alpha 的 非 阻塞 写 允 许 远程 的 存储 重 人 要， 从 而 对 远程 存储 器 的 写 能 达 
到 高 带宽 。 每 250 ns 可 以 从 写 缓 冲 发 出 多 达 一 个 高 速 缓存 块 的 远程 的 写 ， 提 供 从 本 地 高 速 组 
存 到 远程 存储 器 的 120 MBps 的 传输 带宽 。 单 块 的 远程 写 需 要 一 系列 操作 ,包括 发 出 存储 ， 
通过 存储 器 栅 障 指令 把 存储 推出 写 缓 冲 区 ， 然 后 等 待 网 络 接口 的 一 个 完成 标记 。 这 需要 900 
ns 的 时 间 ， 外 加 annex 的 建立 和 地 址 运算 时 间 。 

Alpha 提供 了 一 个 特殊 的 预 取 指令 ， 用 来 鼓励 存储 器 系统 将 重要 的 数据 移 近 处 理 器 。 这 
在 TD 中 被 用 来 隐藏 远程 的 读 时 延 。 在 片 外 提供 了 一 个 16 个 字 的 预 取 队列 。 预 取 从 存储 器 





O ”这 种 情况 并 不 罕见 。C.mmp 使 用 类 似 的 技巧 来 克服 其 构造 模块 LSL11 寻 址 能 力 不 足 的 问题 。 由 此 产生 的 问题 带 
来 了 一 个 归功 于 Cordon Bell 和 Bill Wulf 的 著名 的 论点 ; 一 个 体系 结构 惟一 难以 克服 的 毛病 是 寻 址 空间 太 小 。 
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中 读 取 数 据 到 队列 中 。 读 取 队 列 是 弹出 它 的 头 位 置 的 字 。 发 出 预 取 的 指令 和 存储 指令 一 样 ， 
只 需要 几 个 周期 。 弹 出 队列 操作 需要 23 个 周期 ， 是 片 外 操作 的 上 典型 值 。 如 果 8 个 字 被 预 取 ， 
然后 弹出 ， 网 络 的 时 延 就 完全 被 隐藏 起 来 ， 每 个 字 的 实际 时 延 将 小 于 300 ns。 

T3D 也 提供 块 传送 引擎 ， 它 能 够 在 本 地 节点 和 远程 节点 之 间 双 向 移动 块 或 规则 跨 距 的 数 
据 。 从 远程 节点 读 时 ， 块 传输 带宽 的 峰值 为 140 MBps; 对 远程 节点 的 写 ， 峰 值 带宽 为 90 
MBps。 但 是 ， 使 用 块 传输 引擎 需要 进 和 内核， 提供 虚 拟 地址 到 物理 地 址 的 转换 。 所 以 ， 对 于 
传输 不 超过 64 KB 的 数据 ， 预 取 提 供 了 更 好 的 性 能 ， 非 阻塞 存储 对 任何 长 度 都 更 快 。 块 传输 
引擎 的 主要 优势 是 能 够 重 又 通信 和 和 计算。 因为 处 理 器 和 块 传输 引擎 竞争 同一 存储 器 带宽 ， 这 
种 能 力 受到 了 某 种 程度 的 限制 。 

T3D 的 通信 辅助 部 件 也 提供 对 同步 的 特殊 支持 。 首 先 ， 有 一 个 专用 的 网 络 提供 全 局 或 
操作 和 全 局 与 操作 ， 主 要 用 于 栅 障 指令 。 这 允许 处 理 器 发 出 一 个 表明 它们 碰 到 了 栅 障 标记 ， 
继续 执行 ， 然 后 在 离开 前 等 待 所 有 处 理 器 的 进入 。 每 个 节点 都 有 一 组 外 部 同步 寄存 器 ， 用 来 
文 持 原子 的 swap 和 fetch&inc。 也 存在 用 户 级 的 消息 队列 操作 ， 使 消息 人 队 ， 或 者 调用 一 个 
远程 节点 的 线程 。 不 幸 的 是 ， 这 两 种 操作 都 会 引起 远程 内 核 的 陷 人 ， 所 以 这 两 种 操作 分 别 花 
H 25 js 和 70 ns 的 时 间 。 与 之 比较 ， 使 用 fetch&ine 操作 在 存储 器 中 建立 一 个 队列 ， 人 允许 在 
3hs 内 将 一 个 4 字 的 消息 人 队 , 761.5 ns 内 出 队 。 


7.6.2 案例 分 析 : CRAY T3E 


CRAY T3D 之 后 的 CRAY T3E (Scott 1996) 阐明 了 大 规模 系统 设计 折 中 。 设 计 的 两 个 驱动 
力 是 在 节点 中 使 用 更 强大 、 更 现代 的 处 理 器 和 简化 外 部 电路 。CRAY T3D 为 支持 类 似 的 功能 
使 用 了 许多 复杂 的 机 制 ， 每 个 机 制 都 有 不 同 的 优点 和 缺点 。1T3E 采用 300 MHz 的 、4 发 指令 
的 Alpha 21164 的 处 理 器 ， 带 有 相当 大 (96 KB) 的 二 级 在 片 高 速 缓 存 。 因 为 工 高 速 缓存 在 
片上 ， 不 能 像 T3D 那样 取消 它 。 但 是 ，T3E 放弃 了 在 典型 的 基于 Alpha 21164 的 工作 站 具有 
的 板 上 三 级 高 速 缓 在。 各 种 远程 访问 机 制 被 合并 为 单一 的 外 部 寄存 器 的 概念 。 此 外 ， 使 用 虚 
地 址 访问 远程 存储 器 ， 由 远程 通信 辅助 部 件 把 虚拟 地 址 转化 为 物理 地 址 。 

一 个 用 户 进 程 可 以 访问 一 组 512 个 64 位 的 FE- 寄存 器 。 处 理 器 可 以 对 存储 器 空间 特定 区 
域 使 用 常规 的 装 人 和 存储 ， 读 出 或 写 信 EE 寄存 器 的 内 容 。 还 提供 了 一 些 操作 ， 从 全 局 存储 
只 中 取 数 据 送 和 一 个 E- 寄 存 器 ， 将 EE- 寄存 器 的 内 容 送 入 全 局 存储 器 ， 执 行 寄存 器 和 全 局 
存储 器 之 问 的 读 -修改 - 写 操 作 。 把 远程 数据 装 入 E- 寄 存 器 包括 三 步 。 首 先 ， 在 EE 寄存 器 中 构 
造 该 处 理 器 的 全 局 虚拟 地 址 部 分 。 其 次 ， 通 过 把 命令 向 存储 器 的 特定 区 域 存储 而 发 出 get 命 
令 ， 命 令 的 存储 使 用 的 一 个 地 址 字段 说 明了 get 命令 ， 另 一 个 字段 指定 目的 数据 EE, 
命令 存储 的 数据 说 明了 一 个 相对 于 地 址 FE- 寄存 器 的 偏 移 量 。 命 令 的 存储 产生 的 副作用 是 ， 
执行 了 远程 的 读 ， 数 据 被 装 入 目的 E- 寄 存 器 。 最 后 ， 数 据 通过 读 EE 寄存 器 被 该 人 处 理 器 。 
远程 的 put 命令 的 过 程 与 之 类 似 ， 只 是 要 写 的 数据 放置 在 数据 E- 寄 存 器 中 ， 该 E. 寄 存 器 是 由 
put 命令 的 存储 指明 的 。 利 用 对 地 址 寄存 器 操作 的 副作用 产生 对 数据 寄存 器 的 读 出 和 写 人 的 
方法 可 以 追溯 到 CDC 6600 (Thomton 1964) ， 虽 然 它 几 乎 已 经 被 遗忘 了 。 

通过 对 每 个 E- 寄 存 器 附加 一 个 满 -空位 ， 在 E- 寄 存 器 中 提供 了 预 取 队 列 的 功能 。 发 出 一 
系列 的 get 命令 ， 每 一 个 get 都 把 相应 的 目的 E- 寄 存 器 置 为 空 。 当 get 完成 时 ， 寄 存 器 被 置 为 
满 。 如 果 处 理 器 试图 读 一 个 为 空 的 E. 寄 存 器 ， 存 储 器 操作 被 暂停 ， 直 到 get 结束 。 人 允许 以 单 
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个 操作 将 4 或 8 个 字 的 向 量 传 过 了 寄存 器 集 ， 来 提供 块 传输 引擎 的 功能 。 这 还 有 提供 有 效 的 
汇集 操作 的 额外 的 好 处 。 

TE 的 改进 大 大 简化 了 机 器 的 代码 生成 ， 带 来 几 个 性 能 上 的 优点 ; 但 是 ,它们 决 不 是 均 
匀 的 。 因 为 用 了 更 快 的 处 理 器 和 更 大 的 在 片 高 速 缓存 ，T3E 的 计算 性 能 比 T3D 有 显著 提高 。 
另 一 方面 ， 远 程 读 的 时 延 是 T3D 的 两 倍 多 ， 从 600 ns 增长 到 大 约 1500 ns。 这 种 增长 是 因为 
L 高 速 缓存 扑 空 和 远程 地 址 转换 引起 的 。 两 种 机 器 的 远程 写 时 延 基 本 相同 。 预 取 的 代价 大 约 
改善 了 两 倍 ， 得 到 每 130 ns 读 一 个 字 的 速率 。 每 个 存储 器 模块 每 67 ns 可 服务 一 次 读 操作 。 
非 阻塞 写 在 两 台 机 器 上 的 性 能 基本 相同 。T3E 的 块 传输 能 力 远 比 T3D 强 。 可 以 获得 300MBps 
以 上 的 带宽 而 没有 大 的 块 传输 引擎 启动 代价 。 成 块 写 的 带宽 超出 300MBps， 是 T3D 的 三 倍 。 


7.6.3 小 结 


在 现代 大 规模 的 并 行 机 中 ， 存 在 不 同 程度 的 网 络 事务 的 硬件 解释 。 这 些 变 化 产生 计算 
处 理 器 在 执行 通信 操作 时 非常 不 同 的 额外 开销 ， 以 及 通信 辅助 部 件 对 实际 网 络 所 增加 的 非常 
不 同 的 时 延 。 通 过 限制 通信 事务 的 集合 ， 使 通信 辅助 部 件 专门 解释 这 些 事务 ， 并 把 通信 辅助 
部 件 和 节点 的 存储 器 系统 紧密 集成 在 一 起 ， 可 以 使 额外 开销 和 时 延 有 实质 性 的 降低 。 专 门 的 
便 件 也 可 以 提供 通信 辅助 部 件 所 需要 的 并 发 性 ， 使 它 能 以 高 带宽 处 理 几 个 同时 的 事件 流 。 


7.7 工作 站 机 群 和 工作 站 网 络 


随 着 商品 化 微 处 理 器 、 存 储 器 器 件 、 甚 至 工作 站 操作 系统 在 现代 大 规模 并 行 机 中 的 使 
用 ,与 并 行 机 中 所 使 用 的 很 类 似 的 可 扩展 通信 和 网络 已 经 可 以 用 于 有 限 的 局 域 网 中 。 这 样 自然 
引起 一 个 问题 ， 在 什么 程度 上 ， 工 作 站 网 络 《NOW) 和 工作 站 机 群 能 汇合 到 一 起 ?在 回答 
这 个 问题 之 前 ， 需 要 一 点 背景 知识 。 

传统 上 说 ， 使 用 专用 互 连 连接 完整 计算 机 称 为 机 群 〈clusters) ， 用 于 多 道 程 序 的 工作 负 
fot, BB RSA] APE (Kronenberg, Levy, and Strecker 1986; Pfister et al. 1985)。 在 多 道 程序 
的 机 群 中 ， 一 台 前 端 机 在 一 组 计算 服务 器 和 大 量 的 终端 或 远程 机 器 上 的 用 户 之 间 ， 通 常 起 到 
中 介 的 作用 。 前端 机 跟踪 机 群 节点 的 负荷 并 把 任务 调度 到 负荷 最 轻 的 节点 上 。 典 型 地 ， 机 群 
中 的 所 有 计算 机 在 功能 上 设置 成 等 同 的 ， 它 们 有 相同 的 指令 集 、 相 同 的 操作 系统 和 相同 的 文 
件 系统 访问 。 在 较 老 的 系统 中 ， 例 如 Vax. VMS 机 群 (Kronenberg, Levy, and Strecker 1986), 
这 是 通过 把 每 台 机 器 连接 到 一 组 公共 的 磁盘 来 实现 的 。 最 近 ， 这 种 单一 系统 映像 通常 通过 在 
网 络 上 安装 公共 的 文件 系统 实现 。 通 过 共享 功能 等 价 的 机 器 池 ， 对 大 量 独 立 任务 可 以 达到 更 
好 的 利用 率 。 

可 用 性 机 群 寻求 降低 大 型 关键 系统 的 失效 时 间 ， 例 如 ， 重 要 的 在 线 数 据 库 和 事务 处 理 系 
统 。 结 构 上 讲 ， 它 们 和 多 道 程序 的 机 群 有 很 多 共同 点 。 一 个 非常 常见 的 做 法 是 用 一 对 SMP 
系统 运行 具有 共享 磁盘 组 的 数据 库 系统 的 相同 副本 。 如 果 主 系统 由 于 硬件 或 软件 问题 失效 ， 
操作 就 会 快速 切换 到 备份 的 系统 上 去 。 提 供 这 种 共享 磁盘 能 力 的 实际 互 连 可 以 是 对 磁盘 的 双 
路 访问 或 某 种 专用 网 络 。 

机 群 越 来 越 多 地 被 用 做 并 行 机 ， 经 常 称 其 为 工作 站 网 络 (NOW)。 对 机 群 的 一 个 主要 影 
响 是 出 现 了 流行 的 公共 领域 软件 ， 例 如 Condor (Litzkow, Livny, and Mutka 1988) 和 PVM (Geist 
et al. 1994)， 这 些 软件 允许 用 户 在 一 组 机 器 上 分 布 作业 ， 或 在 由 任意 的 局 域 网 甚 罕 广 域 网 连 
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接 的 大 量 的 机 器 上 运行 并 行程 序 。 尽 管 通信 的 性 能 不 好 ， 对 于 小 的 传输 的 典型 时 延 在 毫秒 级 
甚至 更 高 ， 集 合 带宽 经 常 小 于 1 MBps， 但 是 这 些 工具 为 一 类 具有 很 高 计算 通信 比 的 问题 提 
供 了 一 个 价 廉 的 手段 。 

显示 了 机 群 在 大 型 并 行 机 方面 的 潜力 的 技术 突破 是 可 扩展 的 、 低 时 延 的 互 连 ， 质 量 上 类 
似 于 并 行 机 所 用 的 互连网 络 ， 但 按照 局 域 网 部 署 。 在 三 个 基本 的 方向 上 出 现 了 几 种 可 能 的 网 
络 。 传 统 局 域 网 通常 是 具有 固定 带宽 的 共享 总 线 (例如 以 太 网 ) 或 环 (如 令 有 牌 环 和 FDD), 
或 者 是 专用 点 对 点 的 连接 (例如 HPPUD 。 为 了 支持 大 量 的 快速 的 机 器 提供 可 扩展 的 带宽 ， 趋 
势 是 采用 基于 交换 的 局 域 网 (例如 ，HPPI 交换 机 、FDDI 交换 机 [Lukowsky and Polit 1997 ] 
和 FiberChanmels) 。 一 个 重要 的 发 展 是 电信 产业 开发 的 ， 作 为 交换 局 域 网 的 ATM (异步 传输 
模式 ) 标准 的 广泛 采用 。 几 家 公司 提供 了 具有 16 个 155-MBps 端口 (19.4 MBps) 链 路 带宽 的 
ATM 交换 机 。 可 以 将 它们 级 连 ， 构 成 更 大 的 网 络 。 在 ATM 方式 下 ， 一 个 可 变 长 度 长 的 消息 
以 一 系列 53 个 字 节 的 码 元 (48 字 节 的 数据 ，5 字 节 的 路 由 信息 ) 的 形式 ， 在 预先 分 配 的 叫 
做 “ 虚 电 路 ”的 路 径 上 传输 。 我 们 将 在 第 10 章 更 详细 地 考察 这 些 网 络 技术 。 根 据 7.1 节 所 
发 展 的 模型 ， 当 前 的 ATM 交换 机 的 典型 路 由 延迟 在 无 载 网 络 中 大 约 是 10 us， 虽然 菜 些 还 要 
更 高 。 第 二 种 主要 的 标准 化 努力 的 代表 是 可 伸缩 一 致 性 互 连 (scalabe coherent interconnect, 
SC) 提供 的 标准 ， 它 包括 物理 层 标准 和 一 个 特殊 的 分 布 式 高 速 缓存 一 致 性 策略 。 第 三 种 是 
大 量 应 用 的 快速 交换 以 太 网 和 千 兆 以 太 网 标准 。 

目前 出 现 了 一 个 强烈 的 趋势 ， 就 是 把 在 MPP 系统 中 使 用 的 专用 网 络 发 展 成 为 能 在 较 大 
区 域 连接 大 量 独立 的 工作 站 或 PC 机 的 网 络 。 这 方面 的 例子 从 包括 Tandem Corporation 的 Serv- 
erNet (Horst 1995) 和 Myrinet (Borden et al. 1995). Myrinet 交换 机 提供 8 个 端口 ， 每 个 端口 160 
MBps， 可 以 用 规则 或 不 规则 的 拓扑 把 交换 机 级 连 ， 形 成 大 的 网 络 。 它 传输 可 变 长 的 数据 包 ， 
每 路 的 路 由 延迟 是 350 ns。 使 用 链 路 级 的 流 控 ， 避 免 在 出 现 竞争 时 于 数据 包 。 

正如 更 紧密 集成 的 并 行 机 的 情况 一 样 ， 正 在 出 现 的 NOW 和 机 群 中 的 硬件 原 语 还 是 一 个 
开放 的 论题 ， 需 要 许多 的 争论 。 在 这 些 先进 网 络 上 的 传统 TCP/IP 通信 抽象 表现 出 大 的 额外 
开销 (毫秒 级 或 更 高 ) (Keeton, Anderson, and Patterson 1995)， 在 许多 情况 下 比 常规 以 太 网 
还 要 大 。 使 用 TCP/IP 仅仅 以 20MBps 传输 就 需要 一 个 非常 快 的 处 理 器 。 但 是 ， 带 宽 确 实 随机 
器 数 增加 而 扩展 ， 至 少 在 没有 什么 竞争 的 情况 下 。 已 经 建议 丁 几 种 效率 更 高 协议 ， 包 括 主动 
消息 (Anderson，Culler, and Patterson 1995; von Ficken et al. 1992; von Eicken, Basu, and Buch 
1995) 和 反射 存储 器 (Gillett 1996; Gillett and Kaufmann 1997)。 如 前 所 述 ， 主 动 消息 提供 了 用 
户 级 的 网 络 事务 。 反 射 存储 器 允许 对 特定 的 存储 器 区 的 写 表 现 得 就 像 写 人 了 远程 处 理 器 的 区 
域 ; 没有 读 远程 数据 的 能 力 。 但 是 ， 在 存在 潜在 的 不 可 靠 性 情况 下 支持 一 个 真正 的 共享 物理 
地 址 空间 ， 仍 然 是 一 个 未 解决 的 问题 。 一 个 中 间 的 策略 是 把 连接 一 组 相互 通信 的 进程 的 逻辑 
网 络 连接 看 作 一 个 全 相连 的 队列 的 组 。 每 个 进程 具有 一 个 通信 端点 ， 包 括 发 送 队列 、 接 收 队 
列 和 一 些 状 态 信息 ， 比 如 在 消息 到 达 时 是 否 提交 通知 。 每 个 进程 都 可 以 对 任何 接收 队列 递交 
消息 ， 即 把 一 个 具有 适当 的 目的 标识 符 的 消息 放 入 它 的 发 送 队列 即 可 。 这 种 方法 正在 被 In- 
tel, Microsoft, Compag 所 领导 的 业界 论坛 标准 化 ， 其 名 称 是 虚拟 接口 体系 结构 (Dunning et 
al. 1998)。 其 基础 是 几 个 研究 项 目 ， 包 括 Berkeley 大 学 的 NOW, Cornell 大 学 的 UNET, Ilinois 
大 学 的 FM 和 Princeton 大 学 的 SHRIMP。 

在 机 群 和 NOW 中 的 通信 接口 的 硬件 支持 和 网 络 事务 的 解释 覆盖 了 在 前 面 讨 论 过 的 大 部 
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分 的 设计 观点 。 但 是 ， 因 为 网 络 是 接 揪 到 现存 的 机 器 ， 而 不 是 在 板 级 或 芯片 级 集成 到 系统 
里 ， 所 以 ， 它 必须 与 V0 总 线 而 不 是 与 存储 器 总 线 或 靠近 处 理 器 的 地 方 与 系统 接口 。 在 这 个 
领域 ， 也 有 相当 多 的 创新 。 已 经 开发 了 几 种 相对 快速 的 VO 总 线 ， 它 们 保持 高 速 缓存 的 一 臻 
性 ， 最 值得 一 提 的 是 PCI。 正 在 试验 把 网 络 通过 图 形 总 线 集成 (Marin1994; Banks and Pru- 
dence 1993), ， 还 有 SIMM 附加 (Minnich, Burns, and Hady 1995) 。 

一 个 推动 机 群 进步 的 重要 技术 力量 就 是 出 现 了 相对 便宜 的 SMP 构造 模块 。 例 如 ， 通 过 
很 小 的 努力 就 能 把 几 十 个 4-Pentium Pro 处 理 器 的 商品 化 服务 器 集合 起 来 ， 产 生 一 个 相当 大 的 
并 行 机 。 在 高 端 ， 大 多 数 非常 大 型 的 并 行 机 是 采用 最 大 可 用 的 商品 SMP 优化 构造 的 机 群 。 
例如 ， 在 1997 ~ 1998 年 美国 能 源 部 作为 加 速 战略 计算 计划 (Accelerated Strategic Computing Ini- 
tiative) 的 一 部 分 购买 的 Intel 机 ， 就 是 由 4 536 个 双 Pentium Pro 模块 组 成 的 。IBM 机 可 以 是 
512 个 4 路 的 PowerPC 604， 后 升级 为 8 路 的 PowerPe 630. SGI/CRAY 机 最 初 是 用 许多 HPPI 
6400 链 路 互 连 的 16 个 32 路 的 Origin， 最 终 集成 为 更 大 的 高 速 缓存 一 致 的 部 件 ， 我 们 会 在 第 
8 章 讨 论 。 


7.7.1 案例 分 析 : Myrinet SBUS Lanai 





图 7-27 显示 了 一 个 正在 出 现 的 NOW 的 实例 。 一 组 UltraSpare 工作 站 经 由 智能 网 络 接口 
卡 〈NIC) ， 使 用 Myricom 的 Myrinet 可 扩展 网 络 集成 起 来 。 让 我 们 从 基本 的 硬件 操作 开始 向 上 
考察 。 该 网 络 说 明了 相对 于 密集 封装 的 并 行 机 网 络 或 者 分 布 范 围 广 的 局 域 网 (LAN)， 什 么 
是 系统 域 网 (SAN)。 链 路 是 并 行 的 铜 绞 线 (18 位 宽 )， 几 十 英尺 长 ， 这 取决 于 链 路 的 速度 和 
电缆 的 类 型 。 通 信和 辅助 部 件 采用 专用 的 通信 处 理 器 ， 类 似 于 Meiko CS-2 和 IBM SP-2 的 方案 。 
NIC @8—TARAY Lanai 处 理 器 ， 用 来 控制 主机 和 网 络 间 的 消息 流 。 在 机 群 设 计 中 一 个 关 
键 的 不 同 之 处 是 NIC 上 有 一 个 相当 尺寸 的 SRAM 存储 器 。 所 有 主机 和 网 络 间 的 消息 数据 都 要 
经 过 NIC 存储 器 。 该 存储 器 也 用 作 Lanai 处 理 器 的 指令 和 数据 存储 器 。 在 NIC 上 有 3 个 DMA 
引擎 ， 一 个 用 作 网 络 输入 ， 一 个 用 作 网 络 输 出 ， 一 个 用 于 主机 和 NIC 存储 器 之 间 的 传输 。 主 
机 的 处 理 器 可 以 使 用 常规 的 装 入 和 存储 指令 访问 地 址 空间 特定 区 域 ， 即 通 过 程序 WO 来 读 写 
NIC 存储 器 。NIC 处 理 器 使 用 DMA 访问 主机 的 存储 器 。 内 核 划 定 一 块 NIC 可 以 访问 的 主机 存 
储 器 区 域 。 对 于 短 的 传输 ， 主 机 直接 把 数据 移 人 移出 NIC 是 效率 最 高 的 ， 而 对 于 长 的 传输 ， 
主机 最 好 把 地 址 写 入 NIC 存储 器 ， 让 NIC 拾取 这 些 地 址 ， 用 它们 来 设置 DMA 传输 。Lanai 处 
理 器 可 以 读 写 网 络 的 FIFO 队列 ， 或 通过 DMA 操作 驱动 FIFO 和 NIC 存储 器 之 间 的 传输 。 

Lanai 执行 的 固件 程序 主要 通过 协调 DMA 传输 来 管理 数据 流 ， 响 应 主机 写 入 的 命令 和 从 
网 络 到 达 的 包 。 典 型 地 ,命令 写 入 NIC 存储 器 ， 被 NIC 的 处 理 器 拾取 。NIC 根据 要 求 从 主机 
传输 数据 ， 把 它们 推 人 网 络 。Myricom 网 络 采用 基于 源 的 路 由 ， 所 以 数据 包 的 头 包括 了 给 通 
往 目的 地 路 径 上 每 个 网 络 交换 机 的 简单 路 由 信息 。 目 的 NIC 把 数据 包 接收 到 NIC 存储 器 。 它 
可 以 检查 事务 中 的 信息 并 按 要 求 处 理 它 ， 提 供 通信 抽象 。 

NIC 的 实现 有 4 个 基本 部 件 : 总 线 接 口 、 链 路 接口 、SRAM 和 Lanai 芯片 ， 在 芯片 上 有 处 
理 器 、DMA 引擎 和 链 路 FIFO。 链 路 接口 把 片上 的 CMOS 信号 转换 成 长 距离 绞 线 上 传输 的 差 
分 信号 。 设 计 的 一 个 关键 方面 是 到 NIC 存储 器 的 带宽 。3 个 DMA 引擎 和 处 理 器 共享 内 部 总 
线 ， 这 在 Lanai 片 内 实现 。 网 络 DMA 引擎 要 求 320 MBps 带宽 ， 主 机 DMA 在 SBUS 上 要 求 短 
的 100 MBps 阵 发 带宽 ， 在 PCI 总 线 上 要 求 长 的 133 MBps 突 发 带宽 。 固 件 的 设计 目标 就 是 能 
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保持 3 种 DMA 引擎 同时 工作 ; 但 是 ， 有 一 点 复杂 ， 因 为 一 旦 启动 了 DMA 引擎 ， 它 的 可 用 带 
宽 及 它 的 执行 速率 就 因为 与 SRAM 的 竞争 而 显著 减低 了 。 


Myrinet 


160 MBps 
双向 链 路 


Myricom 
Lanai NIC 





图 7-27 采用 Myrinet FIN ie Ab FE SE YF DY) NOW 组 织 结构 。 尽 管 机 群 的 节点 是 完整 

的 常规 计算 机 ， 但 在 与 可 扩展 、 低 时 延 网 络 的 接口 中 可 以 提供 一 个 复杂 的 通信 和 辅助 部 

件 。 典 型 地 ， 网 络 接口 挂 在 常规 的 VO 总 线 上 ， 但 是 厂商 越 来 越 倾向 于 通过 节点 体系 结 

构 提 供 更 紧密 的 集成 手段 。 在 很 多 情况 下 ， 通 信和 辅助 部 件 提供 了 网 络 事务 的 专门 处 理 
典型 地 ，NIC 存储 器 逻辑 上 划分 成 一 组 功能 不 同 的 区 域 ， 包 括 指令 存储 区 、 内 部 数据 结 
构 、 消 息 队列 和 数据 传输 缓冲 区 。NIC 存储 器 空间 的 每 一 个 页 由 主机 的 虚拟 存储 器 系统 独立 
BRAT. A, A AKA AEST] NIC 处 理 器 的 代码 和 数据 空间 。 其 余 的 通信 空间 可 以 被 划分 
为 几 个 不 相交 的 区 域 。 通 过 控制 这 些 区 域 的 映射 ， 几 个 用 户 进程 可 以 有 驻 留 在 NIC 上 的 通信 
端点 ， 每 个 都 有 消息 队列 和 相关 的 数据 传输 区 (Chun， Mainwaring, and Culler 1998), 此外， 
主机 的 一 组 存储 器 帧 可 以 被 映射 为 NIC 可 以 访问 的 10 空间 。 因 此 ， 几 个 用 户 进 程 能 具有 向 
NIC 写 消息 ， 从 NIC 直接 读 消息 的 能 力 , 或 者 写 人 消息 的 描述 符 ， 描 述 符 包 含 通过 卡 指向 待 
DMA 传输 的 数据 的 指针 。 这 些 通信 端点 可 以 像 传 统 的 虚拟 存储 器 一 样 管理 ， 这 样 写 信 一 个 
端点 ， 就 使 它 驻 留 在 NIC 中 。NIC 的 固件 负责 把 多 个 通信 端点 的 消息 多 路 复 用 到 实际 的 网 络 
链 路 上 。 它 发 现 何 时 一 个 消息 被 写 人 发 送 队 列 时 ， 把 用 户 的 目的 地 址 翻译 成 经 由 网 络 到 达 目 
的 节点 的 路 径 以 及 那个 节点 上 目的 端点 的 标识 符 ， 形 成 一 个 数据 包 。 此 外 ， 它 可 以 把 一 个 源 
标识 符 放 在 包 的 头 部 ， 该 源 标识 符 在 目的 地 检查 。NIC 固件 检查 每 个 到 来 的 消息 的 头 部 。 如 
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果 它 的 目的 地 是 一 个 驻 留 的 端点 ， 那 么 ， 把 消息 直接 存 人 相关 的 接收 缓冲 区 ; 对 于 块 传输 ， 
如 果 目 的 区 域 匹配 ， 可 以 通过 DMA 把 数据 传人 主机 存储 器 。 如 果 上 述 条 件 不 满足 ， 或 消息 
被 破坏 ， 或 违犯 了 保护 检查 ， 就 给 源 端 发 送 NACK。 通 知 管理 端点 映射 和 数据 缓冲 空间 的 驱 
动 程序 ， 在 消息 成 功 的 重 发 之 前 修补 环境 。 


7.7.2 案例 分 析 : PC 存储 器 通道 


第 二 种 重要 有 代表 性 的 机 群 通信 和 辅助 部 件 设计 是 由 DEC 公司 发 展 起 来 的 存储 器 通道 
(Gillett 1996) ， 该 方案 基于 Encore 的 反射 存储 器 和 虚拟 存储 器 映射 的 通信 方面 的 研究 成 果 
(Blumrich et al. 1994; Dubnicki et al. 1996) 。 这 个 方法 寻求 提供 有 限 形式 的 共享 物理 地 址 空 
间 ， 而 不 是 把 整个 伪 存 储 器 设备 和 伪 处 理 器 集成 到 该 节点 的 存储 器 系统 中 ， 它 还 保留 了 机 群 
的 某 些 自治 和 独立 失效 的 特征 。 和 其 他 机 群 一 样 ， 通 信和 辅助 部 件 包含 在 插 在 常规 节点 扩充 总 
线 上 的 网 络 接口 卡 之 中 ， 在 这 里 是 PCI 总 线 。 

反射 存储 器 背后 的 基本 思想 是 在 两 个 进程 的 地 址 空间 区 ， 即 发 送 区 和 接收 区 间 建 立 一 种 
连接 ,如 图 7-28 所 示 。 源 端 写 人 发 送 区 的 数据 被 反射 到 目的 端的 接收 区 通常 ,一 个 进程 集 
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图 7-28 典型 的 反射 地 址 空间 组 织 结构 。 节 点 (VA) 进程 的 虚拟 地 址 空间 中 的 发 送 区 域 被 映射 到 与 NIC 相 
关 的 物理 地 址 空间 。 接 收 区 域 设 在 存储 器 中 ， 建 立 在 NIC 内 的 映射 ， 这 样 就 可 以 通过 DMA 把 相关 
的 数据 传人 主机 存储 器 。 这 里 ， 节 点 有 两 个 通信 进程 ， 建 立 了 与 其 他 两 个 节点 上 的 进程 的 反射 
存储 器 连接 。 对 发 送 区 域 的 写 人 产生 了 对 NIC 的 存储 器 事务 。 它 接受 写 数据 ， 建 立 一 个 数据 包 ， 
其 包头 标示 了 接收 的 页 面 和 偏 移 量 ， 把 数据 包 引 导 到 目的 节点 。 在 从 网 络 接 收 到 一 个 数据 包 时 ， 
NIC 检 查 包头 ， 并 用 DMA 把 数据 传输 到 对 应 的 接收 页 面 。 也 可 以 选择 让 到 达 的 数据 包 页 产生 一 个 
中 断 。 一 般 来 说 ， 用 户 进程 扫描 接收 区 域 做 相应 更 新 。 为 了 支持 消息 传递 ， 接 受 页 面包 含 消息 队列 
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合 会 有 一 个 全 连接 的 发 送 -接收 区 对 的 集合 。 一 个 节点 的 发 送 区 从 喘 射 到 NIC 的 那 部 分 物理 
地 址 空间 中 分 配 ， 而 接收 区 则 通过 一 个 特殊 的 内 核 调用 锁定 在 存储 器 中 ，NIC 经 过 配置 ， 可 
以 用 DMA 的 方式 把 数据 传 给 接收 区 。 此 外 ， 源 和 目的 进程 必须 在 源 发 送 区 和 目的 接收 区 之 
间 建 立 一 个 连接 。 典 型 的 做 法 是 给 连接 附加 一 个 关键 字 ， 并 把 各 个 区 域 绑 定 到 那个 关键 字 
中 。 区 域 包含 整数 个 页 面 。 

DEC 存储 器 通道 是 一 个 基于 PC 的 NIC， 典 型 地 用 于 基于 Alpha 的 SMP 系统 ， 如 图 7-29 
所 示 (Gillet 1996) 。 除 了 一 般 的 发 送 和 接收 FIFO 之 外 ， 它 还 包含 了 一 张 页 控制 表 (PCT. 
一 个 接收 DMA 引擎 和 发 送 与 接收 控制 器 。 用 一 系列 存储 指令 把 一 块 数据 写 人 发 送 区 中 。AL- 
pha 的 写 缓 冲 器 会 力图 合并 对 一 个 高 速 缓存 块 的 更 新 ， 所 以 ， 发 送 控制 器 将 典型 地 看 到 一 个 
高 速 缓存 块 的 写 操作 。 给 控制 器 的 地 址 的 高 位 部 分 是 帧 号 ， 用 来 访问 PCT， 以 获取 相关 接收 
区 的 一 个 描述 符 《〈 即 目的 节点 或 通 往 节点 的 路 由 、 接 收 帧 号 、 相 关 的 控制 位 )。 这 些 信 息 和 
源 信息 一 起 放 人 数据 包头 ， 通 过 网 络 发 送 到 目标 节点 。 接 收 控制 器 提取 接收 帧 号 ， 以 此 作 
为 PCT 索 引 地 址 。 在 检查 数据 包 的 完整 性 和 验证 源 端 之 后 ,数据 经 过 DMA 传 人 存储 器 .接收 
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图 7-29 DEC 存储 通道 的 硬件 组 织 结构 。 一 个 存储 器 通道 机 群 由 一 组 带 有 PCI 存储 器 通道 适配器 的 AL 
phaServer SMP 组 成 。 适 配器 包含 一 个 页 控制 表 ， 用 于 完成 本 地 发 送 区 到 远程 接收 区 和 本 地 接 
收 区 到 锁定 物理 页 面 帧 的 映射 。 发 送 控制 器 ( tx ctrl) 接受 PCI 的 写 事务 ， 用 存储 地 址 和 页 控 
制 表 〈PCT) 表 项 的 内 容 来 构造 数据 包头 ， 把 含有 待 写 数据 的 数据 包 存放 到 发 送 FIFO。 接 收 
控制 器 ( mx et ) 在 启动 一 次 把 数据 包 数据 传 到 主机 的 DMA 传输 之 前 ， 先 检查 CRC 并 分 析 收 
到 的 数据 包 的 头 。 必 要 时 ， 还 可 产生 中 断 。 在 最 初 的 机 型 ， 存 储 器 通道 的 互 连 是 100 MBps 的 
REAR, 但 它 很 有 可 能 被 交换 所 取代 。 每 个 典型 节点 都 是 一 个 相当 大 的 SMP AlphaServer 
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区 可 以 是 高 速 缓存 的 主机 存储 器 ， 因 为 跨越 存储 器 总 线 的 传输 是 缓存 一 致 的 。 如 果 需 要 ， 写 
完成 之 后 发 一 个 中 断 。 

和 共享 物理 地 址 空间 一 样 ， 该 方案 允许 数据 在 节点 之 间 传 输 ， 即 简单 地 存储 源 数据 ， 从 
目的 端 能 读 出 它 。 但 是 ， 地 址 空间 的 使 用 很 受 限制 ， 因 为 传输 到 特定 节点 的 数据 必须 放 在 特 
定 的 发 送 页 和 接收 页 中 。 这 不 同 于 任 一 进程 都 可 读 写 任 一 共享 地 址 空间 的 方案 。 典 型 情况 
是 ， 共 享 的 数据 结构 并 不 是 放 在 通信 区 中 的 。 相 反 ， 该 区 域 为 消息 缓冲 器 专用 。 数 据 从 逻辑 
共享 的 数据 结构 中 读 出 ， 通 过 逻辑 的 存储 通道 发 送 给 请 求 进程 。 因 此 ， 通 信 抽 象 成 为 真正 的 
基于 存储 器 的 消息 传递 。 没 有 读 取 远 程 地 址 空间 的 机 制 ， 进 程 只 能 读 取 已 被 写 人 的 数据 。 为 
了 更 好 地 支持 共享 存储 的 “单一 写 ， 任 意 读 "，DEC 存储 器 通道 允许 发 送 区 向 一 组 接收 区 多 
点 广播 ， 包 括 源 节点 上 的 回 送 区 。 为 了 方便 构造 分 布 式 数据 结构 ， 特 别 是 分 布 式 锁 存 管理 
器 ， 发 送 区 操作 间 的 先进 先 出 顺序 被 保存 起 来 。 因 为 反射 存储 器 不 是 简单 地 扩展 了 节点 存储 
系统 ， 而 是 建立 在 它 之 上 ， 因 此 ， 一 旦 NIC 接收 到 了 数据 ， 对 发 送 区 的 写 操作 就 结束 了 。 为 
了 确定 写 操 作 的 实际 发 生 ， 主 机 会 检查 NIC 中 的 状态 寄存 器 。 

最 初 的 存储 器 通道 接口 在 两 台 300 MHz 的 DEC Alpha 服务 器 之 间 达 到 了 2.9 ps 的 单 向 通 
{ART HE Al 64 MBps 的 传输 带宽 (Lawton et al. 1996)。 存 储 器 通道 上 传输 一 条 小 MPI 消息 的 单 
向 时 延 约 为 7 ns， 长 消息 传输 能 达到 的 最 大 带宽 为 61 MBps。 用 TruCluster 存储 器 通道 软件 
(Cardoza , Glover, and Snaman 1996 ) 时 ， 获 取 和 释放 一 个 非 竞争 的 自 旋 锁 分 别 需 要 大 约 
130 ys 和 120 uso 

普林斯顿 的 SHRIMP 设计 方案 (Blumrich et al. 1994 , Dubnicki et al. 1996 ) 扩展 了 反射 
存储 器 模型 ， 以 更 好 地 支持 消息 传递 。 它 允许 由 目的 端的 寄存 器 来 决定 接收 偏 移 地 址 ， 这 
样 ， 连 续 的 数据 包 便 可 排队 进入 接收 区 。 此 外 ， 可 以 对 一 个 发 送 区 执行 一 组 写 ， 发 送 区 的 一 
个 区 段 可 发 送 到 接收 区 。 


7.8 并 行 软件 涉及 的 问题 


至 此 ， 我 们 已 经 看 到 现代 可 扩展 分 布 存储 器 型 机 器 的 设计 频谱 ， 根 据 交 付 给 应 用 的 通信 
性 能 ， 可 项 固 我 们 对 这 些 设计 折 中 的 影响 的 理解 。 本 节 中 ,我们 将 通过 三 个 不 同 层次 的 微 基 
准 测 试 程序 来 检验 通信 性 能 。 第 一 组 微 基准 测试 程序 采用 了 一 种 类 似 于 基于 用 户 到 用 户 的 基 
本 网 络 事务 的 通信 抽象 ; 第 二 组 用 的 是 共享 地 址 空间 ; 第 三 组 则 采用 标准 的 MPI 消息 传递 
抽象 。 在 做 出 比较 时 ， 我们 可 以 发 现 不 同 的 组 织 方式 和 用 于 实现 通信 抽象 的 协议 的 不 同 效果 。 


7.8.1 网 络 事务 的 性 能 


很 多 因素 相互 影响 ， 共 同 决定 着 单个 网 络 事务 端 到 端的 时 延 以 及 建立 在 它 之 上 的 通信 抽 
象 。 测 量 每 个 通信 操作 的 时 间 时 ， 我 们 观察 到 这 些 相互 作用 的 累积 效果 。 一 般 而 言 ， 测 量 到 
的 时 间 会 比 通过 把 每 一 个 单个 硬件 部 件 的 时 间 加 到 一 起 得 到 的 总 和 大 。 作 为 体系 结构 设计 
者 ， 我 们 想 知 道 每 一 个 部 件 对 性 能 的 影响 度 ; 但 是 ， 程 序 关心 的 是 这 个 累积 效果 ， 包 括 那 些 
不 可 避免 地 使 之 变 慢 的 细微 的 相互 作用 。 

我 们 将 用 一 个 经 验方 案 来 判断 几 台 我 们 作为 案例 分 析 目 的 机 器 的 通信 性 能 。 使 用 一 个 简 
单 的 用 户 级 通信 抽象 一 一 主动 消息 ， 作 为 研究 的 基础 。 我 们 不 仅 想 测量 总 的 消息 时 间 ， 还 想 
知道 数据 传输 方程 GR (1-5)) 中 的 额外 开销 时 间 部 分 ， 还 有 占用 和 延迟 的 时 间 部 分 。 
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这 个 用 主动 消息 的 微 基准 测试 程序 是 一 个 简单 的 回 送 检测 : 远程 处 理 器 提供 网 络 服务 并 
发 回应 答 。 这 可 排除 当 一 个 请 求 到 达 时 处 理 器 正在 处 理 其 他 问题 而 引起 的 时 间 偏 差 。 此 外 ， 
托 然 只 关心 节点 到 网 络 的 接口 ， 我 们 只 挑选 在 物理 网 络 上 相 邻 的 处 理 器 。 由 于 这 些 机 器 之 间 
没有 一 个 全 局 的 同步 时 钟 ， 处 理 器 之 间 的 “时 钟 扭 余 ”会 轻易 地 超过 单个 消息 的 传递 时 间 尺 
- 度 ， 因 此 ,所 有 的 测量 都 在 源 处 理 器 上 执行 。 请 求 -响应 事务 的 往返 时 间 除 以 2， 获 得 端 到 端 
的 消息 传递 时 间 。 但 是 ， 这 个 单 向 消息 传递 时 间 可 分 为 三 个 不 同 的 阶段 ， 如 图 7-30 所 示 。 
处 理 器 注 人 一 个 消息 时 ， 和 通信 辅助 部 件 进 行 接口 占用 了 不 少时 钟 周期 。 我 们 称 之 为 发 送 售 
外 开销 ， 因 为 这 些 时 间 不 能 用 于 有 用 的 计算 。 类 似 地 ， 旧 的 处 理 器 用 了 几 个 时 钟 周 期 去 取出 
或 处 理 消息 ， 称 之 为 接收 额外 开销 。 除 额外 开销 外 的 消息 传递 时 间 称 为 通信 时 延 。 按 照 第 3 
章 中 的 通信 时 间 表 达 式 ， 它 包含 了 传输 时 延 和 不 能 与 发 送 、 接 收 的 额外 开销 重 冯 的 占用 时 
间 。 它 很 可 能 被 其 他 的 有 效 工 作 或 其 他 消息 的 处 理 所 隐 项 ， 我 们 将 在 第 11 章 进行 详尽 的 讨论 。 





总 通信 时 延 
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L 
观察 到 的 网 络 时 延 





机 器 资源 





消息 时 间 


图 7-30 消息 传递 时 间 分 为 发 送 额 外 开销 、 网 络 时 延 、 接 收 额外 开销 。 图 中 描述 的 是 与 我 们 的 通信 操作 基本 
数据 传输 模型 相关 的 机 器 操作 。 源 端 处 理 器 用 了 0, 把 消息 交 给 通信 辅助 部 件 ， 这 段 时 间 内 ， 处 理 器 
无 法 做 其 他 有 用 的 工作 ; 类 似 地 ， 目 的 端 用 了 O, 的 额外 开销 来 取出 消息 ; 实际 的 信息 传输 涉及 通信 
辅助 部 件 、 网 络 接口 以 及 网 络 链 路 和 交换 机 。 从 处 理 器 角度 看 ， 这 些 子 成 分 是 不 可 区 分 的 。 处 理 器 
经 历 了 不 能 由 它 自己 的 时 延 开销 所 覆盖 的 那 部 分 传输 时 间 ， 这 段 时 间 内 处 理 器 可 以 完成 其 他 有 用 的 
工作 。 处 理 器 也 经 历 了 最 大 消息 传输 率 ， 这 是 根据 消息 间 的 最 小 平均 时 间 间 隔 (或 称 为 间 陈 ) 说 明 的 


在 我 们 的 微 基 准 测试 程序 中 ， 我 们 期 望 能 够 确定 这 三 部 分 时 间 长 度 。 但 是 处 理 器 无 法 区 
分 出 通信 辅助 部 件 花费 的 时 间 和 实际 互 连 链 路 与 交换 机 所 消耗 的 时 间 。 事 实 上 ， 当 处 理 器 还 
在 检查 状态 字 的 时 候 ， 通 信和 辅助 部 件 可 能 已 经 开始 把 消息 推送 到 网 络 上 了 ， 但 是 这 个 工作 被 
额外 开销 隐蔽 了 。 

图 7-31 左边 的 图 显示 了 比较 单 向 的 主动 消息 在 以 下 几 种 不 同 的 系统 上 的 传输 时 间 ，Thi- 
nking Machines 的 CM-5 (7.4.2 47). Intel 的 Paragon (7.5.1 49). Meiko CS-2 (7.5.2 T), 
NOW Ultra 的 工作 站 群 (7.7.1 47), CRAY T3D (7.6.1 节 )。 直 方 图 显示 出 单 向 传输 的 一 条 小 
消息 (5 个 字 ) 的 传输 时 延 的 三 个 部 分 ,包括 发 送 端的 处 理 开销 (0,)、 接 收 端的 处 理 开销 
《0.)、 剩 下 的 通信 时 延 (L). HAWANE (a) 显示 出 请 求 -响应 操作 流水 序列 中 每 个 消 
息 的 时 间 。 例 如 ， 在 Paragon 机 上 ， 单 个 消息 端 到 端的 时 延 大 约 为 10 ws， 但 是 ， 消 息 阵 发 伟 
输 时 ， 每 个 消息 的 时 延 大 约 为 7.5 js， 或 者 说 其 传输 速率 为 每 秒 117.5 ps = 133 000 个 消息 。 
让 我 们 更 详细 地 考察 每 一 个 成 分 。 
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图 7-31 使 用 主动 消息 的 网 络 事务 级 的 性 能 比较 。 左 边 的 直方 图 示意 了 本 章 描述 的 $ 种 机 器 各 自 
的 总 的 时 延 ， 分 成 发 送 额外 开销 、 接 收 额外 时 延 和 网 络 时 延 三 个 部 分 。 其 中 后 者 主要 由 
通信 辅助 部 件 占用 时 间 所 主导 ， 但 包括 网 络 延迟 。 右 边 的 直方 图 显示 了 这 些 机 器 传输 一 
连 捉 的 小 消息 时 每 个 消息 的 时 间 ， 叫 做 间隙 。 它 主要 由 通信 辅助 部 件 的 占用 时 间 所 决定 
5 种 设计 的 发 送 额 外 开销 基本 一 致 ， 但 是， 各 个 系统 对 之 的 决定 因素 却 不 尽 相同 。 在 
CM-5 系统 上 ， 发 送 额外 开销 由 数据 非 高 速 缓 存 写 操作 和 网 络 接口 状态 的 非 高 速 缓存 读 操作 
决定 ， 读 状态 可 判定 消息 是 否 被 接受 。 此 外 ， 状 态 还 可 指示 进入 的 消息 是 否 到 达 ， 这 样 的 安 
排 是 方便 的 ， 因 为 即使 节点 无 法 发 送 消息 ， 它 也 必须 接收 消息 。 不 幸 的 是 ， 这 两 个 网 络 要 求 
两 个 状态 读 操作 〈 较 晚 的 机 器 型 号 CM-500 则 提供 了 更 为 有 效 的 状态 信息 ， 结 果 大 大 地 降低 
了 发 送 开销 )。Paragon 系统 中 ， 发 送 额 外 开销 由 把 消息 写 人 计算 处 理 器 和 通信 (或 消息 ) 处 
Bhar (CP) 所 共享 的 缓冲 区 的 时 间 所 决定 。 计 算 处 理 器 能 够 用 两 条 4 字 的 存储 指令 写 人 消 
息 ， 同 时 在 缓冲 项 中 设置 “消息 存在 ”的 标记 ， 这 是 i860 所 独 有 的 ， 因 此 ， 它 的 发 送 开销 
也 惊人 地 高 ! 其 原因 是 对 于 我 们 前 面 讨论 过 的 生产 者 -消费 者 情况 ， 节 点 内 基于 总 线 的 高 速 
缓存 一 致 性 协议 的 低 效率 。 计 算 处 理 器 必须 在 重新 填充 之 前 从 通信 处 理 器 那 夺 走 缓存 块 。 在 
Meiko CS-2 中 ， 消 息 在 结合 高 速 缓存 的 存储 器 中 建立 ， 然 后 ， 用 一 条 交换 指令 把 指向 消息 
(和 命令 ) 的 指针 排 入 NI 的 队列 。Sparc 指令 系统 中 提供 了 这 条 指令 ， 支 持 同步 操作 。 在 这 
里 ， 它 提供 了 一 个 把 消息 传递 给 NI 并 获取 标记 该 操作 成 功 与 否 的 状态 字 的 方法 。 不 幸 的 是 ， 
交换 操作 比 基 本 的 非 高 速 缓存 的 存储 器 操作 慢 了 很 多 。 在 NOW 系统 中 ， 发 送 额 外 开销 由 一 
系列 双 字 的 非 高 速 缓存 的 存储 操作 和 一 个 跨越 W/O 总 线 到 NI 存储 器 的 非 高 速 缓存 的 读 操 作 
所 决定 。 令 人 吃惊 的 是 ， 这 和 更 为 紧密 集成 的 设计 有 着 相同 的 实际 代价 。 
通过 对 非 高 速 缓存 的 操作 、 扑 空 和 同步 指令 的 时 间 开销 的 比较 ， 我 们 发 现 了 一 件 很 重要 
的 事情 : 这 些 体系 机 构 优 化 时 很 少 顾及 的 ， 一 般 被 认为 是 不 常 发 生 的 事件 ， 其 实 才 是 影响 通 
信 性 能 的 关键 。 允 许 事务 提交 给 存储 层次 结构 下 一 层次 之 前 ， 高 速 缓存 控制 器 所 花费 的 时 间 
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其 至 在 总 线 协议 中 占 主导 地 位 。 比 较 各 种 设计 方案 中 的 接收 额外 开销 ， 我 们 发 现 从 网 络 处 理 
器 到 计算 处 理 器 的 高 速 缓存 至 高 速 缓存 传输 ， 比 从 CM-5 和 CS-2 存储 器 总 线 上 的 网 络 接口 的 
非 高 速 缓存 读 出 操作 的 代价 更 高 。 但 是 ， 在 NOW 系统 中 ，1/0 总 线 上 的 非 高 速 缓存 的 读 操 
作 有 更 高 的 时 间 开 销 。 

机 器 的 几 个 方面 都 会 影响 时 延 成 分 ， 包 括 通信 辅助 部 件 或 网 络 接口 中 的 处 理 时 间 、 通 
过 通道 把 消息 发 到 链 路 上 的 时 间 和 网络 传输 的 延迟 。 我 们 研究 的 系统 其 各 自 的 决定 因素 不 
同 。CM-5 链 路 上 的 传输 速率 为 20 MBps (带宽 为 4 位 ， 频 率 为 40 MHz)。 这 样 ， 单 线 传输 一 
条 40 个 字 节 外 加 一 个 含有 路 由 信息 、 循 环 元 余 码 和 消息 类 型 的 数据 包头 封装 的 时 延 大 约 为 
2.5 Ps。 每 个 路 由 器 增加 一 个 大 约 200 ns 的 延迟 ， 机 器 最 多 有 2log, N 跳 。 网 络 接口 的 占用 和 
线路 的 占用 基本 相同 ， 因 为 它 只 是 一 个 从 线路 上 取 走 或 向 线路 上 放 入 数据 包 的 简单 设备 。 

在 Paragon 系统 中 ， 时 延 由 源 端 和 目的 端的 通信 处 理 器 的 处 理 过 程 所 决定 。 在 175 MBps 
的 链 路 上 , 链 路 的 占用 仅 为 大 约 300 ns。 每 跳 的 路 由 延迟 也 很 小 ， 但 是， 大 型 系统 上 总 的 延 
述 司 能 比 链 路 占用 要 大 的 多 ， 因 为 跳 数 可 达 2VN。 其 主导 因素 是 在 源 端 经 由 存储 器 总 线 把 
消息 写 人 网 络 接口 和 从 目的 端 读 取消 息 的 过 程 对 通信 辅助 部 件 (CP) 的 占用 。 这 些 步骤 花 
了 时 延 中 的 4 ps。 因 此， 取消 通信 路 径 上 的 通信 处 理 器 可 以 明显 地 减少 时 延 (Krishnamurthy 
et al. 1996)。 让 人 吃惊 的 是 ， 这 样 做 并 不 会 增加 多 少 发 送 和 接收 额外 开销 ， 对 网 络 接 口 写 入 
或 读 出 消息 本 质 上 和 高 速 缓存 到 高 速 缓存 传输 的 时 间 开 销 一 样 。 但 是 ， 由 于 网 络 接口 并 未 提 
供 充足 的 解释 来 强化 保护 以 及 保证 消息 经 由 网 络 向 前 传递 ， 所 以 取消 通信 处 理 器 在 实践 中 是 
不 可 行 的 。 

Meiko 系统 中 有 一 个 非常 大 的 时 延 成 分 。 网 络 提供 了 40 MBps 的 链 路 和 类 似 于 CM-5 的 拓 
扑 结构 ， 因 此 它 只 占 其 中 的 很 小 一 部 分 。 通 信和 处理 器 和 网 络 紧密 耦合 在 一 块 芯片 中 。 时 延 大 
部 分 由 通信 处 理 器 访问 系统 存储 器 引起 。 回 想 一 下 前 面 讲 到 的 计算 处 理 器 为 通信 处 理 器 提供 
消息 指针 。 通 信 处 理 器 执行 DMA 操作 从 存储 器 中 取出 消息 。 目 的 端 则 把 消息 写 人 一 个 共享 
队列 。 这 个 系统 的 一 个 不 寻常 的 特点 是 : 网 络 上 的 电路 在 进行 网 络 传输 时 是 保持 的 ， 目 的 端 
为 源 端 提供 一 个 确认 信息 。 这 种 机 制 用 来 通知 源 通信 处 理 器 它 是 否 成 功 地 在 目的 端 接收 消息 
队列 中 获得 了 一 把 锁 。 这 样 ， 尽 管 这 部 分 时 延 很 长 ， 但 难以 通过 流水 的 通信 操作 加 以 隐藏 ， 
因为 在 通信 期 间 ， 源 端 和 目的 端的 通信 处 理 器 被 占用 。 

NOW 系统 中 ， 通 信 系统 各 部 分 的 时 延 分 布 相当 均匀 。 其 链 路 的 传输 速率 为 160 MBps, 
使 得 链 路 占用 度 比 较 小 ， 路 由 延迟 也 很 普通 ， 每 跳 时 延 为 350 ns。 数 据 由 主机 送 人 网 络 接 
口 ， 并 直接 从 网 络 接口 中 读 出 。 时 间 主 要 耗 在 传输 事务 两 端 进行 的 消息 队列 处 理 和 网 络 接口 
存储 器 与 网 络 之 间 的 DMA 传输 操作 上 。 这 样 ， 两 个 网 络 接口 与 网 络 各 自 大 约 花费 了 4 ys 时 
延 的 三 分 之 一 。 

CRAY T3D 以 每 个 处 理 器 分 配 一 个 消息 队列 的 形式 为 用 户 级 消息 提供 硬件 支持 。 它 采用 
了 DEC Alpha 的 用 来 扩展 指令 系统 的 特权 子 例 程 (PAL 代码 ) 的 技术 。 一 个 4 字 的 消息 在 寄 
存 器 中 形成 ， 然 后 发 出 一 个 PAL 调用 来 发 送 消息 。 消 息 在 目的 端 放 人 处 理 器 的 用 户 级 消息 
队列 中 ， 目 的 端 处 理 器 被 中 断 ， 控 制 权 返 回 给 查询 该 消息 队列 的 用 户 应 用 线程 或 -个 特殊 的 
消息 处 理 线程 。 插 入 消息 的 发 送 额 外 开销 仅 为 0.8 uss 但是， 中断 的 额外 开销 为 25 ps, Y 
换 到 消息 处 理 例 程 的 额外 开销 为 33 ps (Arpaci et al. 1995). 使 用 为 原子 操作 而 提供 的 
fetch&increment 寄存 器 ， 可 以 不 经 中 断 和 线程 切换 把 数据 包 插入 消息 队列 。 推 进 队列 指针 的 
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fetch&increment 和 消息 的 写 操作 用 了 1.5 ks， 而 根据 消息 分 支 和 非 高 速 缓存 的 数据 读 操作 花 
T 2.9 uso 

在 Paragon, Meiko 和 NOW 机 器 中 ， 每 个 节点 上 都 有 一 个 完整 的 操作 系统 。 节 点 之 间 使 
用 消息 协同 ， 提 供 一 个 单一 系统 映像 ， 在 节点 集合 上 运行 并 行程 序 。 通 信和 处 理 器 允许 来 自 多 
用 户 进程 的 消息 多 路 复 共 享 的 网 络 ， 同 时 把 来 自 共享 网 络 的 消息 分 发 到 正确 的 目的 进程 中 
去 。 它 还 提供 了 流 控 和 差错 检验 。MPP 系统 依靠 物理 上 单个 机 箱 的 完整 性 来 提供 高 可 靠 性 的 
操作 。 因 此 ， 只 要 其 中 有 一 个 用 户 进程 失败 ， 并 行程 序 的 其 他 进程 也 被 迫 中 止 。 当 一 个 节点 
瘫痪 ， 它 所 在 那 部 分 机 器 要 重启 。 更 为 松散 集成 的 NOW 系统 则 必须 应 付 由 硬件 出 错 、 软 件 
出 错 、 物 理 断 开 引 起 的 单个 节点 的 失效 。 和 MPP 系统 一 样 ， 操 作 系统 之 间 协 同 控制 并 行程 
序 的 进程 。 一 个 节点 失效 时 ， 系 统 对 其 余 节 点 重新 配置 ， 甩 掉 故 障 节点 继续 工作 。 


7.8.2 共享 地 址 空间 操作 


比较 案例 分 析 中 这 几 种 机 器 的 通信 体系 结构 对 共享 地 址 空间 的 读 写 操作 很 有 用 。 这 些 
操作 可 以 很 容易 地 在 用 户 级 消息 抽象 之 上 实现 ， 但 是 这 样 就 放弃 了 对 这 些 简单 而 又 常用 的 操 
作 进行 优化 的 机 会 。 另 外 ， 在 通信 辅助 部 件 没有 提供 足够 的 解释 能 力 的 系统 中 ， 当 远 端 存储 
器 被 访问 时 远 端 处 理 器 会 被 占用 。 在 具有 专用 通信 处 理 器 的 系统 上 ， 通 信和 处理 器 可 以 潜在 地 
服务 于 节点 的 存储 器 请 求 ， 避 免 计 算 处 理 器 被 占用 。 在 支持 共享 物理 地 址 的 机 器 上 ， 硬 件 直 
接 支持 这 种 存储 器 请 求 的 服务 。 

图 7-32 显示 了 这 几 种 系统 远 端 地 址 单元 的 读 操作 性 能 (Krishnamurthy et al. 1996)。 左 边 
的 直方 图 给 出 总 的 读 操 作 时 间 ， 分 为 三 个 部 分 : 发 出 读 指令 的 额外 开销 、 通 信 时 延 和 远程 处 
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图 7-32 共享 地 址 读 操作 的 性 能 比较 。 对 这 5 种 案例 分 析 平 台 ， 左 边 的 直方 图 表明 了 执 
行 远程 读 操 作 的 总 的 时 间 ， 该 时 间 被 分 成 发 出 请 求 时 间 和 完成 读 的 时 间 。 其 余 
时 间 与 其 他 有 效 任务 时 间 相 重合， 第 11 章 中 将 作 深入 的 讨论 。 右 边 的 直方 图 
表示 的 是 连续 的 两 个 读 操作 之 间 的 最 小 时 间 间 隔 ， 它 是 最 大 传输 速率 的 倒数 
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理 时 人 间 。 右 边 的 直方 图 显示 了 在 稳定 状态 下 ， 两 个 读 操 作 之 间 的 最 小 时 间 间 隔 。 对 CM-5 系 
统 而 言 ， 由 于 远程 处 理 器 必须 处 理 网 络 事务 ， 因 此 无 法 对 其 进行 优化 。 在 Paragon 系统 中 ， 
远程 通信 处 理 器 处 理 读 请 求 并 应 答 。 其 通信 处 理 器 要 从 网 络 接口 读 取 消息 ， 处 理 它 ， 然 后 向 
网 络 接口 写 一 个 应 答 ， 因 此 其 远 端 处 理 耗 时 非常 显著 。 此 外 ， 通 信和 处 理 器 还 要 进行 保护 检查 
和 虚拟 地 址 到 物理 她 址 的 转换 。 在 运行 OSF1/AD 操作 系统 的 Paragon 系统 上 ， 通 信 处 理 器 在 
核心 态 下 运行 ， 对 物理 地 址 进行 操作 ， 因 此 ， 它 用 软件 对 请 求 的 地 址 执行 页 表 查找 (请 求 的 
地 址 未 必 是 当前 运行 进程 的 )。Meiko CS-2 系统 提供 读 和 写 网 络 事务 ， 其 源 端 到 目的 端的 电 
路 保持 连接 ， 直 到 污 响 应 或 写 确认 返回 。 专 用 的 远程 处 理 用 一 个 硬件 页 表 来 完成 远 端 节点 上 
的 虚拟 地 址 到 物理 地 址 的 转换 。 这 样 ， 读 时 延 比 一 对 消息 的 确 小 了 不 少 但 仍 相当 显著 。 如 果 
远 端 通信 人 处理 器 执行 读 操 作 ， 时 延 还 要 增加 8 puso NOW 系统 有 一 个 很 小 的 性 能 优势 ， 因 为 
它 没有 使 用 远 端 处 理 器 。 如 在 Paragon 系统 中 ， 消 息 处 理 器 必须 进行 保护 检查 和 地 址 转换 ， 
这 在 嵌入 式 通信 处 理 器 上 是 非常 慢 的 。 此 外 ， 从 网 络 接口 访问 远 端 存储 器 涉及 DMA 操作 ， 
代价 很 高 。 在 所 有 这 些 系统 中 ， 远 程 存 储 器 操作 的 专用 处 理 的 主要 优点 是 ， 操 作 的 性 能 不 会 
依赖 于 对 进入 的 请 求 进行 服务 的 远 端 计算 处 理 器 。 

从 图 中 可 看 出 ，T3D 系统 通过 提供 专用 的 硬件 来 支持 共享 地 址 空间 ， 结 果 使 其 性 能 提高 
了 一 个 数量 级 ! 把 远程 读 写 操 作 交 给 附加 的 硬件 实现 ， 发 出 操作 的 时 间 开 销 仅 为 400 nso F 
外 ， 请 求 的 传送 、 远 程 服务 和 应 管 传送 另外 花费 了 450 ns。 对 一 连 串 的 读 操作 ， 用 硬件 预 取 
队列 可 进一步 提高 其 性 能 。 发 出 预 取 指令 和 从 队列 弹出 只 需 大 约 200 ns。 时 延 被 一 系列 预 取 
分 推 ， 当 有 8 个 或 更 多 预 取 操作 时 ， 时 延 几 乎 完全 被 隐藏 。 


7.8.3 消息 传递 操作 


让 我 们 看 看 几 种 大 型 机 上 消息 传递 的 性 能 测量 结果 。 我 们 前 面 已 经 讨论 了 ， 消 息 传递 操 
作 的 最 常用 的 性 能 模型 就 是 用 来 计算 发 送 n 个 字 节 的 总 时 间 的 线性 模型 。 其 线性 关系 如 下 : 
T(n) =h+ 5 (7-2) 
启动 开销 T 逻辑 上 县 发 送 0 字 节 的 时 间 ，B 是 渐进 带宽 。 数 据 传输 速率 可 简单 地 计算 
为 BW (n) = n/T (mn)。 同 样 地 ， 传 输 时 间 用 两 个 参数 来 描述 ，r。 和 n4， 分 别 表示 渐进 带 
宽 和 得 到 一 半 带 宽 传输 尺寸 〈( 即 半 能 力 点 )。 
启动 开销 反映 协议 的 执行 以 及 建立 数据 传输 所 要 求 的 任何 缓冲 管理 和 匹配 。 渐 进 带宽 反 
映 了 系统 上 端 到 端的 数据 注 人 速率 。 
尽管 这 个 模型 易于 理解 ， 而 且 作为 编程 指导 很 有 用 ， 但 是 它 却 提出 了 体系 结构 评价 中 的 
几 个 难题 。 与 网 络 事务 一 样 ， 除 非 有 一 个 全 局 时 钟 ， 否 则 总 的 消息 时 间 很 难 测量 ， 因 为 发 送 
在 一 个 处 理 器 执行 ， 而 接收 在 另 一 个 处 理 器 进行 。 这 个 问题 通常 用 测量 一 个 应 答 测试 的 时 间 
来 解决 ， 一 个 处 理 器 发 送 数据 ， 然 后 等 待 ， 直 到 接收 到 一 个 消息 。 但 是 ， 只 有 在 消息 到 达 之 
前 远 端 就 发 出 接收 ， 该 方案 才能 产生 一 个 可 靠 的 测量 ， 否 则 ， 测 到 的 其 实 是 远 端 节点 在 向 发 
出 接收 前 消耗 的 时 间 。 如 果 接 收 是 预先 发 出 的 ， 那 检测 到 的 就 不 是 完整 的 接收 时 间 ， 无 法 反 
映 出 由 于 匹配 成 功 而 缓冲 数据 的 开销 。 最 后 ， 测 量 的 时 间 也 不 是 与 消息 的 大 小 成 线性 关系 ， 
因此 为 了 使 数据 和 直线 拟 合 ， 产 生 了 一 个 和 实际 的 启动 开销 没 多 大 关系 的 参数 T. RK 
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说 ,的 值 比较 小 的 时 候 会 有 一 段 平 直 区 间 ， 以 致 从 这 种 拟 合 中 得 到 的 启动 开销 比 发 送 0 个 
字 节 的 消息 的 开销 还 小 ， 甚 至 有 可 能 为 负数 。 这 些 与 方法 相关 的 问题 在 较 老 的 机 器 上 不 存 
在 ， 因 为 它们 的 启动 开销 很 大 ， 基 于 软件 的 消息 传递 实现 也 很 简单 。 

表 7-1 列 出 了 一 段 时 期 以 来 的 几 种 重要 的 大 型 并 行 机 商用 消息 传递 库 的 启动 开销 和 渐进 
Wi. ( 表 中 还 另 加 了 第 6 章 讨论 过 的 两 个 小 型 SMP 系统 的 相关 信息 。) 从 表 中 可 以 看 出 ， 
不 到 十 年 ， 启 动 开 销 7。 下 降 了 一 个 数量 级 ， 它 本 质 上 与 时 钟 周期 的 改进 相符 ， 这 一 点 从 表 
的 中 间 那 列 可 以 很 容易 地 看 出 。 表 的 右面 几 列 说 明 ， 启 动 开销 的 改进 跟 不 上 浮 点 运算 性 能 和 
带宽 的 改进 速度 。 注 意 ， 启 动 开销 与 只 有 几 微 秒 或 几 分 之 一 微 秒 的 通信 网 络 硬件 时 延 不 在 一 
个 数量 级 上 。 它 由 每 个 消息 事务 的 处 理 开销 、 协 议和 用 于 提供 消息 传递 抽象 的 同步 语义 所 需 
要 的 处 理 决定 。 

表 7-1 消息 传递 的 启动 开销 和 渐进 带宽 
To 最 大 带宽 ”每 个 mo 的 ”每 个 处 理 器 ”每 个 Po 的 








机 机 F (us) (MBps) ”周期 数 MELOS pae M 
iPSC/2 1988 700 2.7 5 600 1 700 1 400 
nCUBE/2 1990 160 2 3 00 2 300 300 
iPSC/860 1991 160 2 6 400 40 6 400 320 
CM5 1992 95 8 3 135 20 1 900 760 
SP-1 1993 50 25 2 500 100 5 000 1250 
Meiko CS-2x 1993 83 43 7 470 24 1 992 3 560 
Paragon 1994 30 175 1 500 50 1 500 7 240 
SP-2 1994 35 40 3 960 200 7 000 2 400 
CRAY T3D (PVM) 1994 21 27 3150 | 94 1 974 1 502 
NOW 1996 16 38 2672 180 2 880 4 200 
SCI Power-Challenge 1995 10 64 900 308 3 080 800 
Sun E6000 1996 11 160 1760 180 1 980 2 100 





图 7-33 显示 在 儿 种 机 器 上 作为 消息 尺寸 函数 、 通 过 应 答 测试 测 得 的 单 向 通信 和 时间。 在 
这 个 区 间 段 图 中 ， 启 动 开 销 的 差别 是 明显 的 ， 即 小 消息 对 应 的 非 线性 段 。 带 宽 由 线 的 斜率 给 
出 。 带 宽 可 以 从 与 之 等 价 的 BW (n) 的 对 应 图 示 (如 图 7-34 所 示 ) 中 看 得 更 清楚 。 在 解释 
消息 传递 的 带宽 数据 时 必须 警惕 ， 因 为 成 对 传输 带宽 只 反映 了 点 到 点 的 数据 率 。 例 如 ， 我 们 
知道 ， 对 基于 总 线 的 机 器 而 言 ， 如 果 多 对 节点 之 间 同 时 进行 通信 ， 一 般 是 不 会 保持 这 个 带宽 
的 。 在 第 10 章 中 我 们 将 看 到 ， 有 的 网 络 可 以 提供 比 其 他 网 络 更 高 的 集合 带宽 。 特 别 是 ，Par- 
agon 的 数据 对 于 涉及 多 对 节点 的 许多 通信 模式 而 言 是 过 于 乐观 的 ， 而 其 他 的 大 型 系统 能 对 大 
多 数 的 模式 保持 成 对 通信 带宽 。 


7.8.4 ”应 用 层 性 能 


计算 机 系统 各 方面 的 端 到 端 效 应 一 起 决定 了 应 用 层 获 得 的 性 能 。 这 一 层 的 分 析 对 终端 用 
户 最 有 用 ,通常 是 采购 决策 的 基础 。 它 也 是 评价 体系 结构 折 中 方案 的 最 终 基 点 ， 但 是 ， 这 就 
村 来 找 出 机 器 和 程序 中 那些 因素 导致 了 累积 的 性 能 效应 。 一 般 地 ， 这 种 映射 涉及 对 应 用 的 齐 
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图 7-33 消息 传递 操作 的 时 间 与 消息 尺寸 的 关系 。 不 同 的 消息 传递 的 实现 显示 了 几乎 一 个 数量 级 的 启 
动 开销 的 差别 ， 对 于 一 个 范围 之 内 的 小 尺寸 消息 ， 这 个 开销 是 常数 ， 导 致 单个 消息 时 间 曲 线 
的 显著 非 线性 。 在 大 尺寸 消息 区 段 ， 时 间 与 消息 尺寸 成 近似 的 线性 关系 ， 曲 线 的 斜率 表示 带宽 

O ”在 这 个 基准 测试 中 用 的 是 Sums 操作 系统 
析 ， 分 离 出 主要 时 间 开 销 之 所 在 ， 提 取出 该 应 用 的 使 用 特征 以 决定 其 需求 。 本 节 简 要 地 比较 
在 我 们 研究 的 几 种 机 型 上 运行 NPB2 测试 程序 集 (NAS 基准 测试 程序 1998) 的 两 个 NAS IEG 
基准 程序 所 得 到 的 性 能 。 

LU 基准 测试 程序 以 差分 方法 的 上 三 角 块 和 下 三 角 块 近似 分 解 ， 解 决 用 于 流体 动力 学 模 
型 的 三 维 可 压缩 Navier-Stokes 方程 的 有 限 差分 离散 化 问题 。LU 因子 分 解 形式 作为 放松 因子 ， 
用 对 称 连 续 超 松弛 (SSOR) 方案 来 解 。 该 基准 测试 程序 基于 使 用 Intel 的 消息 传递 库 的 1991 
年 NAS 参考 实现 ，NX (Barszez et al. 1993)。 它 要 求 有 2 的 赛 次 方 个 处 理 器 。 把 坐标 的 前 两 
维 重复 对 分 得 到 三 维 数据 网 格 的 二 维 分 区 ， 然 后 按 * 、y 坐标 交替 分 配 到 处 理 器 ， 直 到 所 有 
的 处 理 器 都 被 分 配 ， 结 果 形 成 垂直 笔 状 的 网 格 分 区 。 每 支 笔 可 看 作 水 平 片 的 堆砌 。 基 于 点 的 
操作 的 次 序 构成 SSOR 沿 对 角 线 上 的 处 理 过程 ， 从 一 给 定 的 z 平面 的 一 角 向 其 对 角 的 相同 。 
平面 扫描 ， 接 着 处 理 下 一 个 = 平面。 这 样 构造 的 对 角 线 流水 方法 被 发 明 者 称 为 “ 波 前 ”法 
(Barszcz et al. 1993), 软件 流水 线 用 了 相对 很 少 的 时 间 来 装 满 和 清空 ， 得 到 很 好 的 平衡 。 完 
成 了 所 有 与 相 邻 分 区 发 生 作用 的 对 角 线 上 的 计算 后 ， 发 生 分 区 边界 的 数据 通信 。 结 果 导 致 了 
相对 较 多 的 小 尺寸 通信 。 但 是 ,总 的 通信 重 比 计算 开销 还 是 要 小 ， 使 得 这 种 并 行 LU 方案 效 
率 相对 更 高 。 松 儿 段 内 高 速 缓存 块 复 用 率 很 高 。 

图 7-35 显 示 了 对 于 稀疏 世 在 A 类 输入 (在 64x 64 x 64 网 格 上 的 200 次 和 迭代) 时 ,TIBM 
SP-2 (FEA), CRAY T3D 和 UltraSparc 机 群 (NOW) 各 自 的 加 速 比 。 加 速 比 以 4 个 处 理 器 
的 性 能 为 基点 进行 了 标准 化 ， 图 7-35 的 右边 显示 了 4 个 处 理 器 时 的 各 自 的 性 能 。 之 所 以 先 
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图 7-34 带宽 与 消息 尺寸 的 关系 。 可 扩展 型 机 器 在 大 消息 传输 时 ， 通 常 提 供 每 个 节点 每 秒 几 
十 兆 字 节 的 带宽 ， 虽 然 Paragon 设计 使 其 带宽 达到 了 每 秒 几 百 兆 字 节 。 带 宽 主 要 受 限 
于 存储 器 系统 ， 包 括 内 部 总 线 ， 传 送 数据 的 DMA 支持 的 能 力 。 小 型 的 共享 存储 器 设 
计 在 几 个 传送 同时 发 生 时 ， 呈 现 了 出 自 高 速 缓存 的 存储 器 副本 所 要 求 的 点 到 点 带宽 
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图 7-35 在 稀疏 LU NAS 并 行 基准 测试 程序 上 的 应 用 性 能 。 左 图 显示 了 IBM SP-2, CRAY 
T3D 和 NOW UliraSpare 机 群 运行 在 稀疏 LU 基准 测试 程序 的 可 扩展 性 ， 以 4 个 处 
理 器 的 性 能 为 基点 进行 标准 化 。 右 边 表示 3 个 系统 的 4 个 处 理 器 时 的 基础 性 能 


FE 4 个 处 理 器 为 基点 ， 是 因为 这 是 T3D 解决 该 问题 的 最 小 节点 数 。 从 图 7-35 中 我 们 可 以 看 
出 ， 处 理 器 个 数 超过 100 时 扩展 性 还 很 好 ， 而 且 T3D 和 NOW 两 者 的 扩展 性 都 比 SP-2 要 好 。 
这 和 处 理 器 的 性 能 与 小 消息 传输 性 能 之 比 相 一 致 。 
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BT 算法 解 三 组 不 相关 的 方程 组 一 一 首先 x 方向 ， 然 后 y 方向 ， 最 后 z 方向 。 这 些 方程 
组 是 块 对 角 方 程 ， 块 大 小 是 5x 5， 用 多 分 区 方案 可 解 出 《Bruno and Cappello 1988)。 多 分 区 
方案 提供 了 很 好 的 负荷 平衡 ， 使 用 粗 粒 度 通信 。 每 个 处 理 器 负责 几 个 网 格 点 (单元 ) 的 不 相 
连 字 块 。 这 些 单元 的 分 配 使 得 在 按 行 求解 阶段 的 每 个 方向 上 ， 属 于 某 个 特定 处 理 器 的 单元 将 
治 解 的 该 方向 均匀 分 布 。 这 样 ， 每 个 处 理 器 在 按 行 求解 整个 过 程 当 中 一 直 做 有 用 的 工作 ， 而 
不 是 在 开始 工作 前 被 迫 等 待 来 自 其 他 处 理 器 的 行 的 部 分 解 。 此 外 ， 一 个 单元 的 信息 直到 它 所 
处 理 的 线性 方程 组 各 个 部 分 都 被 解 出 之 后 才 传 给 下 一 个 处 理 器 。 所 以 ， 保 持 了 一 个 大 的 通信 
的 粒度 ， 使 得 传送 的 消息 更 少 。BT 代码 要 求 平方 数 个 处 理 器 。 代 码 已 经 写 和 人 ， 因 此 如 果 一 
个 给 定 并 行 平台 只 允许 给 一 个 作业 分 配 2 的 宪 次 方 个 处 理 器 ， 那 些 不 需要 的 处 理 器 被 认为 是 
朵 置 的 ， 在 进行 运算 时 被 忽略 ， 但 计算 MFLOPS 速率 时 却 要 把 它们 计算 在 内 。 

图 7-36 显示 了 IBM SP-2, CRAY T3D 和 Uluaspare NOW 系统 在 A 类 问题 上 BT 基准 测试 
程序 的 可 扩展 性 。 这 里 的 加 速 比 以 25 个 处 理 器 的 性 能 为 基点 进行 标准 化 。 图 7-36 右 部 所 示 
即 为 25 个 处 理 器 的 性 能 ， 之 所 以 这 样 标准 化 ， 是 因为 这 是 能 获得 性 能 数据 的 最 小 T3D 配置 。 
这 三 种 平台 的 可 扩展 性 都 不 错 ， 尽 管 SP.2 还 是 相对 差 一 点 ， 但 它 单个 节点 的 性 能 却 高 了 
很 多 。 
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图 7-36 在 BT NAS 并 行 基准 测试 程序 集 上 的 应 用 性 能 。 此 图 表现 的 是 IBM SP-2, CRAY T3D. 
UltraSparc 机 群 在 BT 基准 测试 集 上 的 可 扩展 性 。 这 3 个 系统 的 基本 性 能 如 右 图 所 示 


为 了 理解 为 什么 机 器 的 扩展 性 总 是 低 于 理想 情况 ,我 们 需要 更 进一步 地 研究 应 用 的 特 
征 ， 尤 其 是 通信 特征 。 为 了 把 注意 力 集中 到 应 用 的 制约 因素 部 分 ,我们 研究 最 外 层 循环 的 一 
个 移 代 。 典 型 地 ， 应 用 在 初始 化 之 后 都 会 执行 几 百 个 这 种 迭代 。 这 次 ， 我 们 不 使 用 前 面 几 章 
的 模拟 方法 来 考察 通信 特征 ， 我 们 通过 运行 用 经 过 修改 的 MPI 消息 传递 库 编 写 的 程序 ， 来 
收集 这 个 信息 。 消 息 尺 寸 的 直方 图 统计 是 一 个 有 用 的 特征 。 每 发 送 一 个 消息 ， 与 其 尺寸 范围 
对 应 的 计数 器 就 加 一 。 表 7-2 的 上 半 部 分 对 所 有 处 理 器 的 结果 进行 了 总 结 ， 其 中 问题 的 规模 
固定 ， 处 理 器 的 个 数 从 4 扩展 到 64。 对 每 一 种 配置 而 言 ， 给 出 了 消息 个 数 非 零 的 消息 尺寸 ， 
以 及 对 应 太 才 的 消息 个 数 和 这 些 消息 中 传送 数据 的 总 量 的 估计 值 。 我 们 看 到 ， 这 个 应 用 中 基 
本 上 传送 了 三 种 不 同 尺 寸 的 消息 ， 但 是 这 些 尺 寸 和 发 送 频率 随处 理 器 的 数量 变化 很 大 。 消 息 
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斥 才 和 发 送 频率 是 消息 传递 程序 的 两 个 典型 特征 。 调 试 好 的 程序 高 度 结构 化 ， 通 信使 用 也 非 
常 精 简 节 约 。 此 外 ， 由 于 问题 规模 保持 固定 不 变 ， 处 理 器 的 数量 增加 时 ， 每 个 处 理 器 负责 的 
问题 部 分 就 相应 减少 。 因 为 传送 数据 的 尺寸 由 程序 如 何 编写 所 决定 ， 而 与 机 器 参数 无 关 ， 配 
置 变 化 时 ， 数 据 尺寸 会 发 生 显著 变化 。 即 在 小 型 配置 上 程序 发 送 几 个 非常 大 的 消息 ,而 在 大 
型 配置 上 它 发 送 许多 相对 较 小 的 消息 。 当 处 理 器 的 个 数 增加 16 倍 ， 总 的 通信 量 几 乎 增加 8 
彰 。 这 个 增 量 当然 是 影响 加 速 比 曲线 的 一 个 因素 。 此 外 ， 启 动 开销 较 大 的 机 器 受 消息 尺寸 减 
小 的 影响 越 严 重 。 


表 7-2 一 定数 量 范围 的 处 理 器 上 执行 BT 算法 A 类 总 题 的 一 次 选 代 的 通信 特征 

















4 处 理 器 16 处 理 器 36 处 理 器 64 处 理 器 
消息 总 数据 | ”消息 总 数据 | ”消息 总 数据 | JAB 总 数据 
Rt 传输 量 | 尺寸 传输 量 | 尺寸 传输 量 | Roy 传输 量 
(KB) ”消息 (KB) | (KB) 消息 (KB) | (KB) 消息 《KB) | (KB) 消息 (KB) 
43.54 12 513| 11.5+ 144 1652) 4.5+ 540 2505 3+ 1344 4266 
81.5+ 24 1916| 614 96 5742] 29+ 540 15425 19+ 1344 25 266 
261 + 12 3062} 69+ 144 9738 | 45+ 216 9545 | 35.54 384 13406 
总 通信 量 (KB) 5491 17 132 27 475 42 938 
一 次 迭代 的 时 间 5.43 1.46 0.67 0.38 
(s) ` 
平均 带宽 (MB/s) 1.0 11.5 40.0 110.3 
每 个 处 理 器 的 平 
均 带 宽 (MB/s) 0.25 0.72 1.11 1.72 
CC 


观察 在 固定 问题 规模 的 可 扩展 规则 下 ， 每 个 处 理 器 的 工作 量 随 扩展 而 变化 非常 重要 。 这 
里 我 们 观察 通信 方面 的 情况 ， 但 是 ， 它 一 样 改变 了 高 速 缓存 的 行为 和 一 些 其 他 的 因素 。 表 
7-2 的 下 半 部 分 描述 了 该 应 用 的 平均 通信 需求 。 用 总 的 消息 量 除 以 Unaspare 机 群 上 每 次 迭代 
的 时 间 ”， 得 到 可 提供 的 平均 消息 数据 带宽 。 的 确 ， 通 信 率 确实 按 比 例 增长 ， 机 器 配置 每 增 
加 16 倍 ， 通 信 率 就 增加 100 倍 以 上 。 进 一 步 除 以 处 理 器 的 个 数 ， 我 们 发 现 每 个 处 理 器 的 平 
均 带 宽 很 显著 ,但 并 不 是 非常 大 。 与 我 们 在 5.4 小 节 中 模拟 SMP 时 观察 到 的 共享 地 址 空间 应 
用 的 速率 差不多 。 但 是 ， 根 据 平均 通信 需求 来 决定 设计 方案 必须 极其 首 慎 ， 因 为 通信 很 可 能 
有 突 发 事件 。 通 常 ， 计 算 过 程 会 不 时 地 被 突 发 的 通信 事件 打 断 。 对 BT 基准 测试 程序 上 的 应 
用 而 言 ， 通 过 定期 的 采样 消息 直方 图 的 快照 ， 可 以 得 到 瞬间 通信 的 行为 。 图 7-37 显示 了 执 
行 该 程序 的 64 个 处 理 器 中 之 一 的 几 次 迭代 的 结果 。 每 一 个 采样 间隔 内 ， 直 方 条 表示 该 段 时 
间 问 隔 内 所 传输 的 最 大 消息 的 尺寸 。 对 该 应 用 而 言 ， 通 信 的 剖 视 轮廓 在 所 有 的 处 理 器 上 都 相 
似 ， 因 为 它 对 所 有 的 处 理 器 采用 阶段 同步 方式 ， 所 有 处 理 器 在 本 地 计算 和 通信 阶段 间 交 替 切 
换 。 从 图 中 可 清楚 地 看 到 三 种 消息 尺寸 ， 它 们 以 有 规律 的 模式 重复 出 现 ， 两 个 较 小 的 尺寸 比 
较 大 的 尺寸 出 现 得 更 为 频繁 。 总 体 来 说 ， 白 的 空间 的 确 比 暗 的 空间 要 多 ， 因 此 ， 平 均 通信 带 
宽 与 其 说 表明 了 通信 期 间 的 通信 比率 ， 不 如 说 表明 了 通信 对 计算 的 比例 。 

如 果 把 式 (3-1) 提供 的 框架 应 用 于 NAS 并 行 基准 测试 程序 的 加 速 比 检测 ， 我 们 发 现 ， 
随 着 处 理 器 的 数量 的 增加 ， 所 有 的 并 行 性 代价 都 随处 理 器 的 数量 而 增加 。 增 加 了 额外 的 工 
作 ， 通 信 重 增加 了 ， 通 信 的 代价 也 增加 了 ， 等 待 时 间 也 增加 了 。 虽 然 如 此 ， 这 些 基准 测试 程 





中 ”执行 时 间 是 表 中 特定 平台 的 惟一 一 个 特征 数据 。 所 有 的 其 他 通信 特性 都 是 关于 程序 的 ， 因此 在 任意 的 平台 上 测 
量 到 的 结果 都 一 样 。 
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图 7-37 在 64 个 处 理 器 上 BT-A 运行 中 消息 随时 间 变 化 的 轮廓 。 该 程序 使 用 被 修改 过 
的 MPI 库 执 行 ， 该 MPI 库 能 定期 采样 通信 直方 图 。 图 中 显示 了 每 一 个 采样 间 
隔 内 一 个 特定 的 处 理 器 发 出 的 最 大 的 消息 。 很 明显 ， 通 信 征 有 规律 的 、 突 发 的 


序 中 的 几 个 却 在 有 相当 大 数量 处 理 器 时 获得 了 完美 的 加 速 比 。 原 因 是 ， 固 定 规模 的 问题 分 布 
到 大 量 的 处 理 器 上 时 ， 计 算 工作 效率 更 高 。 特 别 是 ， 图 3-6 所 示 的 工作 集 的 行为 有 非常 显著 
的 影响 ,尽管 程序 用 的 是 消息 传递 的 编程 模式 。 这 个 效应 对 LU 的 影响 可 以 从 图 7-38 中 看 出 。 


图 7-38 一 定 规模 范围 的 机 器 执行 NAS 
并 行 基准 测试 程序 LU 的 工作 集 

曲线 。 随 着 CPS 的 扩展 ， 由 于 

数据 集 分 布 到 不 同 数量 的 节点 

上 ， 使 得 不 同 规模 的 系统 对 应 

的 曲线 也 不 同 。 在 大 高 速 缓存 

情况 下 ， 对 应 曲线 的 分 离 通过 

减少 计算 花费 的 时 间 而 改善 观 

- 察 到 的 加 速 比 。 但 是 ,在 20 世 
. L e o E p00 纪 80 年 代 中 期 普通 的 小 高 速 组 
存 配置 上 ， 这 个 效果 没有 出 现 ， 

PoE A fe OF (KB) 而 恰恰 出 现 了 与 之 相反 的 情形 
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图 中 的 每 一 条 曲线 表示 了 在 一 个 执行 该 并 行程 序 的 典型 节点 上 ， 作 为 高 速 缓存 尺寸 的 函数 的 
高 速 缓冲 扑 空 率 。 这 个 结果 的 获得 是 通过 并 行 地 运行 该 程序 ， 收 集 每 个 节点 上 高 速 缓 冲 轨 
迹 ， 把 该 轨迹 提交 给 一 个 高 速 缓存 模拟 句 ， 该 模拟 器 模拟 了 具有 64 字 节 块 的 各 种 不 同 大 小 
的 全 相 联 缓冲 器 。 观 察 的 关键 点 是 每 种 规模 的 系统 都 有 不 同 的 工作 集 剖 视 轮 廊 。 当 是 4 个 处 
理 器 时， 拐点 出 现在 高 速 缓存 大 小 为 512 KB 处 ， 但 是 在 32 MAART, PA ih BETE 64 KB 
处 。 因 此 ， 在 具有 256 KB 高 速 缓存 的 机 器 上 ， 其 配置 由 4 个 处 理 器 扩展 到 16 个 或 更 多 个 处 
理 器 时 ， 扑 空 率 从 5% 降 到 1% 。 的 确 ， 随 着 配置 的 扩展 ， 全 部 处 理 器 的 总 计算 时 间 下 降 了 ， 
因此 ， 尽 管 通信 花费 的 时 间 增 加 了 ， 还 是 能 获得 完美 的 加 速 比 。 但 这 个 效果 在 SP-2 上 却 不 
突出 ， 因 为 其 基本 节点 对 于 不 能 为 高 速 缓存 所 容纳 的 数据 的 操作 进行 了 优化 。 


7.9 同步 


在 大 型 的 分 布 存储 器 型 机 器 上 软 硬 件 结合 实现 同步 操作 主要 关心 的 问题 是 可 扩展 性 。 对 
于 消息 传递 的 编程 模型 ， 互 斥 是 基本 假定 ， 因 为 每 个 进程 对 其 局 部 地 址 空间 有 着 独占 性 的 访 
问 。 点 到 点 事件 隐 含 在 每 个 消息 操作 中 ， 更 令 人 感 兴趣 的 情况 是 根据 点 到 点 的 消息 来 指挥 全 
局 的 或 组 的 同步 。 这 里 一 个 重要 的 问题 是 平衡 : 重要 的 是 用 于 实现 同步 的 通信 模式 在 节点 间 
必须 平衡 ， 以 便 实 现 高 的 消息 速率 和 高 效率 的 同步 。 在 极端 情况 下 ， 我 们 应 该 避免 让 所 有 的 
进程 同时 与 同一 个 进程 通信 或 等 待 同一 个 进程 。 消 息 传递 层 的 机 器 设计 者 和 实现 者 都 力图 使 
这 种 环境 下 的 消息 速率 最 大 化 ， 但 是 只 有 程序 能 够 缓解 其 负载 不 平衡 。 全 局 同步 的 其 他 问题 
都 与 共享 地 址 空间 中 的 问题 相 类 似 。 

在 共享 地 址 空间 中 ， 互 斥 和 点 到 点 事务 问题 和 第 5 章 讨论 的 问题 本 质 上 是 一 样 的 。 和 小 
规模 共享 存储 器 型 机 器 一 样 ， 可 扩展 机 器 的 趋势 是 在 基本 的 交换 原 语 之 上 ， 用 软件 构造 用 户 
级 同步 操作 (如 加 锁 和 栅 障 )。 但 是 ， 两 个 主要 的 区 别 会 影响 算法 的 选择 。 首 先 ， 互 连 网 不 
是 集中 式 的 ， 而 是 含有 很 多 并 行 的 通路 。 一 方面 ， 这 意味 着 几 组 不 相交 的 处 理 器 可 以 通过 完 
全 不 相交 的 通路 并 行 相互 协调 ， 另 一 方面 ， 它 使 得 同步 原 语 的 实现 更 加 复杂 。 其 次 ， 物 理 上 
分 布 的 存储 器 使 得 适当 地 在 存储 器 中 分 配 同 步 变量 变 得 很 重要 。 它 的 重要 性 取决 于 该 机 器 是 
和 否 高 速 缓存 非 局 部 共享 数据 ， 显 然 ， 对 于 本 章 所 找 述 的 不 对 非 局 部 共享 数据 做 高 速 缓存 的 机 
器 更 为 重要 。 本 节 中 介绍 几 种 新 的 加 锁 和 栅 障 的 算法 ， 它 们 适合 于 具有 物理 的 分 布 存储 器 并 
且 互 连 的 机 型 ， 我 们 将 从 讨论 用 于 共享 存储 器 机 型 的 算法 开始 。 在 下 一 章 一 旦 研究 了 可 扩展 
的 高 速 缓存 一 致 的 系统 之 后 ， 就 返回 这 点 进行 比较 。 下 面 开 始 讨论 加 锁 算法 。 


7.9.1 加 锁 算法 


第 5 章 5.5 节 中 介绍 了 基本 的 test&set 锁 、 带 退回 的 test&set 锁 、test-and-test&set 锁 、 标 
签 锁 、 基 于 人 阵列 的 锁 。 这 些 加 锁 对 应 的 总 线 流 通 量 和 公平 性 依次 减少 ， 但 通常 ， 其 对 应 的 额 
外 开销 也 会 增加 。 例 如 ， 当 一 个 锁 被 释放 后 ， 标 签 锁 只 允许 一 个 进程 发 出 一 条 test&set， 但 
是 所 有 的 处 理 器 通过 一 个 扑 空 都 得 知 锁 已 经 被 释放 ， 随 后 的 一 个 读 扑 空 决定 人 进来 发 出 
test&set。 基 于 阵列 的 锁 解 决 这 个 问题 的 办 法 是 : 让 每 个 进程 在 不 同 的 地 址 单元 等 待 ， 释 放 锁 
的 进程 通过 写 人 对 应 的 单元 ， 只 通知 一 个 进程 锁 被 释放 。 

但 是 ， 基 于 阵列 的 锁 对 具有 物理 上 分 布 的 存储 器 的 可 扩展 机 器 有 两 个 潜在 的 问题 。 第 
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一 ， 每 把 锁 需 要 与 处 理 器 数量 成 比例 的 存储 空间 。 第 二 ， 无 法 预先 知道 一 个 进程 将 自 旋 于 哪 
一 个 地 址 单元 ， 因 为 这 是 在 运行 时 通过 fetch&increment 操作 决定 的 ， 这 一 点 对 远程 数据 非 高 
速 缓冲 的 机 器 尤为 重要 。 这 样 ， 就 不 可 能 把 同步 变量 分 配 在 绕 其 自 旋 的 进程 的 局 部 存储 空间 
内 (实际 上 ,第 5 章 涉及 的 所 有 的 锁 都 有 这 个 问题 )。 在 不 具有 一 致 的 高 速 缓 冲 的 分 布 式 存 
储 器 机 器 中 ， 如 CRAY T3D 和 T3E， 这 是 一 个 很 严重 的 问题 ， 因 为 进程 将 在 远程 地 址 单元 上 
自 旋 ， 导 致 大 量 京 乱 的 通信 和 竞争 。 幸 运 的 是 ， 存 在 一 个 软件 加 锁 算法 ， 它 既 可 以 减少 需求 
空间 ， 又 保证 所 有 自 旋 操作 都 针对 本 地 分 配 的 变量 。 这 种 叫做 软件 排队 锁 的 锁 是 当初 Wis- 
consin Multicube 项 目 (Goodman, Vernon, and Woest 1989) 建议 的 全 硬件 锁 的 软件 实现 。 其 思 
想 是 每 个 锁 维 护 一 个 等 待 者 的 分 布 链 表 或 队列 。 表 中 头 节点 代表 持 有 锁 的 进程 ， 其 他 每 一 个 
节点 表示 一 个 等 待 该 锁 的 进程 ， 而 且 该 节点 分 配 在 对 应 进程 的 本 地 存储 器 空间 内 。 一 个 节点 
指向 紧 跟 在 其 后 试图 获取 该 锁 的 进程 (节点 )。 还 有 一 个 尾 指 针 指 向 队列 的 最 后 那个 节点 ， 
即 最 后 那个 希望 获取 该 锁 的 节点 。 让 我 们 首先 通过 图 观察 在 进程 获得 和 释放 锁 时 队列 如 何 变 
化 ， 然 后 将 分 析 获 取 和 释放 锁 的 方法 所 对 应 的 代码 。 

假设 图 7-39 中 的 锁 最 初 空闲 。 当 进程 A 试图 获取 该 锁 时 ， 它 得 到 了 ， 此 时 对 应 的 队列 
如 图 7-39a 所 示 。 在 图 7-39b 中 ， 进 程 B 试图 获取 该 锁 ， 因 此 它 被 放 入 队列 当中 ， 尾 指针 现 
在 指向 它 。 在 图 7-39c 中 ， 对 试图 获取 该 锁 的 进程 C 也 做 类 似 的 处 理 。 在 A 进程 持 有 锁 的 时 
候 ，B 进程 和 C 进程 绕 与 其 队列 节点 相连 的 局 部 标记 自 旋 。 在 图 7-39d 中 ， 进 程 A 释放 该 
锁 。 它 改写 与 B 节点 相关 联 的 标记 来 唤醒 队列 中 下 一 个 进程 ， 即 进程 B， 然 后 离开 队列 。 现 
在 B 持 有 该 锁 ， 处 于 队列 的 头 部 。 尾 指针 保持 不 变 。 在 图 7-39e 中 ， 类 似 地 ，B 释放 锁 ， 把 
锁 传 给 C， 因 此 C 既是 队 头 又 是 队 尾 。 如 果 C 在 另 一 个 进程 试图 获取 锁 之 前 释放 锁 ， 那 么 该 
锁 指 针 将 为 空 (NULL) ， 锁 也 再 一 次 空闲 。 以 这 种 方式 ， 按 试图 获取 锁 的 次 序 先进 先 出 地 把 
锁 赋予 进程 。 下 面 将 定义 获取 锁 的 次 序 。 


z 
| a 
° THO 
ejo ° 
=O 
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图 7-39 进程 申请 获取 和 释放 锁 时 对 应 的 队列 状态 。 随 着 新 的 等 待 进程 加 入 队 尾 ， 队 列 增 
长 。 锁 被 释放 时 ， 通 知 队 头 的 下 一 个 等 待 者 。 等 待 者 总 是 自 旋 于 局 部 地 址 单元 


获取 和 释放 锁 的 方法 对 应 的 代码 如 图 7-40 所 示 。 根 据 所 需要 的 原 语 ， 关 键 是 保证 改变 
尾 指 针 操 作 的 原子 性 。 在 获取 锁 的 方法 中 ， 申 请 进程 要 改变 锁 指 针 以 指向 自身 节点 。 它 用 取 
并 存储 fetch&store) 原子 操作 完成 这 项 任务 ， 该 原子 操作 有 两 个 操作 数 ， 它 返回 第 一 个 操 
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作 数 〈 这 里 是 当前 的 尾 指 针 ) 的 当前 值 ， 然 后 将 它 的 值 设 置 为 第 二 个 操作 数 的 值 ， 只 有 当成 
功 后 才 返回 。 不 同 进程 的 fetch&zstore 原子 操作 成 功 的 次 序 定义 了 进程 获取 锁 的 次 序 。 





struct node { 

struct node *next; 

int locked; 
} *mynode, *prev_node; 
shared struct node *Lock; 


lock (Lock, mynode) { 
mynode->next = NULL; /* 使 我 成 为 队 中 最 后 一 个 */ 
prev_node = fetch&store(Lock, mynode) ; 
/* 当 前 指向 以 前 的 队 尾 ， 原 子 地 把 prev_node 设置 为 
Lock 指针 ， 设 置 Lock 使 其 指向 我 的 节点 ， 这 样 我 


就 成 了 队 尾 。*/ 
if (prev_node != NULL) { /* 如 果 在 我 进入 队列 时 ， 我 不 是 惟一 的 一 个 ， 就 是 说 ， 
其 他 在 队列 中 的 进程 仍 保持 着 镇 */ 
mynode->locked = TRUE; /*Lock 被 其 他 进程 锁定 */ 
Brev_node->next = mynode; /* 把 我 连 到 队列 */ 
while (mynode->locked) {}; /* 忙 等 待 直 到 我 得 到 镇 */ 
} 


} 


unlock (Lock, mynode} { 
if (mynode->next == NULL) { PUPRAS BR */ 


if compareé&swap (Lock, mynode, NULL) /确实 没 人 等 着 释放 */ 
return; /* 即 ，Lock 指向 我 ， 将 Lock 设 置 为 
NUIL ， 返 回 */ 
while (mynode->next == NULL); /* 如 果 我 到 达 这 里 时 ， 某 人 正好 在 队 上 ， 并 使 我 的 


C&S 失败， 我 必须 等 待 ， 直 到 它们 在 我 把 锁 给 他 们 
之 前 , 把 我 的 next 指针 设置 为 指向 它们 */ 
} 
mynode->next->locked = FALSE; /有 人 等 着 锁 ， 释 放 */ 
} 


图 7-40 软件 的 排队 锁 算 法 。 锁 数据 是 一 个 长 度 等 于 该 锁 上 等 待 者 的 数量 的 链表 。 一 个 请 求 锁 的 节点 把 对 
应 的 表 目 原子 地 加 入 到 链表 的 尾部 ， 然 后 绕 其 本 地 表 目 自 旋 ， 直 到 前 面 的 申请 者 解锁 后 通知 它 为 止 


在 释放 锁 的 方法 中 ， 我 们 要 保持 检查 操作 的 原子 性 ， 检查 释放 进程 是 否 为 队列 中 的 最 后 
一 个 进程 ; .如 果 是 ， 就 把 锁 指针 置 为 NULL 。 用 比较 并 交换 (compare&swap) 原子 操作 可 以 
实现 它 ， 该 操作 带 有 3 个 操作 数 : 它 比 较 前 两 个 操作 数 〈 这 里 为 尾 指针 和 指向 该 释放 锁 进 程 
的 指针 ) ， 如 果 它 们 相等 ， 把 第 一 个 操作 数 CBRE) 的 值 设 置 为 第 3 个 操作 数 (这 里 为 
NULL), AGRE TRUE ; 如 果 它 们 不 相等 ， 则 什么 也 不 做 ， 返回 FALSE 。 置 锁 指 针 为 
NULL 的 操作 必须 和 比较 操作 保持 原子 性 ， 和 否则 别 的 进程 可 能 插 进 来 并 且 把 它 自己 加 入 队列 ， 
这 时 还 把 锁 指针 置 为 NULL 就 不 对 了 。 回 想 一 下 ， 在 第 5 章 中 , compare&swap 操作 很 难 用 单 
条 机 器 指令 来 实现 ， 因 为 它 需 要 在 一 条 存储 器 指令 中 有 3 个 操作 数 (但 是 这 个 功能 可 以 用 加 
锁 载 人 和 条 件 存储 指令 来 实现 )。 不 用 compare&swap 原 语 ， 而 只 用 fetch&store 原 语 也 可 以 实 
现 这 个 排队 锁 ， 但 是 这 样 实现 起 来 更 加 复杂 ( 它 允 许 队列 被 断 开 ， 然 后 将 其 修复 )， 而 且 会 
失去 锁 授 权 的 先进 先 出 的 特征 (Michael and Scott 1996) 。 

显然 ， 软 件 排队 锁 需 要 只 是 对 应 于 等 待 或 参与 该 锁 的 进程 数 的 空间 ， 而 不 是 与 程序 中 的 
进程 数 对 应 的 空间 。 它 正 是 那些 以 分 布 存储 器 支持 共享 地 址 空间 ， 但 没有 一 致 的 高 速 缓存 的 
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机 器 选用 的 锁 (kagi, Burger, and Goodman 1997). 540 
7.9.2 WEHE 


在 消息 传递 和 共享 地 址 空间 两 种 模式 中 ， 像 机 障 这 样 的 全 局 事务 是 一 个 关键 点 。 一 个 值 
得 争论 的 问题 是 ， 是 否 有 必要 用 硬件 来 支持 全 局 操作 ， 或 是 否 基 于 点 到 点 操作 的 成 熟 软件 算 
法 就 足够 了 。CM-5 系统 代表 了 该 选择 范围 的 一 端 : 用 特殊 的 “控制 ”网 络 在 机 器 的 子 树 上 
提供 栅 障 、 规 约 、 广 播 和 其 他 一 些 全 局 操作 。CRAY T3D 也 为 栅 障 提供 硬件 支持 。 因 为 很 容 
易 构 造 自 旋 于 局 部 变量 或 只 使 用 点 对 点 消息 的 椰 障 ， 所 以 很 多 可 扩展 系统 根本 不 为 顶 障 提供 
特殊 的 支持 ,而 是 在 软件 库 上 构建 栅 障 。 

在 基于 总 线 型 机 器 的 集中 式 机 障 中 ， 所 有 的 处 理 器 在 用 信和 号 通知 它们 的 到 达 时 ， 使 用 同 
一 把 锁 对 同一 个 计数 器 加 1， 而 且 在 同一 个 标记 变量 上 等 待 ， 直 到 它们 被 释放 为 止 。 在 大 型 
机 上 ， 人 允许 所 有 的 处 理 器 访问 同一 把 锁 和 读 写 辣 一 个 变量 会 导致 大 量 的 通信 和 竞争 。 对 没有 
一 致 的 高 速 缓存 的 机 器 ， 特 别 如 此 ， 因 为 当 几 个 处 理 咒 绕 它 自 旋 而 又 没有 对 它 进 行 高 速 缓存 
时 ， 变 量 很 快 成 了 一 个 热点 。 

可 以 用 一 种 更 为 分 布 式 的 方法 来 实现 到 达 和 离开 ， 这 里 不 要 求 所 有 的 进程 都 必须 访问 同 
一 个 变量 或 锁 。 到 达 或 释放 的 协同 可 以 分 阶段 或 轮 次 进行 ， 在 每 个 轮 次 中 ， 处 理 器 子 集 间 协 
同 ， 这 样 ， 经 历 了 几 个 轮 次 之 后 ， 所 有 的 处 理 器 都 达到 了 同步 。 不 同 的 处 理 器 子 集 之 间 的 协 
同 可 并 行 地 进行 ， 它 们 之 间 不 需要 串 行 化 。 在 基于 总 线 的 机 器 上 ， 把 必须 的 协同 动作 分 散 也 
没有 什么 问题 ， 因 为 总 线 总 是 把 那些 需要 通信 的 动作 串 行 化 ; 但 是 ， 这 种 方法 对 于 具有 分 布 
式 的 存储 器 和 互联 网 络 的 机 器 非常 重要 ， 在 这 类 机 器 上 不 同 子 集 可 以 在 网 络 的 不 同 部 分 进行 
协同 。 共 享 地 址 空间 中 应 用 的 技术 近乎 反映 了 消息 传递 方案 的 本 质 。 下 面 分 析 几 种 这 样 的 分 
布 式 栅 障 算法 。 

1. 软件 合并 树 

正如 第 3 章 中 避免 出 现 热点 的 提议 ， 一 个 简单 的 协调 进程 的 到 达 或 释放 的 分 布 式 方法 是 
使 用 树 结构 〈 见 图 7-41)。 到 达 树 被 处 理 器 用 来 指示 它们 到 达 一 个 椰 障 。 这 里 用 计数 器 构成 
的 树 代 幸 了 集中 式 栅 障 中 的 单个 锁 和 计数 器 。 这 里 的 树 可 以 有 任何 选 定 的 度数 或 分 支 因 子 ， 
比如 说 k。 在 最 简单 的 情况 下 ， 树 的 每 个 叶子 表示 参与 该 棚 障 的 一 个 进程 。 当 一 个 进程 到 达 
该 栅 障 时 ， 在 其 相连 父 节 点 的 计数 器 上 执行 一 个 fetch&increment 操作 (或 者 给 其 父 节点 发 -一 
个 消息 )， 指 示 它 的 到 达 。 然 后 ， 它 检测 fetch&increment 操作 的 返回 值 ， 判 定 这 是 否 为 其 最 
后 一 个 兄弟 节点 的 到 达 。 如 果 不 是 ， 它 对 到 达 的 处 理工 作 到 此 结束 ， 简 单 地 等 待 释放 。 如 果 [542] 








扁平 树 结 构 


图 7-41 用 一 棵 二 又 到 达 树 替代 一 个 扁平 到 达 的 结构 。 对 于 大 规模 机 器 来 
说 ， 用 小 分 叉 的 树 结构 能 够 利用 互联 网 中 许多 通路 ， 以 避免 串 行 化 
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是 的 话 ， 它 被 推选 为 高 于 该 树 一 层 中 作为 其 兄弟 节点 的 代表 ， 因 此 在 那 层 的 计数 器 上 执行 一 
次 fetch&increment 操作 。 按 这 种 方法 ， 每 个 树 节 点 当 其 子 节点 所 代表 的 所 有 进程 都 到 达 时 ， 
仅 发 送 一 个 代表 进程 到 其 下 一 个 更 高 层 中 。 对 一 个 度数 为 的 树 而 言 ， 它 总 共有 logp 层 ， 
因此 能 用 log.p 步 来 完成 p 个 进程 到 达 的 通知 。 如 果 进 程 子 树 处 在 网 络 的 不 同 部 分 ， 并且 树 
节点 的 计数 器 变量 适当 地 分 布 在 存储 器 中 ,没有 祖先 -子孙 关系 的 节点 上 的 fetch&increment 
操作 根本 不 用 串 行 化 。 

类 似 的 树 结构 也 可 以 用 于 释放 事件 ， 因 此 所 有 的 处 理 器 不 会 在 同一 个 标记 上 忙 等 待 。 也 
就 是 说 ， 最 后 一 个 到 达 栅 障 的 进程 设置 与 树 的 根 节点 相 联 的 释放 标记 ， 此 时 该 标记 上 只 及 
-1 个 进程 在 忙 等 待 。 然 后 ， 这 上 个 进程 中 的 每 个 进程 都 在 树 的 下 一 层 设置 一 个 释放 标记 ， 
对 那个 标记 有 其 他 k -1 个 进程 在 等 待 ， 这 样 沿 树 下 降 ， 直 到 所 有 的 进程 都 被 释放 〈 类 似 
地 ， 也 可 以 沿 着 树 向 下 发 送 消息 ) 。 根 据 相关 或 串 行 的 操作 (或 网 络 事务 ) 的 数量 ， 栅 障 的 
关键 路 径 长 度 是 0(logip)， 与 此 比较 ,集中 式 路 障 的 关键 路 径 长 度 为 0(p )， 在 集中 式 总 线 
上 的 任何 栅 障 的 关键 路 径 都 为 0(p )。 图 7-42 给 出 了 一 个 带 有 检测 反 转 的 简单 合并 树 栅 障 
的 代码 。 

struct tree_node { 
int count = 0; /* 技 术 其 初始 化 为 0*/ 
int local_sense; /* SoS RS 52 ERE */ 


struct tree_node *parent; 
} 


struct tree_node tree[P]; /* 每 个 元 素 〈 节 点 ) 被 分 配 在 不 同 的 
存储 器 */ 

private int sense = i; 

private struct tree_node *myleaf; /指向 该 进程 在 树种 的 叶 节点 */ 


barrier () { 
barrier_helper (myleaf) ; 
sense = ! (sense); APO Re */ 


} 


barrier_helper(struct tree_node *mynode) { 


if (fetch&increment (mynode->count) == k-1){ A/* 最 后 一 个 到 达 节 点 */ 
if (mynode->parent != NULL) 
barrier_helper (mynode->parent) ; /* 升 到 父 节 点 */ 
mynode->count = 0; /* 为 下 一 次 设置 */ 
mynode->local_sense = ! (mynode->local_sense); /* #i*/ 
endif 
while (sense != mynode->local_sense) []; A/* 忙 等 待 */ 


图 7-42 具有 检测 反 转 的 软件 合并 树 顶 障 算法 。 每 次 使 用 该 概 障 ， 标 记 的 检测 被 反 转 ， 这 样 就 不 用 将 它 复位 


尽管 这 种 树 型 栅 障 把 流量 分 布 到 互连网 络 中 去 了 ， 但 是 它 与 没有 高 速 缓存 远程 共享 数据 
的 机 器 上 的 简单 锁 有 同样 的 问题 : 处 理 器 自 旋 所 绕 的 变量 并 不 一 定 分 配 在 其 局 部 存储 器 中 。 
多 个 处 理 器 绕 着 同一 个 变量 自 旋 时 ， 哪 一 个 处 理 器 到 达 树 的 更 高 层 并 绕 那里 的 变量 自 旋 ， 取 
决 于 处 理 器 到 达 栅 障 并 执行 其 fetch&increment 指令 的 次 序 ， 而 这 一 点 是 无 法 预测 的 。 这 就 导 
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致 了 自 旋 时 的 大 量 的 网 络 流 量 。 
2.， 带 局 部 自 旋 的 树 状 袖 障 
有 两 种 方法 可 确保 处 理 器 绕 一 个 局 部 变量 进行 自 旋 。 一 个 是 基于 处 理 器 的 标识 符 和 参与 
.机 障 的 进程 数量 来 预先 决定 哪个 处 理 器 上 升 到 树 中 对 应 节点 的 父 节点 层 。 在 这 种 情况 下 ， 既 
然 自 旋 所 绕 的 标记 可 以 分 配 在 自 旋 处 理 器 的 局 部 存储 器 中 ， 而 不 是 分 配 在 升 到 父 节 点 层 的 处 
理 占 的 局 部 存储 器 中 ， 因 此 使 用 二 叉 树 将 使 得 局 部 自 旋 更 为 容易 。 事 实 上 ， 在 这 种 情况 下 ， 
即使 没有 任何 像 fetch&increment 这 样 的 原子 操作 ， 只 要 有 下 面 的 简单 读 写 操作 也 一 样 可 以 实 
现 栅 障 。 对 到 达 事 务 而 言 ， 节 点 的 进程 之 一 在 到 达 时 只 绕 该 节点 相 联 的 到 达标 记 自 旋 ， 与 该 
节点 相关 的 男 一 个 进程 在 到 达 时 简单 地 对 那个 标记 写 入 。 当 另 一 个 进程 上 升 到 父 节点 层 时 ， 
担当 自 旋 角色 的 进程 则 绕 与 该 节点 相 联 的 释放 标记 自 旋 。 这 种 静态 二 叉 树 栅 障 在 文献 中 被 称 
为 “竞赛 椰 障 " ， 因 为 到 达 树 中 每 一 步 有 一 个 进程 退出 比赛 。( 作 为 一 个 练习 ， 思 考 一 下 怎样 
改进 这 一 策略 使 之 对 参与 的 进程 数 不 是 2 的 寡 次 方 也 一 样 适用 ， 使 用 非 二 又 树 。) 
确保 局 部 自 旋 的 另 一 个 方法 是 用 p 节点 树 实 现 参 与 进程 数 为 p 的 机 障 ， 树 的 每 个 节点 
(时节 点 或 内 部 节点 ) 分 配给 惟一 的 进程 。 唤 醒 树 和 到 达 树 可 以 相同 ， 当 然 也 可 以 用 不 同 的 
分 又 因子 的 不 同 树 来 实现 。 树 中 每 个 内 部 节点 〈 进 程 ) 在 其 局 部 存储 器 中 维护 一 个 到 达标 记 
数组 ， 它 的 每 个 子 节点 对 应 数组 的 一 个 项 。 一 个 进程 到 达 栅 障 时 ， 如 果 它 对 应 的 不 是 叶 节 
点 ， 先 检测 其 到 达标 记 数组 ， 然 后 等 待 直 到 它 所 有 的 子 节点 到 达 并 设置 完备 自 的 相关 数组 
项 。 然 后 它 在 其 父 节 点 GEE) 的 到 达标 记 数 组 中 设置 自己 的 对 应 项 ， 并 在 唤醒 树 中 与 它 的 
节点 相关 联 的 释放 标记 上 忙 等 待 。 当 根 进程 到 达 并 且 其 到 达标 记 数 组 的 所 有 项 都 被 置 位 时 ， 
就 意味 着 所 有 的 进程 都 到 达 了 。 然 后 根 节点 会 对 唤醒 树 中 其 所 有 的 子 节点 的 (远程 释放 标 
记 置 位 ， 这 些 进 程 离开 了 忙 等 待 循 环 ， 然 后 又 各 自 去 设置 其 所 有 的 子 节点 的 释放 标记 ， 依 此 
类 推 ， 直 到 所 有 的 进程 都 被 释放 。 图 7-43 给 出 了 该 袖 障 的 代码 ， 这 里 假定 ， 到达 树 使 用 4 
又 树 实现 ， 唤 醒 树 用 二 叉 树 来 实现 。 一 般 而 言 ， 基 于 树 的 栅 障 的 分 支 因 子 的 选择 要 在 竞争 和 
以 网 络 事务 计算 的 关键 路 径 长 度 之 间 进 行 权衡 。 以 上 介绍 的 几 种 类 型 的 顶 障 对 不 带 一 致 的 高 
速 缓存 的 可 伸缩 机 器 都 很 有 效 。 
struct tree_node { 
struct tree_node *parent; 
int parent_sense = 0; 
int wkup_child_flags(2]; /* 在 唤醒 树 中 的 子 节点 的 标志 */ 


int child_ready([4]; /在 到 达 树 中 的 字 节点 的 标志 */ 
int child_exists(4]}; 


FARR, RE BR SHO BP -~ 1 */ 


struct tree_node tree{P); /* 每 个 元 素 CHA) 分 配 在 不 同 的 存储 器 */ 
private int sense = 1, myid; 
private me = tree(myid]; 


barrier() { 
while (me.child_ready is not all TRUE) {); /*#S#*/ 


图 7-43 ”只 围绕 局 部 变量 自 旋 的 合并 树 顶 障 。 每 个 树 节点 分 配给 惟一 的 进程 并 且 分 配 在 对 应 进程 的 局 部 存储 器 中 
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set me.child_ready to me.child_exists; /为 下 一 次 重新 初始 化 */ 
if (myid !=0) { /* 设 置 父 节点 的 字 节 点 就 绪 标 志 ， 等 待 释放 */ 
treer| Tyid=1 |} .chila_ready (myid-1) mod 4] = true; 


while (me.parent_sense != sense) {}; 
} 
me.chilä_pointers[0] = me.child_pointrers[1] = sense; 
sense = !sense; 
图 7-43 (#8) 
3. 并 行 前 序 . 


在 很 多 并 行 应 用 中 ， 在 组 合 多 个 处 理 器 计算 的 结果 信息 和 分 发 由 组 合 产 生 的 结果 时 ， 都 
涉及 一 个 同步 点 。 并 行 前 序 操作 是 对 归 约 和 广播 的 重要 的 概括 ， 其 应 用 广泛 (Blelioch 
1993)。 给 定 一 个 具有 结合 性 的 二 元 算 子 ,我 们 要 计算 S =u.. i=0, ..., 
P。 一 个 范例 是 执行 求 和 ,但 是 其 他 几 个 算 子 也 很 有 用 。 加 法 器 的 设计 中 用 到 的 先行 进位 操 
作 实 际 上 是 并 行 前 序 的 一 种 特殊 情况 。 令 人 惊奇 的 是 ， 并 行 前 序 操作 可 与 后 跟 一 个 广播 的 归 
约 执行 得 一 样 快 ， 因 为 它 只 是 在 二 叉 树 中 简单 地 向 上 向 下 扫描 。 图 7-44 显示 了 向 上 扫描 的 
过 程 : 与 二 元 归 约 一 样 ， 每 个 节点 对 其 子 节点 传送 来 的 一 对 值 进行 操作 ， 然 后 把 结果 传送 给 
其 父 节点 。( 所 传递 的 值 由 每 个 弧 线 旁边 的 索引 范围 指示 ; 在 此 子 序 列 上 应 用 算 子 得 到 值 。) 
此 外 ， 每 个 节点 保存 其 最 小 子 节点 (图 中 即 为 右 节 点 ) 传 来 的 值 。 图 7-45 显示 了 向 下 扫描 
的 过 程 。 每 个 节点 等 待 ， 直 到 收 到 其 父 节点 传 来 的 值 。 它 再 把 这 个 值 原封 不 动 地 传 给 其 右面 
的 子 节点 。 然 后 把 这 个 值 与 向 上 传送 时 保存 的 值 进 行 组 合 ， 再 把 结果 传 给 其 左面 的 子 节点 。 

桂 的 右边 沿 上 的 节点 是 特 吻 节点 ， 因 为 这 些 节 点 不 必 从 其 父 节点 处 接收 任何 信息 。 这 样 
的 并 行 前 序 树 既 可 用 硬件 实现 ， 也 可 用 软件 实现 。 


F-0 


F-8 7-0 
© 
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0-C B-A 9-8 7-6 5-4 3-2 


图 7-44 向 上 的 并 行 前 序 操作 。 每 个 节点 从 其 子 节点 处 收 到 两 个 元 素 ， 组 合 后 把 结果 
向 上 传递 给 它 的 父 节点 ， 并 且 保 存 其 最 小 子 结 点 〈 即 右 子 节点 ) 传 来 的 元 素 
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图 7-45 向 下 的 并 行 前 序 操 作 。 当 节点 收 到 其 父 节点 传 来 的 元 素 后 ， 向 下 传 给 其 右 子 节 点 ， 并 且 把 将 其 与 自 
已 保存 的 元 素 组 合 ， 把 结果 传 给 其 左 子 节点 。 最 右边 分 支 的 节点 不 需要 从 其 父 节点 处 接收 任何 信息 


4. 全 相连 的 个 体 间 通信 

当 每 个 进程 都 有 一 组 不 同 数据 要 传递 给 其 他 的 每 一 个 进程 时 ， 就 产生 了 全 相连 个 体 间 通 
信 。 它 的 一 个 范例 是 矩阵 转 置 操作 ， 比 如 说 每 个 拥有 和 矩阵 的 一 组 行 向 量 的 进程 需要 访问 一 
列 向 量 的 数据 。 另 一 个 重要 的 例子 是 在 被 阻塞 的 和 形成 回路 的 布线 间 重 新 映射 一 个 数据 结 
构 。 许 多 这 样 形式 的 置换 在 实践 中 被 广泛 地 应 用 。 在 特殊 网 络 拓扑 结构 ( 即 无 内 部 竞争 网 
络 ) 上 有 效 地 实现 全 相连 个 体 间 通 信 方 面 已 经 做 了 大 量 的 工作 。 如 果 网 络 是 高 度 可 扩展 的 ， 
网 络 中 的 内 部 通信 流 是 次 要 的 ， 而 网 络 端点 上 的 竞争 成 为 关键 ， 不 管 网 络 的 质量 如 何 。 一 种 
简单 的 、 广 泛 应 用 的 方案 是 : 对 通信 事件 序列 进行 调度 ， 执 行 p 个 轮 次 的 不 相交 的 成 对 交 
换 。 在 第 i 轮 ， 进 程 p 向 进程 g = p@i 发 送 它 的 数据 ，g 通过 二 进 制 数 p 和 二 进 制 表示 的 i 
的 异 或 运算 得 到 。 因 为 异 或 符合 交换 律 ，p = gG@)i， 可 见 该 轮 次 确实 实现 一 个 交换 。 


7.10 结论 


AE, 我 们 已 经 了 解 到 大 多 数 现代 的 大 型 计算 机 系统 是 用 通用 的 节点 构成 的 ， 节 点 具有 
完整 局 部 存储 器 层次 结构 ， 扩 充 了 与 可 扩展 网 络 接口 的 通信 辅助 部 件 。 但 是 ， 通 信 辅 助 部 件 
的 设计 选择 很 多 。 强 烈 影响 其 设计 的 主要 因素 是 通信 辅助 部 件 如 何 与 节点 接口 ， 在 处 理 器 
E? 在 高 速 缓存 控制 器 上 ? 还 是 在 存储 器 总 线 或 UO 总 线 上 ?另外 ， 通 信和 目标 体系 结构 和 编 
程 模型 对 性 能 也 有 极 大 的 影响 。 大 型 机 上 的 编程 模型 是 用 基本 网 络 事务 构造 的 协议 实现 的 。 
实现 这 种 协议 的 挑战 之 处 在 于 大 量 的 网 络 传输 可 能 同时 处 于 未 决 状态 ， 而 且 没 有 全 局 的 促 
裁 。 本 质 上 ， 可 以 基于 任何 可 用 的 硬件 /软件 边界 原 语 实现 任何 编程 模型 以 及 许多 正确 性 和 
可 扩展 性 问题 ; 但 是 ， 其 性 能 特征 却 大 不 一 样 。 性 能 最 终 影响 到 机 器 在 程序 员 眼 里 如 何 。 

现代 大 型 并 行 计算 机 设计 主要 源 于 20 世纪 80 年 代 中 期 的 技术 革命 ( 单 片 微 处 理 器 ) 在 
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MPP 机 开始 从 传统 的 向 量 超级 计算 机 那里 抢占 高 性 能 计算 机 的 市 场 时 ， 单 片 微 处 理 器 被 称 为 
“杀手 微 处 理 屁 ”"。 不 仅 如 此 ， 这 些 MPP 还 开创 了 自己 的 革新 技术 一 一 单 片 可 扩展 网 络 交换 
器 。 与 微 处 理 器 一 样 ， 该 技术 的 发 展 也 远 远 超出 了 其 最 初 的 使 用 范围 ， 导 致 了 一 系列 的 可 扩 
展 系统 域 网 络 的 出 现 ， 包括 交 换 的 千 兆 RLT) 以 太 网 。 结 果 ， 大 型 并 行 计算 机 的 设计 
的 发 展 分 成 两 个 分 支 。 基 于 消息 传递 概念 和 显 式 地 读 写 远程 存储 器 的 机 器 正在 被 机 群 所 取 
代 ， 因 为 机 群 的 成 本 非常 低 ， 工 程 化 容易 ， 又 紧 随 新 兴 技 术 。 另 一 个 分 支 是 把 网 络 集成 到 存 
储 器 系统 中 ， 提 供 具 有 自动 复制 的 对 全 局 物理 地 址 空间 的 高 速 缓存 一 致 的 访问 ， 换 句 话 说 ， 
机 器 在 程序 员 看 来 与 前 几 章 介绍 的 一 样 ， 但 却 是 按 本 章 介绍 的 那样 建立 的 。 当 然 ， 提 供 可 扩 
展 带宽 和 低 时 延 来 增强 缓存 一 致 性 机 制 依然 是 一 个 挑战 ， 这 将 是 第 8 章 的 主题 。 


习题 


7.1 用 logzn 个 完全 并 行 的 步骤 去 实现 ”个 复数 的 二 进 制 快 速 傅 里 叶 变换 (FFT) 程序 ， 每 
个 数据 元 素 读 写 log n K, ARRE Sn log n 次 浮 点 操作 。 如 果 在 舞厅 多 处 理 器 设计 
中 ， 所 有 的 处 理 器 都 通过 网 络 来 访问 存储 器 (如 图 7-3 所 示 )， 试 计算 通信 与 计算 比 。 
若 在 p 个 处 理 器 上 达到 250p MFLOPS， 网 络 需 保持 多 大 的 带宽 ? 

7.2 如果 习题 7.1 中 的 数据 用 循环 或 块 分 布 的 方法 ， 分 散在 NUMA 设计 的 存储 器 中 ， 有 
log "/p 步 访问 本 地 存储 器 中 的 数据 ， 假 设 n Ap 都 是 2 RE, TERR AY log p 步 中 有 一 
半 的 读 和 一 半 的 写 是 本 地 的 。( 数 据 布 局 的 选择 决定 了 哪些 操作 是 本 地 的 ， 哪 些 操作 是 
远程 的 ， 但 是 其 比率 是 一 样 的 ) 。 在 如 图 7-2 所 示 的 分 布 式 存储 器 设计 中 ， 每 个 处 理 器 
都 有 一 个 本 地 的 存储 器 ， 试 对 该 设计 计算 通信 和 与 计算 比 。p 个 处 理 器 时 为 了 达到 250p 
MFLOPS， 网 络 需 保持 多 大 的 带宽 ? 将 其 与 习题 7.1 的 计算 结果 比较 。 

7.3 如 果 程 序 员 进 行 了 很 好 的 数据 布局 ， 对 FFT 程序 可 以 做 到 : 在 网 络 中 传输 n- n/p 个 
数据 元 素 ， 需 要 进行 一 次 全 局 的 转 置 操作 。 所 有 log n 步 都 是 在 本 地 存储 器 中 执行 。 试 
计算 分 布 存储 器 型 机 器 的 通信 与 计算 比 。p 个 处 理 器 时 为 了 达到 250p MELOPS, FUSS 
需 保持 多 大 的 带宽 ? 将 其 与 习题 7.2 的 结果 进行 比较 。 

7.4 重新 考虑 例 7.1， 个 节点 的 配置 中 跳 数 为 /n。 其 平均 传输 时 间 如 何 随 节点 数目 的 增加 
变化 ? Yn 时 结果 又 怎样 呢 ? 

7.5 对 于 习题 7.4 的 设计 的 成 本 扩展 进行 形式 化 。 

7.6 考虑 例 7.1 中 描述 的 机 器 ， 每 次 传输 占用 的 链 路 数 为 og nm。 如 果 链 路 不 存在 竞争 ， 可 
以 同时 发 生 多 少 个 传输 ? 

7.7 重新 考虑 例 7,1， 这 里 网 络 是 一 个 简单 的 环 。n 个 节点 的 环 中 两 个 节点 间 的 平均 距离 为 
n/2。 其 平均 传输 时 间 如 何 随 着 节点 数 的 增加 变化 ?假定 每 条 链 路 同时 最 多 只 能 被 -个 
传输 占用 ， 有 多 少 这 样 的 传输 可 以 同时 发 生 ? 

7.8 对 于 例 7.1 中 描述 的 机 器 ， 假 设 一 个 节点 向 其 他 所 有 的 节点 进行 一 次 广播 用 了 n 条 链 
路 。 试 分 析 同 时 进行 的 广播 数 与 节点 数 之 间 的 扩展 关系 。 

7.9 假设 一 个 16 路 的 SMP 系统 价格 为 1 万 美元 外 加 每 个 节点 2 000 美元 ， 每 个 节点 带 有 一 
个 快速 处 理 器 和 128 MB 的 存储 器 。 系 统 规模 从 4 个 处 理 器 加 倍 到 8 个 处 理 器 时 ， 成 本 
增加 了 多 少 ? 从 8 个 处 理 器 加 倍 到 16 个 处 理 器 呢 ? 

7.10 试 证 明 7.1.3 小节 中 的 命题 只 要 加 速 比 (p) > 成 本 上 升 比 (p)， 并行 计算 就 是 性 


BIE FHRERBR 399 





7.11 


7.12 


价 比 合算 的 。 
假设 一 个 有 效 负载 为 = 个 字 节 的 总 线 事务 占用 总 线 4+ | 号 | 个 周期 ， 其 上 限 为 64 个 


字 节 。 画 图 比较 用 程序 WO 和 DMA 发 送 在 存储 器 中 (不 是 在 寄存 器 中 ) 的 可 变 大 小 
的 消息 数据 各 自 对 应 的 总 线 的 利用 率 。 对 DMA 而 言 ， 包 括 了 将 DMA 地 址 和 长 度 通知 
给 通信 辅助 部 件 的 额外 工作 。 分 别 考 虑 数据 在 高 速 缓存 中 与 不 在 高 速 缓存 中 两 种 情 
况 。 读 取 状 态 寄 存 器 需要 做 什么 假设 ? 

Intel 的 Paragon 的 输出 缓冲 区 的 大 小 为 2 KB， 可 从 存储 器 中 以 400MBps 的 速率 对 之 进 
行 填充 ， 缓 冲 区 以 175MBps 的 速率 向 网 络 传输 数据 。 缓 冲 区 在 被 填充 的 同时 将 数据 
传 给 网 络 ， 但 是 如 果 缓 冲 区 满 ，DMA 设备 将 暂停 。 设 计 消息 层 时 ， 你 决定 将 长 消息 
分 成 DMA 区 段 ，DMA 区 段 要 尽 可 能 长 ， 但 又 不 会 长 得 使 DMA 设备 被 输出 缓冲 区 堵 
塞 。 显 然 ， 其 大 小 至 少 可 以 是 2 KB， 但 实际 上 可 以 更 长 。 计 算 在 给 定 的 流速 率 下 ， 
把 DMA 突 发 数据 驱动 到 网 络 上 去 的 输出 缓冲 区 的 尺寸 。 
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7.13 根据 图 7-33 的 粗略 千 计 ， 如 果 使 用 线性 模型 拟 合 通信 时 间 数 据 ， 哪 一 种 机 器 将 具有 
MET? 
7.14 ER 7-1 中 描述 的 机 器 上 运行 基准 测试 程序 BT， 请 根据 表 7-2 提供 的 消息 的 频率 数据 
来 估 测 一 次 迭代 中 每 个 处 理 器 用 于 通信 的 时 间 。 
7.15 表 7-3 描述 了 稀 玖 LU 基准 测试 程序 的 通信 特征 。 
1) 其 消息 尺寸 特征 与 BT 的 有 何不 同 ?” 这 说 明了 应 用 的 什么 问题 ? 
2) 消息 的 频率 有 什么 不 同 ? 
3) 对 表 7-1 中 描述 的 机 器 而 言 ， 估 计 其 运行 LU 基准 测试 程序 时 每 个 处 理 器 在 一 次 迁 
代 中 的 通信 上 所 耗 的 时 间 。 
表 7-3 一 定数 量 范围 的 处 理 器 上 执行 LU 基准 程序 A 类 问题 时 一 次 选 代 的 通信 特征 
4 处理 器 16 AL HER 32 AtA 64 Ah EERE 
消息 总 数据 | 消息 总 数据 | 消息 总 数据 | 消息 总 数据 
尺寸 传输 量 | 尺寸 传输 量 | 尺寸 传输 量 | 尺寸 传输 量 
(KB) 消息 (KB) | (KB) 消息 (KB) | (KB) 消息 ” (KB) | (KB) 消息 (KB) 
1+ 496 605 |0.5-1 2976 218 |0~0.5 2976 727 |0-0.5 13888 3391 
163.5 + 8 1279 |81.54 48 3382 /0.5-1 3472 2543} 81.5 224 8914 
40.5+ 48 1910 
81.5+ 56 4. 471 
总 通信 量 (KB) 1 884 5 562 9 651 12 305 
— RIE RS a] 2.4 0.58 0.34 0.19 
(s) : 
平均 带宽 (MBps) 0.77 10.1 27.7 63.2 
每 个 处 理 器 的 平 
均 带 宽 (MBps) 0.87 
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第 8 章 ”基于 目录 的 高 速 缓 存 一 致 性 


本 章 将 讨论 并 行 体系 结构 开发 中 的 一 个 重要 的 问题 : 如 何 把 高 速 缓存 一 致 性 和 可 扩展 的 
具有 分 布 式 存储 器 的 机 器 组 成 结构 结合 在 一 起 。 我 们 已 经 研究 了 如 何 解决 具有 集中 存储 器 、 
基于 总 线 的 机 器 的 高 速 缓存 一 致 性 问题 。 我 们 也 看 到 ， 为 了 机 器 的 扩展 性 ， 采 用 了 分 布 式 存 
储 器 、 可 扩展 的 点 到 点 互连网 络 和 一 个 为 支持 编程 模型 而 对 网 络 事务 进行 不 同 程度 解释 的 通 
信和 辅助 部 件 。 不 管 通信 辅助 部 件 的 复杂 程度 如 何 ， 我 们 所 学 习 的 所 有 可 扩展 的 机 器 具有 图 
8-1 所 示 的 通用 结构 。 


3S Cy 
可 扩展 的 互连网 络 


图 8-1 通用 的 可 扩展 多 处 理 器 。 本 图 表示 了 第 7 章 中 讨论 的 多 处 理 器 的 通用 结构 : 带 有 物理 分 布 的 
存储 器 的 处 理 节点 和 可 扩展 的 互连网 络 。 处 理 节点 可 以 是 单 处 理 器 (如 图 所 示 ) 或 多 处 理 器 

在 我 们 设计 范畴 的 最 后 一 点 ， 通 信和 辅助 部 件 以 硬件 提供 了 共享 的 地 址 空间 。 但 是 ， 尽 管 
高 速 缓存 的 用 途 是 复制 共享 地 址 空间 中 被 访问 的 数据 ， 我 们 还 没有 讨论 如 何 解 决 高 速 缓存 的 
一 致 性 问题 。 事 实 上 ， 为 了 避免 一 致 性 问题 和 简化 存储 器 的 同一 性 ， 在 前 面 讨论 机 器 的 最 终 
设计 点 时 ， 我 们 关闭 了 对 物理 上 远 地 分 布 、 逻 辑 上 共享 的 数据 的 硬件 高 速 缓存， 限制 了 编程 
模型 。 

本 章 将 研究 如 何在 不 具备 总 线 这 样 的 全 局 侦 听 互 连 机 制 的 分 布 式 存储 型 机 器 上 ， 用 硬件 
提供 隐 含 的 高 速 缓存 及 其 一 致 性 的 重要 问题 。 正 如 所 看 到 的 ， 不 仅 硬 件 的 时 延 和 带宽 必须 很 
好 地 扩展 ， 用 于 一 致 性 的 协议 也 必须 有 很 好 的 扩展 性 ， 至 少 达 到 实践 中 需要 的 规模 。 我 们 集 
中 讨论 对 高 速 缓存 一 致 性 的 全 硬件 支持 ， 特 别 是 最 常见 的 叫做 基于 目录 的 高 速 缓存 一 致 性 的 
方法 。 根 据 抽象 的 层次 ， 在 硬件 /软件 接口 处 直接 支持 使 用 一 致 复制 的 共享 地 址 空间 编程 模 
型 ， 如 图 8-2 所 示 。 其 他 的 一 些 编程 模型 ， 比 如 消息 传递 可 以 用 软件 实现 。 下 一 章 将 介绍 其 
他 几 种 采取 不 同 硬 件 / 软 件 折 中 的 方法 ， 例 如 在 存储 器 中 而 不 是 在 高 速 缓存 中 进行 一 致 性 复 
制 ， 软 件 控制 的 同一 性 和 其 他 的 存储 器 同一 性 模型 。 

典型 的 可 扩展 高 速 缓存 一 致 性 基于 目录 的 概念 。 因 为 高 速 缓存 中 块 的 状态 不 再 能 通过 把 
请 求 放 到 共享 总 线 上 ,让 高 速 缓存 控制 器 侦 听 来 隐 式 地 决定 ,所 以 用 目录 来 显 式 地 维护 块 的 
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消息 传递 AREN 
编程 模型 
aa 操作 系统 支持 硬件 / 软件 边界 
通信 硬件 
DAMEN 


图 8-2 本 章 所 讨论 系统 的 抽象 层次 。 硬 件 直接 对 一 致 的 、 共 享 
的 物理 地 址 空间 提供 支持 ， 通 过 软件 层 支持 消息 传递 
状态 ， 请 求 能 发 往 并 查询 目录 。 考 虑 一 个 简单 的 例子 ， 设 想 大 小 等 于 高 速 缓存 行 的 每 一 个 主 
存储 器 块 都 与 一 个 高 速 缓存 记录 相 联系 ， 那 个 记录 同时 包含 该 块 的 副本 和 该 块 在 高 速 缓存 中 
的 状态 。 这 个 记录 就 叫做 那个 块 的 目录 项 (LE 8-3)。 同 基于 总 线 的 系统 一 样 ， 可 能 很 多 高 
速 缓 存 里 面 有 干净 、 可 读 的 数据 块 ， 但 如 果 在 一 个 高 速 缓存 中 的 块 是 可 写 的 (可 能 已 经 被 修 
改 )， 那 么 可 能 只 有 这 个 高 速 缓存 中 的 数据 是 有 效 的 。 当 一 个 节点 发 生 高 速 缓存 扑 空 时 ， 它 
先 用 点 对 点 的 网 络 事务 同 该 块 的 目录 项 通信 。 因 为 目录 项 和 主 存 的 块 一 起 存放 ， 其 地 址 可 以 
从 块 的 地 址 得 到 。 节 点 可 以 从 目录 项 判断 有 效 的 高 速 缓 存 副本 在 哪里 ， 并 确定 下 一 步 该 怎么 
做 。 它 接着 根据 需要 通过 网 络 事务 与 那个 高 速 缓存 块 联系 。 例 如 ， 它 可 以 从 另 一 个 节点 获得 
修改 过 的 块 ， 或 执行 写 操作 ， 向 其 他 节点 发 出 作废 信号 并 从 那些 节点 接受 应 答 。 高 速 缓存 块 
状态 的 改变 也 通过 网 络 事务 送 给 目录 项 ， 使 目录 保持 最 新 。 





可 扩展 的 互连网 络 


图 8-3 带 有 目录 的 可 扩展 多 处 理 器 。 每 一 个 和 高 速 缓存 块 大 小 相同 的 主 

存 块 都 有 一 个 目录 项 ， 记 录 该 主 存 块 的 高 速 缓存 副 本 和 它 的 状态 
在 目录 协议 中 ， 节 点 间 的 请 求 、 应 答 、 作 废 、 更 新 、 确 认 都 是 像 第 7 章 中 所 提 到 的 网 络 
事务 ， 只 不 过 事务 目的 节点 的 端点 处 理 〈 作 废 一 个 块 ， 取 出 数据 并 应 答 ) 是 由 通信 辅助 部 件 
而 个 是 由 主 处 理 器 完成 的 。( 同 第 7 章 一 样 ， 我 们 把 携带 数据 “应 答 ” 和 其 他 所 有 信息 的 响 
应 事务 简称 为 “响应 "。) 由 于 目录 方法 依赖 点 对 点 的 网 络 事务 ， 它 可 用 于 任何 互连网 络 。 目 

录 信息 的 存储 方式 和 针对 该 表示 形式 的 正确 有 效 的 协议 设计 都 是 目录 方法 的 重要 问题 ， 

尽管 目录 法 在 可 扩展 的 高 速 缓存 一 致 性 方面 占 主 导 地 位 ， 还 有 其 他 一 些 方法 值得 关注 。 
已 经 锌 尝试 过 的 一 种 方法 是 利用 广播 介质 的 层次 结构 如 总 线 或 环 ， 对 广播 和 侦 听 机 制 的 扩 
展 。 这 种 方法 在 概念 上 很 有 吸引 力 ， 因 为 它 能 用 现 有 的 小 规模 的 机 制 层次 式 地 构造 更 大 的 系 
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统 。 但 是 它 并 不 适用 于 网 格 或 立方 体 这 样 通用 的 网 络 拓扑 结构 ， 我 们 将 会 看 到 它 在 时 延 和 带 
554 | ” 宽 方 面 存在 问题 ， 因 此 它 不 是 非常 流行 。 比 较 流 行 的 是 一 种 两 层 协议 方式 。 机 器 的 每 个 节点 
555 | 本 身 都 是 一 个 多 处 理 器 ， 节 点 内 部 的 高 速 缓存 一 致 性 通过 一 种 叫做 内 部 协议 的 一 致 性 协议 来 
保持 ， 节 点 之 则 的 一 致 性 则 由 另 一 种 叫 外 部 协议 的 不 同 协议 来 维护 。 在 外 部 协议 看 来 ， 每 一 
个 多 处 理 器 节点 就 像 单 一 高 速 缓存 ， 节 点 内 部 的 一 致 性 是 内 部 协议 的 责任 。 通 常 ， 用 一 个 适 
配器 或 一 个 共享 的 第 三 层 高 速 缓 存在 外 部 协议 中 代表 一 个 节点 。 一 种 通用 的 结构 是 ， 外 部 协 
议 用 目录 协议 ， 内 部 协议 用 侦 听 协议 (Lovett and Clapp 1996; Lenoski et al. 1993; Clark and 
Alnes 1996; Weber et al. 1997)。 当 然 也 可 以 用 其 他 的 组 合 如 侦 听 - 侦 听 (Frank, Burkhardt, and 
Rothnie 1993) ， 目 录 - 目 录 (Convex Computer Corporation 1993) 和 侦 听 -有 目录 等 ( 见 图 8-4)。 








总 线 (RP) 





c) 目录 - 目录 d) 目录 - 侦 听 


图 8-4 两 层 的 高 速 缓存 一 致 系统 的 一 些 可 能 的 组 成 结构 。 外 层 可 见 的 每 个 节点 本 身 是 一 个 
多 处 理 器 。B 是 第 一 级 总 线 ，B, 是 第 二 级 总 线 。CA 是 通信 和 辅助 部 件 。 例 如 ， 侦 听 - 
目录 表示 在 多 处 理 器 节点 上 用 侦 听 协议 维护 一 致 性 ， 用 目录 协议 维护 节点 间 的 一 致 性 


用 较 小 规模 的 机 器 构成 更 大 的 机 器 的 这 种 两 层 结构 是 一 种 有 吸引 力 的 工程 选择 : 它 把 国 
定 的 节点 成 本 在 节点 内 各 处 理 器 间 分 摊 ， 可 以 利用 层次 封装 的 优点 ， 同 时 节点 内 部 处 理 器 间 
的 通信 代价 也 更 低 。 本 章 的 重点 是 节点 间 的 目录 协议 ， 不 管 节点 是 单 处 理 器 还 是 多 处 理 器 ， 
也 不 管 它 使 用 什么 一 致 性 方法 。 同 时 也 讨论 两 层 协议 间 的 相互 影响 。 因 为 目录 协议 最 为 成 功 
并 很 可 能 最 为 流行 ,将 主要 讨论 它 ， 但 我 们 也 将 简要 地 考察 不 太 流行 的 层次 式 方案 。 在 考察 
目录 的 组 织 结构 、 支 持 一 致 性 和 同一 性 的 协议 以 及 对 通信 辅助 部 件 的 要 求 时 ， 我 们 会 发 现 其 
他 丰富 而 有 意义 的 设计 空间 。 

本 章 第 一 节 提出 了 一 个 框架 ， 使 读者 理解 在 共享 地 址 空间 提供 一 致 复制 的 不 同方 法 ， 包 
括 侦 听 、 目 录 和 层次 式 侦 听 等 。8.2 节 先 介绍 了 采用 简单 目录 表示 的 目录 协议 的 基本 操作 ， 
然后 概述 了 另外 一 些 目录 结构 和 协议 。8.3 节 给 出 了 对 一 些 高 层 问题 的 量化 评价 和 对 目录 协 
议 在 体系 结构 上 的 折 中 。 


B&H AFARHAZRRA-KRH 403 





接 下 来 的 几 节 覆盖 了 实际 设计 正确 、 高 效 的 协议 时 涉及 的 问题 和 技术 。8.4 节 讨 论 了 在 
不 存在 串 行 化 的 互连网 络 情况 下 ,数据 的 多 个 副本 所 带 来 的 新 的 挑战。 其 后 的 两 节 对 两 种 最 
流行 的 基于 目录 的 协议 进行 了 深入 的 研究 ， 讨 论 了 不 同 的 设计 方案 ， 并 用 两 种 商品 化 机 的 体 
系 结构 Silicon Graphics 公司 的 Origin2000 和 Sequent Computer Systems 公司 的 NUMA-Q—— 
作为 研究 实例 。8.7 节 考 察 了 通信 体系 结构 的 关键 性 能 参数 对 目录 协议 下 并 行程 序 端 性 能 的 
影响 。 

8.8 节 讨 论 了 基于 目录 的 多 处 理 器 的 同步 ，8.9 节 讨 论 了 对 并 行 软件 的 影响 。8.10 Te 
盖 了 一 些 高 级 主题 ， 包 括 为 实现 可 扩展 一 致 性 的 层次 式 扩 展 侦 听 和 目录 协议 的 方法 。 


8.1 可 扩展 的 高 速 缓存 一 致 性 


本 节 简 要 地 介绍 了 在 多 处 理 器 的 存储 器 层次 结构 中 提供 一 致 复制 的 几 种 主要 方法 和 任何 
一 致 性 方法 都 要 提供 的 基本 机 制 。 

在 一 个 具有 物理 分 布 存储 器 的 机 器 上 ， 非 本 地 数据 可 以 仅 在 处 理 器 的 高 速 缓存 中 复制 ， 
或 仅 在 本 地 主 存 中 复制 。 如 果 主 存 中 提供 了 一 致 的 复制 ， 因 为 本 地 存储 器 中 一 致 的 数据 才能 
进入 高 速 缓 存 ， 所 以 就 没有 必要 再 去 保证 高 速 缓存 的 一 致 性 。 本 章 假 定数 据 只 自动 地 在 高 速 
缓存 中 复制 ， 不 在 主 存 中 复制 ， 并 像 基于 总 线 的 机 器 那样 ， 由 硬件 以 高 速 缓存 块 的 粒 
度 保 证 数据 的 一 致 性 。 由 于 主 存在 物理 上 是 分 布 的 ， 具 有 非 均匀 的 访问 代价 ， 这 种 类 型 的 体 
系 结构 被 称 为 高 速 缓存 一 致 的 非 均匀 存储 器 访问 ， 简 称 CC-NUMA 体系 结构 。 和 更 一 般 地 ， 用 
分 布 式 存储 器 和 一 致 复制 (在 高 速 缓存 或 主 存 ) 的 系统 被 称 为 分 布 式 共享 存储 器 (DSM) 
系统 。 

任何 一 致 性 方法 ， 包 括 第 5、6 两 章 介绍 的 侦 听 一 致 性 ， 都 必须 提供 一 些 关 键 的 机 制 。 
首先 ， 一 个 块 的 副本 可 以 存在 于 任何 一 个 高 速 缓存 〈 或 本 地 复制 存储 器 ) 中 ， 并 处 于 几 个 状 
态 之 一 ， 在 不 同 高 速 缓存 中 的 状态 可 能 是 不 同 的 。 协 议 必须 提供 这 些 高 速 缓存 状态 和 状态 转 
换 图 以 及 与 状态 转换 图 相 联 系 的 动作 集合 ， 根 据 状态 转换 图 ， 不 同 高 速 缓存 中 的 块 独立 地 改 
变 状态 。 基 于 目录 的 协议 中 每 个 块 也 有 一 个 目录 状态 ， 即 目录 所 知 的 块 的 状态 。 协 议 可 以 基 
于 作废 ， 基 于 更 新 或 者 两 者 混合 的 ， 但 不 管 系统 是 基于 侦 听 还 是 目录 ， 高 速 缓存 的 稳定 状态 
本 身 通 常 是 相同 的 〈 例 如 MESI) 。 选 择 高 速 缓存 稳定 状态 时 的 权衡 同 第 $ 章 所 讨论 的 类 似 ， 
我 们 在 此 不 再 痪 述 。 对 任何 协议 ， 从 概念 上 讲 ， 一 个 存储 抉 的 高 速 缓存 状态 是 一 个 包含 了 它 
在 系统 每 一 个 高 速 缓存 中 所 处 状态 的 向 量 。 虽 然 在 某 一 时 刻 一 个 数据 块 的 当前 状态 在 不 同 高 
速 缓存 中 可 能 不 同 ， 但 同一 个 状态 转换 图 控制 不 同 高 速 缓存 中 的 副本 。 不 同 高 速 缓存 中 块 状 
态 的 变化 通过 互连网 络 上 的 事务 ， 如 总 线 事务 或 更 通用 的 网 络 事务 来 协调 。 

给 定 一 个 高 速 缓存 状态 转换 级 的 协议 ， 一 个 一 致 的 系统 必须 提供 管理 协议 的 机 制 。 首 
E, 需要 一 个 机 制 来 决定 何 时 〔 即 针对 什么 操作 激活 协议 。 在 大 多 数 系统 中 做 法 都 是 一 样 
的 ， 即 通过 访问 失败 (高速 缓 存 扑 空 ) 的 检测 机 制 。 如 果 处 理 器 的 访问 不 能 被 本 身 的 高 速 组 
存 所 满足 ， 例 如 ， 访 问 的 块 不 在 高 速 缓存 ， 或 要 写 的 块 在 高 速 缓存 中 但 处 于 共享 状态 BREE 
调用 协议 。 但 是 ， 即 使 不 同 的 高 速 缓存 一 致 性 方法 使 用 相同 的 状态 集 、 状 态 转换 和 访问 失败 
机 制 ， 但 它们 在 为 访问 失败 发 生 时 执行 的 三 个 重要 功能 所 提供 的 机 制 差别 很 天， 

1) 发 现 关 于 单元 (高速 缓 存 块 ) 在 其 他 高 速 缓存 中 状态 的 足够 信息 ， 确 定 应 采取 的 
动作 。 
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2) 如 果 需 要 的 话 ( 例 如 ， 将 它们 作废 )， 定 位 块 的 其 他 副本 。 

3) 与 其 他 副本 进行 通信 (例如 ， 从 它们 得 到 数据 或 者 将 它们 作废 或 更 新 )。 

在 侦 听 协议 中 ， 这 三 个 功能 都 是 通过 广播 和 侦 听 机 制 实现 的 。 处 理 器 把 “查找 ”请 求 放 
在 总 线 上 ， 里 面 有 块 的 地 址 和 其 他 高 速 缓存 控制 器 侦 听 并 响应 。 也 可 能 在 分 布 式 机 器 中 使 用 
广播 和 “ 侦 听 ”的 方法 ; 发 生 扑 空 的 节点 上 的 通信 辅助 部 件 可 以 对 所 有 节点 广播 ， 其 他 节点 
的 通信 辅助 部 件 检 查 进 入 的 请 求 并 作出 适当 的 响应 。 但 是 ,广播 产生 了 大 量 的 流量 (在 p 
个 节点 的 机 器 上 每 个 扑 空 上 至 少 是 p 个 网 络 事务 ) ， 因 此 扩展 性 不 够 好 。 可 扩展 的 方法 包括 
层次 式 侦 听 和 基于 目录 法 。 

在 层次 式 侦 听 协议 中 ， 互 连 网 络 不 是 单一 广播 总 线 (或 环 )， 而 是 一 个 总 线 树 。 择 的 吐 
子 是 基于 总 线 的 侦 听 多 处 理 器 。 父 总 线 与 子 总 线 通过 接口 相连 ， 接 口 侦 听 上 下 两 侧 的 总 线 ， 
并 且 把 相关 的 事务 向 上 或 向 下 传播 。 主 存储 器 既 可 以 集中 在 根部 ， 也 可 以 分 散在 叶子 上 。 在 
这 种 情况 下 ， 上 上 面 所 有 功能 由 广播 和 侦 听 机 制 的 分 层 执行 : 处 理 器 像 以 前 一 样 把 “查找 ”请 
求 放 到 总 线 上 ,“ 请 求 ” 会 根据 侦 听 结果 需要 往 上 层 或 下 层 传输 。 我 们 希望 ， 在 大 多 数 情 况 
下 ， 请 求 都 不 必 被 传输 得 特别 远 。8.10.2 节 会 进一步 讨论 层次 式 侦 听 系统 。 

在 前 面 提 到 的 简单 的 目录 法 中 ， 其 他 高 速 缓存 中 块 的 状态 通过 网 络 事务 查找 目录 得 到 ， 
副本 的 地 址 也 是 从 目录 中 查 到 的 。 与 副本 的 通信 都 是 通过 任意 互连网 络 中 的 点 对 点 的 网 络 事 
务 来 进行 ， 无 须 求助 于 广播 。 目 录 信 息 的 实际 组 织 方式 会 影响 到 使 用 网 络 事务 的 这 个 组 织 结 
构 的 协议 对 上 述 三 个 关键 功能 的 实现 。 


8.2 基于 目录 方法 概述 


本 节 将 首先 详细 地 介绍 一 个 简单 的 目录 方案 ,阐述 它 是 如 何 利 用 高 速 缓存 的 状态 、 上 自 录 
的 状态 和 网 络 事务 工作 的 。 然 后 讨论 把 目录 扩展 到 大 量 节 点 的 组 织 结构 上 的 问题 ， 提 供 了 可 
扩展 目录 组 织 方案 的 分 类 并 探讨 了 与 这 些 结构 相关 的 协议 的 基本 问题 。 

下 列 定义 在 我 们 讨论 目录 协议 时 会 用 到 。 对 于 一 个 给 定 的 高 速 缓存 或 存储 器 块 : 

。 宿主 节点 。 包 含 了 块 的 主 存储 器 所 在 的 节点 ; 
脏 节点 。 其 高 速 缓存 中 有 块 的 副本 并 处 于 被 修改 过 〔 脏 ) 状态 的 节点 。 注 意 一 个 块 
的 宿主 节点 和 脏 节 点 可 能 是 一 个 。 
。 拥有 者 节点 。 指 当前 保持 抉 的 有 效 副本 ， 在 需要 时 能 够 提供 数据 的 节点 ; 在 目录 协 
议 中 ， 这 可 能 是 宿主 节点 〈 当 块 不 在 高 速 缓存 中 并 处 于 脏 状 态 ) 或 脏 节点 。 
排他 节点 。 指 高 速 缓 存 中 有 块 的 副本 并 处 于 排他 状态 的 节点 ， 或 者 为 脏 ,， 或 者 为 
(TE) 的 独占 (回忆 第 5 章 ， 叫 做 排他 的 状态 意味 着 这 是 仅 有 的 有 效 副 本 ， 主 存 中 
的 块 是 最 新 的 )。 所 以 ， 脏 节点 也 是 排他 节点 。 
本 地 节点 或 请 求 节点 。 发 出 对 块 的 请 求 的 处 理 器 所 在 的 节点 。 
块 的 宿主 对 于 请 求 的 处 理 器 而 言 是 本 地 的 话 ， 这 样 的 块 称 为 本 地 分 配 块 ， 或 简称 本 
地 块 ， 所 有 其 他 的 块 都 称 为 远程 分 配 块 或 远程 块 。 
下 面 让 我 们 从 基于 目录 协议 的 基本 操作 开始 ， 使 用 一 个 非常 简单 的 目录 结构 。 


8.2.1 简单 目录 方案 的 操作 
当 高 速 缓存 扑 室 〈 访 问 控制 失败 ) 发 生 时 ， 本 地 节点 就 向 宿主 节点 发 出 一 个 请 求 网 络 事 





B8t KRFIARHSRAA-KE 405 





务 ， 从 那里 获得 所 需 块 的 目录 信息 。 发 生 读 扑 空 时 ， 目 录 指出 可 以 从 哪个 节点 获得 数据 ， 如 
图 8-5a 所 示 。 发 生 写 扑 空 的 时 候 ， 目 录 发 现 块 的 各 个 副本 ， 然 后 向 它们 发 出 作废 或 更 新 网 
络 事务 ， 如 图 8-5b 所 示 。 (回忆 一 下 ， 对 于 处 于 共享 状态 的 块 的 写 也 被 视 为 写 扑 室 。) 由 于 
作废 或 更 新 是 通过 网 络 上 不 同 的 路 径 被 发 往 多 个 节点 ， 我 们 必须 得 到 所 有 副本 对 作废 的 显 式 
确认 ， 才 能 确定 一 个 写 操作 的 完成 。 当 排他 读 请 求 或 更 新 请 求 获得 对 互连网 络 的 访问 时 ,我 
们 不 能 像 在 共享 总 线 的 情况 下 那样 假定 操作 已 经 完成 ， 因 为 我 们 无 法 保证 互连网 络 中 事务 的 
次 序 。 





对 目录 的 修 
正 消息 





A 共 
a) 在 一 个 高 速 缓存 中 修改 状态 对 一 个 块 的 读 扑 空 b) 对 一 个 有 两 个 共享 的 块 的 写 扑 空 


图 8-5 一 个 简单 目录 的 基本 操作 。 这 里 显示 了 两 个 示例 操作 。 左 图 是 读 扑 空 情况 ， 被 读 的 块 当前 
处 于 被 修改 (HE) 状态 被 保持 在 一 个 节点 上 ,该 节点 既 不 是 请 求 节点 ， 也 不 是 具有 目录 信 
息 的 宿主 节点 。 如 果 读 扑 空 发 生 在 一 个 “干净 ”的 主 存 块 上 ， 情 况 就 较为 简单 : 主 存 只 要 
在 应 答 时 将 所 需 的 数据 发 送 给 请 求 的 节点 即 可 ， 一 个 请 求 -响应 事务 对 就 可 以 满足 扑 空 的 要 
求 。 右 图 是 对 于 在 另外 的 两 个 节点 的 高 速 缓存 〈 两 个 共享 者 ) 中 处 于 共享 状态 的 块 写 扑 空 的 
情况 。 大 的 方块 是 节点 ， 带 有 加 框 标志 的 弧 线 代表 网 络 事务 。 事 务 框 旁边 的 数字 1，2 等 等 ， 
代表 事务 的 串 行 顺 序 。 相 同 数字 旁边 的 不 同 字母 表示 这 些 事务 可 以 同时 执行 ， 因 此 重大 


组 织 目录 的 一 个 自然 的 方法 是 将 块 的 目录 信息 和 块 本 身 一 起 保存 在 存储 器 中 ， 也 就 是 说 
放 在 该 块 的 宿主 节点 。 块 的 目录 信息 的 一 种 简单 的 组 织 方式 是 将 其 组 织 成 一 个 p 个 存在 位 
的 向 量 和 一 个 或 多 个 状态 位 〈 如 图 8-6 HR), p 代表 节点 的 个 数 ，p 位 分 别 指示 相应 节点 
( 单 处理 器 或 多 处 理 器 ) 是 否 有 该 块 的 一 个 高 速 缓存 副本 。 我 们 可 以 简单 地 假定 只 有 一 个 状 
态 位 ， 叫 做 脏 位 ， 它 是 用 来 指示 该 数据 块 是 否 在 某 一 节点 的 高 速 缓存 中 被 修改 过 。 当 然 ， 如 
果 脏 位 被 置 为 ON 。 那 么 只 有 一 个 节点 (META) 的 高 速 缓存 拥有 该 块 的 副本 ， 并 且 只 有 
那个 节点 的 存在 位 被 置 为 ON 。 使 用 这 种 结构 ， 读 扑 空 时 通过 查 目 录 表 可 以 很 容易 地 知道 哪 
个 节点 持 有 该 块 的 脏 副 本 ， 或 该 块 是 否 在 宿主 节点 的 主 存 中 有 效 。 写 扑 空 时 能 判断 哪些 节点 
是 必须 作废 的 共享 者 。 

一 个 块 的 目录 信息 是 从 主 存储 器 观点 对 不 同 高 速 缓存 中 该 块 状态 的 观察 。 目 录 不 需要 了 
解 每 个 高 速 缓 存 中 的 确切 状态 (AMES) ， 只 需要 得 到 能 决定 采取 什么 动作 的 足够 信息 ， 
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所 以 目录 中 的 状态 就 比 高 速 缓存 的 状态 要 少 。 事 实 上 ， 由 于 目录 和 高 速 缓存 之 间 通 过 分 布 式 
互 连 相 互通 信 ， 某 上段 时 间 就 可 能 出 现 这 种 情况 ， 高 速 缓存 的 状态 已 经 被 改变 ， 但 状态 改变 的 
通知 还 没有 到 达 目 录 ， 于 是 目录 中 的 状态 便 是 不 正确 的 。 在 这 段 时间 内 ， 目 录 可 能 基于 自己 
H (不 再 有 效 的 ) 信息 ， 向 高 速 缓存 发 出 了 一 个 消息 。 这 种 状态 分 布 引起 的 竞争 使 得 目录 
协议 更 有 意思 ， 在 8.4~ 8.6 节 里 ,将 看 到 如 何 用 过 渡 状 态 或 其 他 手段 来 解决 这 些 问题 。 





图 8-6 分 布 存储 器 型 多 处 理 器 的 目录 信息 。 在 简单 的 组 织 结构 中 ， 一 个 块 的 目录 项 是 一 个 包含 p 个 
存在 位 的 向 量 ( 每 个 节点 对 应 一 位 〉 和 一 个 表示 该 块 是 否 在 任何 节点 中 处 于 被 修改 状态 的 位 
为 了 更 详细 了 解读 扑 空 和 写 扑 空 是 如 何 与 这 种 位 向 量 目录 结构 发 生 交 互 作用 的 ， 考 虑 一 
种 有 三 种 稳定 高 速 缓存 状态 (MSI)、 每 节点 一 个 处 理 器 、 每 个 处 理 器 一 级 高 速 缓存 的 协议 。 
协议 由 叫做 一 致 性 控制 器 或 目录 控制 器 的 辅助 部 件 指 挥 。 当 在 节点 i 发生 读 或 写 扑 空 时 ( 包 
括 从 共享 状态 的 升级 ) ， 本 地 的 通信 辅助 部 件 或 控制 器 查找 存储 器 块 的 地 址 ， 确 定 其 宿主 是 
本 地 的 还 是 远程 的 。 如 果 它 是 远程 的 ， 便 向 块 的 宿主 节点 发 出 一 个 网 络 事务 。 宿 主 节点 的 畏 
助 部 件 负责 查询 该 块 的 目录 项 ， 并 使 用 与 图 8-5 中 类 似 的 网 络 事务 对 扑 空 做 下 列 处 理 (本 章 
[562] 后 面 将 讨论 更 为 优化 的 处 理 ): 
。 如 果 脏 位 为 OFF ， 那 么 辅助 部 件 从 主 存储 器 取得 块 ， 用 一 个 应 答 网 络 事务 把 它 提供 
给 请 求 者 ， 把 位 向 量 中 第 i 个 存在 位 ， 即 presence [i] fi, Hon. 
。 如 果 脏 位 为 ON ， 那 么 宿主 节点 便 把 与 置 位 的 存在 位 对 应 的 节点 〈 即 拥有 者 节点 或 脏 
节点 ) 的 身份 发 给 请 求 节点 ， 然 后 请 求 者 向 那个 拥有 者 节点 发 送 一 个 请 求 网 络 事务 。 
在 拥有 者 节点 ， 高 速 缓存 的 状态 变 为 共享 ， 并 把 块 发 送 给 请 求 节点 以 及 宿主 节点 的 
主 存 ， 请 求 节点 把 块 以 共享 状态 存 人 自己 的 高 速 缓存 。 在 主 存 中 ， 对 应 的 脏 位 为 
OFF, presence [i] 位 被 置 为 ON ; 
处 理 器 i 的 写 扑 空 要 访问 存储 器 ， 按 以 下 进行 处 理 : 
。 如 果 脏 位 为 OFF ， 主 存储 器 中 的 数据 副本 是 干净 的 。 这 时 必须 向 所 有 其 presence 
Lil] 是 on 的 节点 发 送 作废 请 求 事 务 。 假 设 一 个 图 8-5 中 所 描述 的 一 个 严格 的 请 求 
-应 答 场 景 ， 宿 主 节 点 把 块 和 存在 位 向 量 发 送 给 请 求 节点 ji。 目录 项 被 清除 ， 只 留 下 
对 应 节点 i 的 存在 位 presence [i] 和 脏 位 。( 如 果 请 求 是 升级 而 不 是 排他 读 的 话 ， 
向 请 求 节点 返回 的 确认 包含 位 向 量 而 不 是 数据 本 身 。) 请 求 节点 的 辅助 部 件 对 被 需要 
的 节点 发 送 作废 请 求 ， 然 后 等 待 那些 节点 的 作废 确认 事务 ， 表 示 对 它们 的 写 已 经 完 
成 。 最 后 ， 请 求 节 点 把 块 放 人 自己 的 高 速 缓存 ， 状 态 置 为 “ 脏 ”; 
。 如 果 脏 位 被 置 为 ON ， 那 么 先 使 用 网 络 事 务 从 脏 节点 ( 它 的 存在 位 被 置 为 ON ) 恢复 
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到 宿主 节点 的 主 存 中 ， 脏 节点 高 速 缓 存 对 应 状态 置 为 无 效 ， 然 后 块 被 发 送 到 请 求 处 
理 器 ， 请 求 处 理 器 把 块 放 和 人 自己 的 高 速 缓存 ， 状 态 置 为 “ 胜 ”。 目 录 项 被 清除 ， 只 留 
下 对 应 节点 i 的 存在 位 presence [i] 和 脏 位 为 ON 。 

HPA i 替换 一 个 脏 块 时 ， 将 要 被 替换 掉 的 数据 会 被 写 回 主 存储 器 ， 目 录 随 之 更 新 ， 清 
除 脏 位 和 presence [i] ( 同 基于 总 线 的 处 理 机 类 似 ， 回 写 引 起 有 意思 的 竞 态 条 件 ， 后 面 
将 结合 实际 协议 进行 讨论 ) 。 最 后 ， 如 果 一 个 处 于 共享 状态 的 块 被 从 高 速 缓存 替换 掉 ， 是 否 
向 目录 发 出 一 个 消息 把 对 应 的 存在 位 复位 都 可 以 ， 所 以 在 下 一 次 对 该 块 写 人 时 不 向 该 节点 发 
送 作废 请 求 。 这 种 消息 被 称 为 蔡 护 提示 ， 是 否 发 送 它 并 不 影响 协议 或 执行 的 正确 性 。 

一 种 与 此 类 似 的 目录 方案 早 在 1978 年 就 被 设计 出 来 了 (Censier and Feautrier 1978)。 它 
是 专 为 有 集中 式 存储 器 、 少 量 处 理 器 的 系统 设计 的 ， 并 在 Lawrence Livermore 国家 实验 室 的 S- 
1 多 处 理 器 项 目 中 得 到 了 应 用 (Widdoes and Correll 1980) 。 而 且 甚 至 在 此 之 前 ， 目 录 方 案 就 以 
这 样 或 那样 的 形式 被 使 用 了 ， 其 最 早 的 应 用 是 在 IBM 的 大 型 机 里 ， 这 种 机 器 用 高 带宽 的 交 
换 机 把 少量 的 处 理 器 和 集中 式 的 存储 器 连 在 一 起 。 由 于 没有 可 供 侦 听 的 广播 介质 ， 在 主 存储 
器 里 便 维护 了 各 个 处 理 器 高 速 缓存 标签 的 副本 ， 具 有 目录 的 功能 。 存 储 器 接 到 请 求 后 先 查 看 
所 有 标签 以 确定 块 在 其 他 高 速 缓存 中 的 状态 (Tang 1976; Tucker 1986)。 当 然 ， 存 储 器 中 的 
标签 副本 必须 保持 最 新 。 因 为 在 这 些 较 早 的 方案 中 目录 都 是 集中 式 的 ， 它 们 被 称 为 集中 目录 
方案 。 

目录 的 价值 在 于 它 记录 了 哪个 节点 有 某 块 的 副本 ， 消 除了 广播 。 显 然 ， 在 发 生 读 扑 空 时 
非常 有 用 ， 因 为 对 于 块 的 请 求 或 者 可 以 直接 在 主 存储 器 得 到 满足 ， 或 者 可 以 从 目录 确切 地 知 
道 从 哪个 节点 可 以 得 到 排他 的 副本 。 在 发 生 写 扑 空 时 ， 如 果 块 的 共享 者 (必须 对 它们 发 送 作 
废 或 更 新 ) 数目 比较 少 ， 并 且 也 不 随处 理 节 点 数量 的 增加 过 快 地 增长 ， 那 么 目录 表 方 案 相对 
简单 广播 方案 的 优势 最 大 。 

从 我 们 对 并 行 应 用 程序 的 理解 ， 可 能 已 经 想到 一 般 来 说 块 的 共享 者 的 数目 应 该 比较 小 。 
例如 ， 在 近邻 网 格 计算 中 ， 不 管 网 格 的 大 小 有 多 大 ， 也 不 管 处 理 器 的 数目 有 和 多少， 通常 只 有 
两 个 处 理 器 ， 最 多 四 个 处 理 器 会 在 分 区 边界 共享 一 个 块 。 即使 在 一 个 应 用 程序 中 某 一 块 被 所 
有 处 理 器 不 断 地 读 写 ， 在 写 时 应 该 被 作废 的 共享 者 的 数目 也 取决 于 处 理 器 读 和 写 时 间 上 的 交 
错 关 系 。 一 个 常用 的 例子 是 迁移 的 数据 ， 即 数据 先 被 一 个 处 理 器 读 写 ， 然后 被 男 一 个 处 理 器 
读 写 ， 依 次 类 推 ( 比 如 每 个 处 理 器 都 把 自己 的 值 累加 到 一 个 全 局 和 上 )。 尽 管 所 有 的 处 理 器 
都 读 写 同一 个 单元 ， 但 只 有 前 一 个 写 数 据 块 的 处 理 器 拥有 有 效 副本 并 必须 被 作废 ， 而 所 有 其 
他 副本 在 前 一 个 写 之 前 已 经 被 作废 了 。 

对 程序 行为 的 实验 测量 表明 ， 在 大 多 数 情况 下 ， 被 写 的 共享 数据 的 有 效 副 本 的 数目 总 是 
非常 小 的 ， 并 且 不 随 使 用 的 处 理 器 数目 的 增加 而 迅速 增长 ， 产 生 大 量 作废 的 写 的 几率 也 非常 
小 。 在 8.3.1 节 根 据 应 用 特征 还 会 提出 并 分 析 这 样 的 并 行 应 用 数据 (注意 ， 即 使 如 果 在 大 多 
数 写 操作 时 ， 必 须 把 运行 应 用 的 所 有 处 理 器 作废 ， 但 车 应 用 不 是 在 多 处 理 器 的 所 有 节点 上 运 
行 的 话 ， 这 种 目录 对 于 写 仍 然 是 有 价值 的 )。 这 些 事实 使 基于 目录 方案 的 可 扩展 性 有 良好 前 
途 ， 并 能 帮 我 们 理解 如 何 经 济 有 效 地 组 织 目录 。 


8.2.2 可 扩展 性 
采用 目录 协议 的 主要 目的 是 使 高 速 缓存 一 致 性 协议 可 扩展 ， 使 处 理 器 数量 超过 总 线 所 能 
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支持 的 限度 。 从 性 能 和 目录 信息 的 存储 开销 两 方面 来 理解 目录 协议 的 可 扩展 性 是 很 重要 的 。 
具有 分 布 式 的 存储 器 和 互连网 络 的 系统 在 正常 负荷 下 ， 已 经 在 原始 时 延 和 带宽 方面 提供 了 很 
好 的 可 扩展 性 。 一 个 协议 在 性 能 可 扩展 性 方面 的 主要 问题 是 它 在 时 延 和 带宽 方面 对 系统 的 需 
求 如 何 随 使 用 的 处 理 器 数量 而 扩展 。 带 宽 需 求 由 每 次 扑 空 产 生 的 网 络 事务 量 与 扑 空 率 的 乘积 
决定 ; 时 延 由 扑 空 时 关键 路 径 上 事务 的 数量 决定 。 进 而 ， 目 录 的 组 织 方式 和 协议 对 网 络 事务 
的 优化 程度 也 会 对 这 些 量 产生 影响 。 但 是 ， 存 储 开销 仅仅 由 目录 信息 的 组 织 方式 决定 。 对 于 
那 种 简单 的 位 向 量 结构 ， 所 需要 的 存在 位 的 数量 随处 理 节点 的 数目 〈 每 个 存储 器 块 p 位 ) 
和 主人 存储 器 的 大 小 〈 每 存储 块 一 位 向 量 ) 两 者 线性 增长 ， 导 致 目录 的 存储 开销 巨大 。 对 于 有 
64 个 处 理 咒 、 每 块 44 字 节 的 系统 ， 目 录 的 存储 开销 与 其 余 存 储 空间 的 比值 为 : 64 位 (外 加 
上 状态 位 ) 除 以 64 字 节 ， 约 为 12.5%， 这 种 情况 还 不 是 太 坏 。 如 果 块 大 小 不 变 ， 处 理 髓 数 
目 增 加 到 256 个 ， 存 储 开销 是 509% ， 处 理 器 增加 到 1 024 个 时 ， 比 值 况 成 了 20%! 目录 开 
销 的 扩展 性 不 好 ， 尽 管 在 目标 机 的 节点 数目 较 小 时 ， 这 个 协议 还 是 可 以 接受 的 。 

事 运 的 是 ， 很 多 组 织 目录 信息 的 其 他 方法 改进 了 目录 存储 的 可 扩展 性 。 不 同 的 目录 组 织 
方法 自然 导致 了 不 同 的 高 层 协议 ， 它 们 以 不 同 的 方法 解决 8.1 节 提 到 的 三 个 协议 功能 ， 具 有 
各 自 的 性 能 特性 。 本 节 的 其 余部 分 将 列举 一 些 目 录 组 织 ， 并 将 简要 地 描述 使 用 这 些 组 织 方法 
的 简单 协议 如 何 处 理 一 个 读 或 写 扑 空 。 我 们 假定 当时 没有 另外 的 高 速 缓存 扑 空 ， 即 没有 竞争 
条 件 ， 这 样 目录 和 高 速 缓存 总 是 处 于 稳定 的 状态 。 在 8.4 ~ 8.6 节 里 我 们 将 讨论 更 深层 次 的 
协议 问题 。 

8.2.3 组 织 目 录 表 的 其 他 方法 


由 于 与 高 速 缓存 副本 的 通信 总 是 通过 网 络 事务 进行 ， 各 种 方法 之 间 的 差异 一 般 来 说 体现 
在 一 致 性 协议 的 前 两 个 功能 : 发 生 扑 空 时 寻找 相应 的 目录 信息 源 和 确定 相应 副本 的 位 置 。 

寻找 一 个 块 的 目录 信息 源 的 方法 主要 有 两 类 : 扁平 目录 方案 (fat directory schem es) 和 
层次 目录 方案 (hierarchical directory schemes) o 

我 们 前 面 介绍 的 简单 目录 方案 就 是 扁平 方案 。 之 所 以 称 之 为 “扁平 ”是 因为 一 个 块 的 目 
录 信息 是 存放 在 一 个 固定 的 地 方 ， 通 常 在 有 块 地 址 指示 的 宿主 节点 ， 扑 空 时 ， 一 个 请 求 网 络 
事务 直接 送 给 宿主 节点 以 进行 目录 查询 (如果 宿 主 是 远程 的 话 ) ， 不 管 宿 主 节点 有 多 么 远 。 

在 层次 目录 方案 中 ， 目 录 信 息 的 源 不 能 事先 得 知 。 存 储 器 仍然 分 布 在 各 处 理 器 中 ， 但 每 
块 的 目录 信息 逻辑 上 被 组 织 成 层次 数据 结构 〈 一 棵 树 )。 树 的 叶子 是 各 拥有 一 部 分 存储 器 的 
处 理 节点 ， 树 的 内 部 节点 是 层次 式 维护 的 块 的 目录 信息 : 一 个 节点 记录 它 的 子 树 中 是 否 有 某 
一 块 的 副本 。 高 速 缓存 扑 空 时 ， 可 以 通过 网 络 事务 一 层 一 层 地 向 上 遍历 ， 直 到 到 达 一 个 目录 
节点 ， 它 指出 其 子 树 中 有 适当 状态 的 块 复 本 为 止 。 因 此 ， 扑 空 的 处 理 器 只 是 简单 地 向 其 父 节 
点 发 出 一 个 查找 消息 ， 然 后 向 上 类 推 , 而 不 是 直接 向 宿主 节点 发 出 一 个 网 络 事务 。 一 个 块 的 
目录 树 只 是 逻辑 上 的 ， 物 理 上 并 不 一 定 要 有 一 棵 树 ， 目 录 树 可 以 榜 在 任何 通用 的 互连网 络 
上 。 每 一 个 块 都 有 自己 的 逻辑 目录 树 。 事 实 上 ， 系 统 中 的 每 一 个 处 理 节点 既是 叶子 节点 (对 
于 它 所 包含 的 数据 块 来 讲 )， 又 是 存 有 目录 信息 的 内 部 节点 (对 其 他 的 数据 块 来 讲 )。 

在 层次 方案 中 ， 关 于 副本 位 置 的 信息 也 由 层次 结构 自身 维护 ， 在 目录 信息 的 指引 下 通过 
向 上 和 向 下 饥 历 找 到 副本 并 与 之 通信 。 例 如 ， 一 个 节点 的 目录 项 婚 可 以 指示 是 否 其 子 树 保有 
某 块 的 有 效 副 本 ， 又 能 指示 是 否 其 子 树 中 分 配 的 块 的 有 效 副本 在 本 子 树 之 外 存在 。 在 扁平 方 
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案 中 ， 副 本 信息 的 存放 方法 有 很 大 的 不 同 。 在 最 高 层 ， 扁 平方 案 可 以 被 分 为 两 类 : 基于 存储 
器 的 方案 和 基于 高 速 缓存 的 方案 。 基 于 存储 器 的 方案 把 关于 所 有 高 速 缓 存 副 本 的 目录 信息 都 
存放 在 块 的 宿主 节点 上 ， 前 面 介绍 过 的 基于 位 向 量 的 方案 是 基于 存储 器 的 ， 所 有 有 效 副本 的 
位 置 可 以 从 宿主 节点 得 到 ， 并 可 通过 点 对 点 的 消息 进行 通信 。 在 基于 高 速 缓存 的 方案 中 ， 关 
te 而 是 和 副本 本 身 一 起 分 布 。 宿 主 节 点 只 有 一 个 
指向 块 的 茶 一 高 速 缓存 副本 的 指针 ， 每 个 高 速 绥 存 副 本 都 有 一 个 指向 同一 块 下 一 个 副本 的 指 
针 (或 标记 ) ， 形 成 了 一 一 种 分 布 式 的 链表 结构 。 所 需 副 本 位 置 便 可 以 通过 网 络 事务 遍历 这 个 
链表 得 到 。 

图 8-7 总 结 了 分 类 体系 。 层 次 式 目录 有 一 些 潜在 的 优势 ， 例 如 ， 当 读 扑 空 发 生 时 ， 如 果 
块 的 宿主 节点 在 互连网 络 拓扑 中 相距 比较 远 ， 当 上 下 遍历 层次 的 时 候 发 现 相距 较 近 的 另 一 节 
点 有 块 的 有 效 副 本 ， 则 可 以 直接 从 这 一 节点 获得 数据 而 不 用 去 访问 宿主 节点 。 此 外 ， 从 九 个 
节点 发 出 的 请 求 有 可 能 在 一 个 共同 的 祖先 那里 被 合并 为 一 个 ， 再 向 上 就 只 发 送 一 个 请 求 。 这 
些 优势 的 发 挥 取 决 于 逻辑 的 层次 结构 同 支撑 的 网 络 物理 拓扑 结构 的 匹配 程度 。 但 是 ， 同 扁平 
目录 方案 发 生 扑 空 时 只 需要 少量 的 点 对 点 网 络 事务 的 情况 不 同 ， 层 次 式 目 录 方 案 需 要 更 多 的 
网 络 事务 来 上 下 遍历 各 层次 ， 这 比 距离 更 容易 影响 系统 的 性 能 。( 因 为 端点 启动 和 处 理 网 络 
事务 的 代价 主导 了 每 跳 的 代价 .) 而 且 ， 每 一 次 事务 都 需要 查询 (或 者 修改 ) 目的 节点 上 的 
目录 信息 ， 这 使 得 事务 的 代价 更 高 。 因 此 ， 层 次 式 目录 方案 的 时 延 和 带宽 等 特征 比 扁平 方案 
要 差 得 多 ， 在 现代 系统 中 并 不 常用 。 所 以 ， 本 章 对 层次 式 目录 不 做 太 多 讨论 ， 只 是 在 8.10.2 
节 和 多 级 侦 听 方法 一 起 简要 提 及 。 本 节 其 余部 分 将 研究 基于 存储 器 和 基于 高 速 缓存 两 种 类 型 
的 遍 平 目录 方案 ,观察 目录 的 组 织 方式 、 存 储 开销 、 协 议 的 结构 和 对 性 能 特点 的 影响 。 


目录 存储 方案 
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图 8-7 存储 目录 信息 的 几 种 方法 。 这 个 两 级 分 类 法 基于 目录 信息 源 和 副本 本 身 的 
定位 方法 。 在 层次 式 目录 方案 中 ， 这 两 个 功能 是 由 同一 种 机 制 来 实现 的 
1. 扁平 的 、 基 于 存储 器 的 目录 方案 
前 面 介绍 的 位 向 量 结构 又 叫 全 位 向 量 组 织 结构 ， 是 扁平 的 、 基 于 存储 器 的 目录 方案 中 存 
储 目录 信息 最 直接 了 当 的 方式 。 所 产生 的 协议 的 风格 前 面 已 经 讨论 过 。 考 虑 一 下 它 执行 写 的 
基本 性 能 特征 ， 由 于 它 把 关于 共享 者 的 所 有 信息 都 精确 地 保存 在 宿主 节点 ， 于 是 每 次 作废 写 
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的 网 络 事务 的 数量 仅 随 实际 的 共享 者 的 数目 增长 。 所 有 共享 者 的 标识 都 可 以 在 和 宿主 节点 得 
到 ， 于 是 向 它们 发 出 的 作废 请 求 可 以 被 重合 ,其 至 并 行 发 送 ; 所 以 在 关键 路 径 上 完全 串 行 的 
网 络 事 务 数量 并 不 与 共享 者 的 数 上 成 正比 ， 这 就 减少 了 时 延 。 

正如 前 面谈 到 的 那样 ， 全 位 向 量 结构 的 主要 缺点 就 是 它 的 存储 开销 太 大 。 保 持 这 种 结构 
不 变 ， 如 果 处 理 器 的 数目 是 给 定 的 ， 我 们 有 两 种 方法 可 以 降低 存储 的 开销 。 第 一 种 方法 是 增 
加 高 速 缓存 块 的 大 小 ， 另 一 种 方法 是 在 节点 使 用 多 个 处 理 器 ， 而 不 仅仅 是 一 个 处 理 器 ， 减 少 
目录 协议 可 见 节点 的 数目 ， 即 ， 使 用 两 级 协议 。 例 如 ，Sianford 的 DASH 机 使 用 的 就 是 全 位 
向 量 结构 ， 它 的 节点 是 有 四 个 处 理 器 的 基于 总 线 的 多 处 理 器 。 这 两 种 方法 实际 上 使 得 全 位 向 
量 目录 结构 对 规模 相当 大 的 处 理 机 都 很 有 吸引 力 : 当 每 个 节点 有 四 个 处 理 器 ， 高 速 缓存 块 为 
128 字 节 的 时 候 ， 一 个 有 256 个 处 理 器 的 机 器 的 目录 存储 器 开销 只 有 6.25% 。 随 着 节点 越 来 
越 多 地 采用 小 规模 的 多 处 理 器 ， 目 录 存 储 开销 的 问题 将 不 会 很 严重 。 

不 过 ， 以 上 两 种 方法 都 只 是 在 较 小 程度 上 降低 了 存储 开销 ， 整 个 目录 的 存储 开销 仍然 与 
Px M 成 正比 ， 这 里 P 表示 处 理 节点 的 数目 ，M 表示 机 器 中 存储 器 块 的 总 数 (M = Px m, 
m 是 每 个 局 部 存储 器 的 块 数 )， 在 规模 非常 大 的 机 器 中 ， 这 种 开销 是 不 能 容忍 的 。 针 对 
Px MM 这 个 表达 式 中 每 一 个 因子 采取 措施 都 有 可 能 进一步 碱 小 这 种 开销 ， 例 如 我 们 可 以 通过 
使 是 录 项 所 需 的 位 数 ( 又 叫 目 录 宽 度 ) 不 与 P 成 正比 而 减少 它 ， 也 可 以 通过 几 个 块 共用 一 
个 目录 项 来 减少 目录 项 的 总 数 (又 叫 目录 高 度 )。 

我 们 可 以 用 一 种 叫做 有 限 指 针 目 录 的 结构 来 降低 目录 宽度 。 在 一 个 块 被 写 的 时 候 ， 大 多 
数 情 况 下 只 有 少数 节点 有 该 块 的 副本 ， 因 此 有 限 指针 方案 并 不 存储 所 有 节点 的 信息 ， 而 是 只 
维护 一 定数 量 的 指针 〈 比 如 说 i)， 每 个 指针 都 指向 一 个 当前 具有 块 副本 的 节点 (Agarwal et 
al. 1988)。 每 个 指针 都 需要 log P (P 为 节点 数 ) 的 存储 空间 ， 但 指针 数量 少 。 例 如 一 个 有 
1 024 个 节点 的 机 器 ， 每 个 指针 都 需要 10 位 ， 即 使 使 用 100 个 指针 也 比 全 位 向 量 方案 的 存储 
开销 要 少 。 在 实际 应 用 中 ，5 个 或 再 少 一 些 的 指针 已 经 基本 够 用 。 当 然 了 ， 协 议 必须 提供 蘑 
种 后 备 和 处 理 “溢出 ”的 策略 ， 以 便 应 付 超过 i 个 高 速 缓存 副本 的 情况 ， 因 为 它 只 能 对 i 个 
节点 进行 精确 地 记录 。 一 种 策略 就 是 当 副 本 数 超过 i 时， 对 所 有 的 节点 进行 作废 广播 。 此 外 
还 有 很 多 其 他 的 策略 ， 即 使 在 “溢出 ”的 情况 下 也 避免 用 广播 。 不 同 的 有 限 目 录 方 案 的 差异 
主要 就 在 于 它们 “溢出 ”处 理 策略 的 不 同和 采用 的 指针 个 数 不 同 。 

由 于 机 器 中 高 速 缓存 的 容量 要 远 远 小 于 主 存储 器 ， 所 以 在 某 一 时 刻 只 有 很 少 一 部 分 存储 
器 奥 会 在 高 速 缓 存 中 有 副本 ， 于 是 大 多 数 的 目录 项 都 不 会 被 用 到 (Gupta, Weber, and Mowry 
1990; O° Krafka and Newton 1990) 。 我 们 可 以 利用 这 一 点 ， 把 目录 本 身 组 织 成 高 速 缓存 ， 这 
样 就 可 以 减少 目录 的 高 度 。8.10 节 将 更 详细 地 讨论 减少 目录 宽度 和 高 度 的 技术 。 

除了 这 些 减 少 存 储 开销 的 优化 策略 外 ， 不 同 的 扁平 的 、 基 于 存储 器 的 目录 方案 寻找 副本 
并 与 之 通信 (协议 功能 [2] 和 [3]) 的 基本 方法 都 是 一 样 的 。 即 共 享 者 的 标志 都 由 宿主 节点 维 
护 〈 至 少 在 没有 溢出 的 情况 下 ) ， 与 副本 的 通信 和 是 通过 发 送 点 对 点 的 网 络 事务 完成 的 。 

2. 扁平 的 、 基 于 高 速 缓存 的 目录 方案 

在 扁平 的 、 基 于 高 速 缓存 的 目录 方案 中 ， 块 仍然 有 它 的 宿主 主 存 ， 但 是 ， 宿 主 节点 的 目 
录 项 不 包含 所 有 共享 者 的 标识 ， 而 是 仅仅 含有 指向 表 中 的 第 一 个 共享 者 的 指针 和 几 个 状态 
位 。 这 个 指针 叫做 这 个 块 的 头 指针 。 含 有 该 块 高 速 缓存 副本 的 其 他 节点 通过 一 个 分 布 式 的 、 
双向 的 链表 结合 在 一 起 〈 使 用 与 节点 每 个 高 速 缓存 行 相 联 系 的 额外 指针 )， 即 一 个 含有 块 副 
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本 的 高 速 缓存 包含 了 指向 前 一 个 和 后 一 个 含有 副本 的 高 速 缓存 的 指针 ， 分 别 叫做 前 向 指针 和 
后 向 指针 ( 见 图 8-8) 。 








图 8-8 一 个 双向 链表 分 布 式 目录 结构 。 高 速 缓存 的 一 行 不 仅 含有 数据 
和 状态 信息 ， 而 且 还 有 构造 分 布 式 链表 用 的 前 向 和 后 向 指针 

发 生 读 扑 空 时 ， 请 求 的 节点 向 宿主 存储 器 发 出 网 络 事务 ， 以 获得 该 块 链表 头 节点 的 标识 
(如 果 有 的 话 )。 如 果 头 指针 为 空 〈 当 前 没有 共享 者 ) ， 宿 主 节点 直接 返回 数据 ， 如 果 头 指针 
不 为 空 ， 必 须 把 请 求 者 加 入 到 共享 者 的 链表 中 去 。 宿 主 节点 向 请 求 者 返回 头 指针 。 请 求 者 向 
头 节 点 发 送 一 个 消息 ， 请 求 把 自己 加 入 到 链表 的 头 部 从 而 成 为 新 的 头 节点 ， 其 效果 是 使 宿主 
节点 的 头 指针 现在 指向 请 求 者 节点 ， 请 求 者 自己 的 高 速 缓 存 项 的 前 向 指针 指向 老 的 头 节点 
( 老 的 头 节点 现在 成 了 链表 中 的 第 二 个 节点 )， 老 的 头 节点 的 后 向 指针 指向 请 求 者 。 如 块 的 最 
新 副本 在 宿主 节点 ， 数据 就 由 宿主 节点 直接 提供 给 请 求 节点 ， 否则 就 由 头 节点 提供 〈 头 节点 
作为 拥有 者 总 是 有 最 新 副本 )。 

发 生 写 扑 空 时 ， 写 人 者 仍 是 先 从 宿主 节点 获得 头 节点 的 标识 (如果 有 的 话 ) ， 然 后 像 前 
面 那样 ， 把 自己 插入 到 链表 的 头 部 。( 如 果 写 人 者 已 经 作为 共享 者 存在 于 链表 中 ， 而 现在 它 
在 热 行 一 个 升级 操作 ， 那 么 先 把 它 从 当前 位 置 删 去 ， 然 后 再 作为 新 的 头 节 点 插 人 表 中 。) 接 
着 ， 通 过 网 络 事务 逐 节点 遍历 分 布 链表 的 其 余部 分 ， 找 到 并 作废 该 块 的 后 续 副 本 。 如 果 被 写 
入 的 块 由 三 个 节点 A、B、C 共享 ， 宿 主 节点 只 知道 A 节点 ， 那 么 写 人 者 便 向 A 发 出 作废 消 
息 ; 到 达 A 后 才能 知道 另外 一 个 共享 者 B 的 标识 ， 依 次 类 推 。 对 这 些 作废 的 确认 都 被 送 回 
写 人 者 节点 。 如 果 写 人 者 需要 块 中 的 数据 ， 它 可 以 同 发 生 读 扑 空 时 一 样 从 宿主 节点 或 头 节点 
获得 。 每 次 作废 写 引 起 的 消息 数量 ， 即 带宽 需求 ， 与 共享 者 的 数目 成 正比 ， 这 与 基于 存储 器 
的 方案 相同 。 不 同 的 是 现在 处 于 关键 路 径 上 的 消息 量 (也 就 是 说 时 延 ) 也 与 共享 者 数 成 正 
比 ， 每 一 个 串 行 化 的 消息 都 是 在 到 达 时 才 激 活 目的 地 的 通信 辅助 部 件 ， 进 一 步 增 加 了 时 延 和 
通信 辅助 部 件 的 占用 度 。 事 实 上 ， 即 使 对 一 个 干净 块 的 读 扑 空 也 要 涉及 三 个 节点 的 通信 辅助 
部 件 ， 以 便 把 节点 加 入 到 链表 中 。 

从 高 速 缓存 中 把 数据 回 写 或 进行 数据 块 蔡 换 也 需要 节点 把 自己 从 对 应 的 链表 中 删除 ， 这 
需要 节点 同 链表 中 相 邻 的 两 个 节点 进行 通信 。 之 所 以 需要 这 个 动作 是 因为 替换 旧 块 的 新 块 需 
要 用 高 速 绥 存 项 的 前 向 指针 和 后 向 指针 建立 自己 的 链表 。 我 们 需要 有 一 定 的 同步 机 制 ， 以 避 
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免 同 时 替换 掉 链表 中 相 邻 的 节点 ， 另 外 多 个 节点 的 参与 也 增加 了 通信 辅助 部 件 的 占用 率 。 在 
8.6 将 更 加 深入 地 描述 一 个 基于 高 速 缓存 的 协议 的 例子 。 

虽然 在 时 延 和 占用 度 方面 有 些 不 尽 如 人 意 的 地 方 ， 但 基于 高 速 缓存 的 方案 同 基 于 存储 器 
的 方案 相 比 有 着 一 些 很 重要 的 优势 。 第 一 ， 目 录 的 开销 很 小 。 存 储 器 中 的 每 一 个 块 都 附加 一 
个 头 指针 和 少数 几 个 状态 位 ， 前 向 和 后 向 指针 的 数目 与 机 器 中 高 速 缓存 块 的 数目 成 正比 ， 而 
高 速 缓存 块 的 数目 比 存储 器 块 的 数目 要 小 的 多 。 第 二 ， 链 表 记 录 下 了 各 个 节点 对 存储 器 中 该 
块 访问 的 顺序 ， 这 使 得 协议 可 以 具有 更 好 的 公平 性 并 可 训 免 活 锁 。( 后 面 将 会 看 到 ， 大 多 数 
的 基于 存储 器 的 方案 并 不 记录 对 存储 器 的 访问 顺序 )。 第 三 ， 发 送 作废 时 辅助 部 件 所 做 的 工 
作 不 是 集中 在 宿主 节点 ， 而 是 分 布 在 各 个 共享 者 节点 ， 这 样 有 可 能 分 散 对 辅助 部 件 的 占用 
率 ， 并 降低 对 特别 忙 的 宿主 节点 辅助 部 件 的 带宽 需求 。 

对 分 布 式 链表 进行 插入 或 删除 操作 会 导致 非常 复杂 的 协议 实现 。 例 如 ， 从 链表 中 删除 一 

个 节点 需要 在 链表 中 相 邻 的 处 理 器 之 间 进 行 很 小 心 的 协调 和 互 斥 ， 以 防 这 些 处 理 器 也 试图 同 
时 替换 同一 数据 块 。 这 些 复杂 的 问题 随 着 基于 高 速 缓存 目录 协议 的 标准 的 形式 化 和 出 版 而 在 
很 大 程度 上 得 到 了 缓解 ， 这 个 标准 就 是 EEE 1596 ~ 1992 可 扩展 一 致 接口 (SCL) 标准 
(Gustavson 1992) 。 标 准 里 有 协议 的 完整 说 明和 C 语言 源 代 码 。 有 几 个 商业 性 的 处 理 机 都 采用 
了 这 个 标准 (比如 ，Sequent NUMA-Q [Lovett and Clapp 1996], Convex Exemplar | Convex Comput- 
er Corporation 1993; Thekkath et al. 1997], Data General [ Clark and Alnes 1996] ), 34h, 采用 其 
他 链表 表示 方法 (如 使 用 单 链 表 ， 而 不 是 SCI 中 的 双向 链表 ) 的 一 些 变型 也 已 经 被 开发 
(Thapar and Delagi 1990)。 在 8.6 节 将 对 SCI 协 议 本 身 进 行 详细 考察 并 讨论 它 的 优 缺 点 。 

3， 对 不 同 目录 组 织 方式 的 总 结 

总 而 言 之 ， 有 很 多 方法 来 安排 目录 对 主 存 块 的 高 速 缓存 状态 的 存储 。 简 单 的 位 向 量 表示 
法 适用 于 目录 协议 中 可 见 的 节点 不 是 很 多 的 情况 。 对 于 规模 比较 大 的 机 器 ， 有 很 多 方法 可 以 
用 来 降低 存储 开销 ， 然 而 ， 所 选择 的 组 织 方式 确实 影响 一 致 性 协议 的 复杂 性 以 及 各 种 共享 模 
式 下 目录 方案 的 性 能 。 层 次 式 目录 方案 在 实际 的 机 器 中 并 不 多 见 ， 而 具有 扁平 的 、 基 于 存储 
器 和 基于 高 速 缓存 GER) 目录 方案 的 机 器 却 已 经 被 建造 并 使 用 好 多 年 。 

8.3 节 将 对 并 行程 序 的 行为 及 其 对 基于 目录 方法 隐 含 的 意义 ， 以 及 一 些 重要 的 协议 和 体 
系 结构 上 的 折 中 进行 量化 评估 。 


8.3 目录 协议 和 折 中 的 评价 


本 节 将 同 第 5 章 一 样 ， 用 一 个 模拟 器 考察 应 用 程序 的 某 些 相关 特征 ， 这 些 特 征 可 以 反映 
体系 结构 上 的 折 中 ,但 是 不 能 通过 在 实际 的 机 器 上 的 测量 得 到 。 至 于 是 采用 三 状态 还 是 四 状 
态 的 协议 、 协 议 是 基于 作废 还 是 基于 更 新 这 样 的 问题 ， 在 第 5 章 已 经 讨论 过 ， 在 此 不 再 重 
述 。 本 节 将 着 重 讨论 基于 作废 的 协议 ， 因 为 在 可 扩展 处 理 机 中 更 新 协议 还 有 另外 一 个 缺点 ; 
更 新 不 能 再 通过 被 所 有 高 速 缓存 所 侦 听 的 单个 总 线 事务 完成 ， 而 必须 对 每 个 目的 地 产生 独立 
的 网 络 事务 。 此 外 ， 基 于 更 新 的 协议 使 得 在 基于 目录 的 系统 中 ， 维 持 所 需 的 存储 器 同一 性 模 
型 更 加 困难 。 本 节 将 对 目录 协议 中 作废 模式 的 分 布 进行 量化 分 析 ， 考 察 在 问题 规模 不 变 情 况 


下 ， 本 地 和 远程 节点 间 的 流量 分 布 如 何 随处 理 器 数目 的 增加 而 变化 ， 并 再 次 考察 高 速 缓存 块 


的 尺寸 对 流量 的 影响 。 在 所 有 情况 下 ， 我 们 的 实验 假定 使 用 基于 存储 器 的 扁平 目录 协议 。 相 
对 于 第 5 章 的 实验 ， 这 里 有 两 个 变化 。 首 先 ， 由 于 基数 排序 在 处 理 器 较 多 时 会 表现 出 大 量 的 
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伪 共 享 (我 们 这 里 的 缺 省 是 32 个 处 理 器 ， 而 不 是 16 个 )， 我 们 用 的 问题 规模 为 1 MTE, 
而 不 是 256 K 个 。 其 次 ， 在 我 们 所 有 的 小 缓存 实验 中 ， 我 们 用 的 是 8-KB 高 速 缓存 ， 而 不 是 
64-KB， 从 而 可 以 考察 更 小 的 工作 集 和 高 速 缓存 相 适 应 的 效果 。 


8.3.1 目录 方案 的 数据 共享 模式 


前 面 讲 过 写 操 作 时 需要 发 送 的 作废 的 数量 通常 都 比较 小 ， 这 使 得 目录 特别 有 用 ， 并 能 在 
不 影响 性 能 的 情况 下 大 大 减少 其 存储 开销 。 下 面 将 用 一 些 并 行 应 用 程序 实例 来 对 此 进行 量化 
研究 。 这 将 发 展 成 一 种 按 共享 模式 对 数据 结构 进行 分 类 并 理解 作废 模式 是 如 何 扩展 的 框架 ， 
并 进而 根据 这 个 框架 对 应 用 案例 分 析 的 行为 进行 解释 。 为 简单 起 见 ， 所 模拟 的 协议 假设 只 有 
三 种 基本 的 高 速 缓存 状态 (MSD. 

1. 应 用 案例 分 析 的 共享 模式 

对 基于 作废 的 目录 方案 来 说 ， 理 解 应 用 程序 数据 共享 模式 的 如 下 两 个 方面 是 很 重要 的 ， 
1) 处 理 器 发 出 需要 作废 其 他 副本 的 写 操作 〈 即 在 一 个 MSI 协议 中 ， 对 写 人 者 本 地 高 速 缓存 
中 一 个 处 于 非 修改 态 的 数据 的 写 ， 或 称 作废 写 ) 的 频率 ， 称 为 作废 频率 ; 2) 发 生 这 样 的 写 
时 需要 发 出 的 作废 (共享 者 ) 的 数量 分 布 ， 称 为 作废 规模 分 布 。 当 平均 作废 规模 小 而 且 作废 
频率 足够 大 ， 使 得 总 是 使 用 广播 确实 影响 性 能 时 ， 目 录 方 案 的 优势 就 特别 明显 。 图 8-9 显示 
了 案例 分 析 的 并 行 应 用 ， 用 第 4 章 出 现 的 缺 省 问题 规模 ， 在 一 个 64 节点 的 系统 (每 节点 一 
个 处 理 器 ) 上 运行 时 作废 规模 的 分 布 。 为 了 捕捉 固有 的 共享 模型 ， 这 些 模拟 假设 每 个 处 理 器 
具有 无 限 大 的 高 速 缓存 。 若 使 用 有 限 的 高 速 缓存 ， 发 送 给 目录 的 替换 提示 会 复位 存在 位 ， 从 
而 在 某 些 情况 下 减少 了 写 时 发 送 的 作废 的 数量 (尽管 流量 不 会 减少 ， 因 为 必须 发 送 蔡 换 提 
示 )。 在 MSI 协议 中 ， 如 果 块 处 于 共享 状态 并 且 没 有 其 他 的 共享 副本 ， 则 对 它 写 时 就 不 用 发 
出 作废 。 但 这 种 情况 在 高 速 缓存 无 限 大 的 MES 协议 中 不 可 能 发 生 。 当 高 速 缓存 无 限 大 时 ， 
作废 频率 同 计算 与 通信 的 比 成 正比 。 

显然 ， 作 废 规模 一 般 都 不 大 ， 这 既 表 明 目 录 方案 在 减少 流量 方面 的 确 是 非常 有 用 的 ， 同 
时 也 表明 基于 存储 器 的 扁平 月 录 没 有 必要 为 每 一 个 节点 都 维护 一 个 存在 位 。 非 常 大 规模 的 作 
废 规模 的 频率 不 等 于 零 一 般 是 由 同步 变量 所 造成 的 ， 当 很 多 处 理 器 都 在 一 个 变量 上 踏步 等 
待 ， 而 有 一 个 处 理 器 对 该 变量 进行 了 写 操作 ， 就 要 向 所 有 其 他 的 处 理 器 发 出 作废 。 我 们 不 仅 
仅 对 给 定 的 问题 规模 和 处 理 器 数目 的 结果 感 兴趣 ， 也 很 关心 它们 是 如 何 扩展 的 。 第 4 章 中 讨 
论 的 计算 与 通信 比 对 作废 写 的 频率 扩展 性 是 很 好 的 说 明 。 对 应 用 以 及 它们 的 数据 结构 的 用 法 
的 理解 有 助 于 理解 作废 规模 的 分 布 ( 并 通过 实验 得 到 验证 )， 也 有 助 于 解释 图 8-9 中 观察 到 
的 基本 结果 。 

2. 一 个 共享 模式 的 框架 

应 用 程序 的 数据 访问 模式 可 以 用 很 多 方法 分 类 : 可 预测 的 和 不 可 预测 的 、 规 则 的 和 不 规 
则 的 、 粗 粒度 的 和 细 粒 度 的 〈 或 地 址 连续 的 和 地 址 不 连续 的 ) 、 邻 近 的 和 在 互 连 拓扑 结构 中 
大 范围 的 等 等 。 为 了 理解 作废 模式 ， 相 关 的 分 类 有 : 只 读 、 生 产 者 -消费 者 、 迁 移 、 不 规则 
读 - 写 。( 一 种 类 似 的 分 类 法 可 以 在 [Gupta 和 Weber 1992] 中 找到 。) 

”只 读 。 只 读 的 数据 结构 一 旦 被 初始 化 后 就 不 会 被 再 写 ， 不 存在 作废 写 操 作 ， 所 以 这 

类 数据 对 目录 不 是 问题 。 其 实例 包括 程序 代码 和 Raytrace 应 用 程序 中 的 场景 数据 ， 

”生产 者 -消费 者 。 一 个 处 理 器 产生 (G) 一 个 数据 项 ， 然 后 另 一 些 处 理 器 消费 ( 读 ) 
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它 ， 接 着 又 有 一 个 处 理 器 产生 它 ， 以 次 类 推 。 基 于 标志 的 同步 操作 和 和 迭代 网 格 计算 
中 的 近邻 共享 等 都 是 具体 的 例子 。 进 行 写 操作 的 进程 可 以 每 次 都 是 同一 个 ， 也 可 以 
有 所 不 同 ; 例如 ， 在 一 个 分 支 界限 算法 中 ， 不 同 的 进程 在 发 现 了 改进 的 界限 时 可 以 
对 界限 变量 写 人 。 这 类 数据 的 作废 规模 取决 于 每 次 生产 者 写 人 值 时 已 经 有 了 多 少 个 
消费 者 ， 可 以 是 一 个 或 几 个 ， 甚 至 系统 中 所 有 的 进程 都 是 消费 者 。 尽 管 对 大 多 数 应 
用 程序 来 说 ， 作 上 废 规模 不 随处 理 器 数目 的 增加 而 迅速 增 大 ， 作 上 废 频率 低 2 ， 但 这 些 场 
合 下 ， 还 是 会 有 不 同 的 频率 和 扩展 特性 。 

迁移 。 迁 移 的 数据 不 断 地 从 一 个 处 理 器 迁移 到 另外 一 个 处 理 器 ， 并 被 每 一 个 它 跳 往 
的 处 理 器 写 人 【经常 是 读 )。 一 个 例子 是 全 局 求 和 ， 不 同 的 进程 都 要 把 自己 的 部 分 和 
加 到 全 局 和 上 面 去 。 每 当 一 个 处 理 器 写 一 个 变量 时 ， 只 有 前 一 个 写 人 者 拥有 一 个 副 
本 《因为 它 在 执行 自己 的 写 时 已 经 作废 了 以 前 的 拥有 者 ) ， 所 以 不 管 使 用 了 多 少 处 理 
带 ， 每 次 写 时 只 需要 产生 一 个 作废 。 

。 不 规则 读 写 。 这 对 应 于 不 同 进程 对 数据 的 不 规则 或 不 可 预测 的 数据 访问 模式 。 一 个 
简单 的 例子 是 分 布 式 任务 队列 系统 。 进 程 在 寻找 可 窃取 的 任务 时 要 探测 GE) 任务 
队列 的 头 指针 ， 在 队列 头 部 增加 新 任务 时 要 写 头 指针 。 这 种 不 规则 的 访问 方式 常常 
导致 变化 很 大 的 作废 规模 ， 不 过 在 大 多 数 被 观察 的 应 用 中 ， 频 率 通常 集中 在 频谱 的 
一 端 (ILEI 8-9 中 的 Radiosity 例子 )。 

3. 将 上 述 框 架 应 用 于 程序 案例 分 析 

现在 我 们 简单 地 看 一 下 图 8-9 中 的 每 个 应 用 ， 解 释 依据 上 述 四 种 共享 模式 得 到 的 结果 ， 

理解 作废 规模 的 分 布 是 如 何 变化 的 。 

在 LU 因子 分 解 程序 中 ， 当 一 个 块 被 写 时 ， 只 有 对 它 进行 写 操作 的 同一 个 处 理 器 (被 分 

配 了 该 块 的 进程 ) 在 此 之 前 读 过 它 。 这 意味 着 没有 其 他 的 处 理 器 会 搜 有 该 块 的 高 速 缓存 副 
本 ， 于 是 就 不 需要 发 送 作废 。 一 旦 写 操作 完成 ， 该 块 就 会 被 其 他 一 些 处 理 器 读 而 不 会 被 再 
号 。 我 们 之 所 以 从 图 中 看 到 作废 规模 为 1， 是 因为 矩阵 是 由 单个 进程 初始 化 的 ， 由 于 使 用 了 
无 限 大 的 高 速 缓存 ， 它 的 高 速 缓存 中 就 有 整个 矩阵 的 副本 ; 当 另 一 个 处 理 器 第 一 次 写 某 块 
时 ， 必 须 将 它 作废 。 还 有 少数 几 个 作废 写 操作 需要 作废 所 有 的 进程 ， 那 都 是 由 一 些 全 局 变量 
而 不 是 主要 的 矩阵 数据 结构 引起 的 。 扩 展 问 题 的 规模 或 处 理 器 的 数量 并 不 改变 和 矩阵 作废 规模 
的 分 布 ， 而 只 会 改变 全 局 变量 的 作废 规模 的 分 布 。 当 然 了 ， 作 废 频率 会 随 着 扩展 变化 ， 就 像 
计算 与 通信 比 一 样 。 

在 Radix 排序 内 核 程序 中 ， 两 种 “生产 者 -消费 者 ”场合 会 发 出 作废 。 在 置换 阶段 ， 要 写 

的 字 或 块 自从 上 一 次 被 写 之 后 ， 只 被 键 字 所 分 配 到 的 进程 读 过 ， 所 以 至 多 需要 发 送 一 个 作 
废 。 目 标 数组 中 相同 的 键 字 位 置 可 能 在 排序 的 不 同 外 层 循环 迭代 中 被 不 同 的 进程 写 ; 但 是 ， 
每 一 次 迭代 中 ， 键 字 只 有 一 个 读 出 者 ， 所 以 即使 在 这 种 不 常 发 生 的 情况 下 ， 也 只 需 发 出 两 个 





O ”生产 者 -消费 者 的 作废 规模 分 布 不 增长 的 例子 是 近邻 规则 的 网 格 计算 中 的 非 角 元 素 和 Radix 中 的 键 字 置换 。 它 们 
产生 为 1 的 作废 规模 ， 且 不 随处 理 器 的 数量 或 问题 的 规模 增加 。 所 有 进程 都 是 消费 者 〈 作 废 规模 p - 1) 的 例子 
之 一 是 全 局 能 最 变量 ， 它 由 所 有 的 进程 在 物理 模拟 的 一 个 时 间 步 内 读 ， 在 时 间 步 结束 时 由 一 个 进程 写 人 。 另 一 
个 例子 是 所 有 进程 绕 其 自 旋 的 同步 变量 。 尽 管 这 里 作废 的 规模 大 ， 幸 运 的 是 ， 在 真正 的 应 用 中 这 类 写 很 少 发 生 。 
最 后 ， 几 个 进程 作为 消费 者 的 例子 包括 网 格 分 区 的 角 元 素 或 基于 树 的 同步 所 使 用 的 标志 。 产 生 的 作废 规模 为 几 
个 ， 它 可 能 《也 可 能 不 ) 随 处理 器 的 数量 增长 而 扩展 《在 这 两 个 例子 中 不 增长 )。 
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作废 〈 一 个 发 给 读 出 者 ， 另 一 个 发 给 前 一 个 写 人 者 )。 如 果 存 在 伪 共 享 ， 所 有 的 共享 者 都 要 
写 同 一 个 块 ， 每 次 只 需要 发 出 一 个 作废 。 产 生 作废 的 另 一 种 情况 是 直方 图 的 累加 ， 它 是 通过 
一 种 树 形 结构 的 方式 进行 的 ， 通 常 每 次 需要 发 出 少量 的 作废 。 很 显然 ， 对 多 个 共享 者 发 出 作 
废 的 情况 并 不 常见 。 在 Radix 情况 下 ， 增 大 问题 的 规模 不 改变 两 个 阶段 中 的 作废 规模 (RE 
可 能 改变 两 个 阶段 中 的 相对 作废 频率 ) ， 而 增加 处 理 器 的 数目 会 增加 作废 规模 ， 但 也 仅 限 于 
直方 图 累加 阶段 中 一 些 不 常用 到 的 部 分 。 占 主导 地 位 的 作废 规模 还 是 0 和 1。 

Ocean 中 的 规则 网 格 计算 产生 的 近邻 “生产 者 -消费 者 ”通信 模式 使 得 在 大 多 数 情况 下 只 
需要 对 0 个 或 1 个 进程 发 出 作废 (在 分 区 边界 处 )。 在 多 重 网 格 方程 求解 器 的 分 区 边界 处 ， 
更 经 常 碰 到 的 是 作废 两 个 或 3 个 共享 者 的 情况 。 这 并 不 随 问题 规模 或 处 理 器 数目 的 增加 而 上 
升 。 在 多 重 网 格 层次 结构 的 最 高 屋 上 ， 几 个 处 理 器 的 分 区 的 边界 元 素 可 能 会 落 到 同一 个 块 ， 
导致 作废 4 或 5 个 共享 者 的 情况 。 还 有 一 些 呈 现 迁 移 共享 模式 (一 个 作废 ) 的 全 局 累加 器 变 
量 和 少数 儿 个 极 不 常用 的 单 生产 者 多 消费 者 模式 的 全 局 变量 (但 不 是 同步 变量 )。 

Raytrace 程序 中 主要 的 数据 结构 是 场景 数据 ， 它 是 只 读 的 。 可 读 写 的 数据 由 图 像 和 任务 
队列 组 成 。 每 帧 中 ， 图 像 的 每 个 字 仅 由 一 个 处 理 器 写 一 次 ， 如 果 由 同一 个 处 理 器 负责 写 下 一 
WAT MER 〈 通 常 是 这 种 情况 )， 就 不 需要 发 送 作废 ; 如 果 下 一 帧 由 不 同 的 处 理 器 写 ， 就 
需要 发 送 一 个 作废 。 对 于 任务 窃取 或 存在 写 - 写 伪 共享 时 ， 也 是 如 此 。 任 务 队列 会 导致 前 面 
讨论 过 的 不 规则 的 读 写 访问 模式 ， 使 得 作废 规模 在 一 个 很 大 的 范围 内 分 布 ， 但 大 多 数 作废 规 
模 都 不 大 (因此 ， 这 种 情况 下 沿 轴 ， 只 有 很 少 的 非 零 作废 )。 这 里 也 有 一 些 不 常用 的 单 生 
产 者 -多 消费 者 的 可 写 全 局 变量 。 

在 Bames-Hut 应 用 程序 中 ， 重 要 的 数据 是 星体 和 单元 的 位 置 、 用 来 连接 树 的 指针 和 一 些 
表示 能 量 值 的 全 局 变量 。 位 置 数据 属于 “生产 者 -消费 者 ”类 型 ， 一 个 给 定 星体 的 位 置 在 力 
计算 (遍历 树 ) 阶段 通常 被 一 个 或 几 个 处 理 器 读 。 一 个 单元 (质量 中 心 ) 的 位 置 会 被 很 多 进 
程 读 ， 越 靠近 根 节 点 读 进程 数 越 多 ， 根 节点 被 所 有 进程 读 。 在 引力 计算 之 后 的 更 新 和 树 构造 
阶段 ， 这 类 数据 所 在 的 处 理 器 对 数据 的 写 人 导致 相当 大 范围 的 作废 。 根 节点 和 较 高 层 单元 负 
责 向 所 有 的 处 理 器 发 送 作废 ， 但 这 样 的 机 率 是 很 小 的 。 树 指针 的 行为 与 质心 单元 类 似 。 在 构 
造 树 的 阶段 对 一 个 指针 的 第 一 次 写 ， 要 使 在 前 一 个 力 计算 阶段 中 读 该 指针 的 那些 处 理 器 的 高 
速 缓存 副本 作废 ， 以 后 的 写 操作 也 要 使 在 构造 树 阶段 读 指针 的 处 理 器 中 的 副本 无 效 ， 作 废 规 
模 不 规则 但 大 多 数 处 理 器 数 不 大 。 当 处 理 器 数目 增加 时 ， 由 于 一 个 给 定 的 数据 可 能 被 更 多 的 
处 理 器 读 ， 作 废 规模 的 分 布 右 移 ， 但 移动 很 慢 并 且 大 部 分 作废 规模 还 是 很 小 。 当 星体 数目 增 
加 时 则 会 观察 到 相反 的 效果 (也 很 缓慢 )。 

最 后 ，Radiosity 应 用 程序 对 不 同类 型 的 数据 ， 包 括 场景 描述 数据 ( 片 和 单元 ) 和 任务 队 
列 ， 采 用 十 分 不 规则 的 访问 模式 。 这 就 导致 宽 范围 的 作废 模式 分 布 ， 但 即使 在 这 种 情况 下 ， 
出 现 频率 最 高 的 不 过 是 0~ 2 个 作废 。 许 多 对 场景 数据 和 少数 几 个 计数 器 的 访问 都 属于 “ 迁 
移 ” 类 型 ， 还 有 少数 几 对 单 生产 者 -多 消费 者 的 全 局 变量 。 

经 验 数据 和 分 类 框架 表明 ， 在 大 多 数 情况 下 作废 规模 都 比较 小 。 再 加 上 通常 把 并 行 处 理 
机 用 作 多 道 程序 的 计算 服务 器 ， 服 务 于 多 个 串 行 或 小 规模 并 行 的 应 用 程序 ， 这 也 进一步 限制 
了 共享 者 的 数量 (进程 迁移 通常 导致 作废 规模 为 1)。 经 验 表明 ， 导 致 大 量 作废 的 共享 模式 
在 程序 执行 时 出 现 的 机 率 很 小 。 一 个 可 能 的 例外 是 高 速 竞 争 的 同步 变量 ， 我 们 将 看 到 ， 通 党 
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会 用 软件 或 硬件 对 它们 进行 特殊 处 理 。 这 些 结果 除了 验证 了 基于 目录 方案 的 有 效 性 和 它 在 性 
能 可 扩展 方面 的 潜力 外 ， 还 表明 有 限 指针 的 目录 表示 法 会 很 有 效 ， 因 为 发 生 溢 出 的 可 能 性 很 小 。 


8.3.2 本 地 和 远程 通信 流量 


具有 分 布 式 存储 器 的 系统 一 个 主要 的 特性 是 因 高 速 缓存 扑 空 引起 的 通信 量 的 多 少 ， 或 者 
说 协议 动作 限制 在 节点 内 (本 地 ) 还 是 外 向 到 互连网 络 上 (远程 )。 对 于 给 定 的 处 理 器 数目 
和 机 器 的 组 织 结构 ， 本 地 流量 的 比例 取决 于 问题 的 规模 。 但 是 ， 既 使 在 问题 规模 国定 时 ， 
( 即 在 PC 伸缩 下 )， 研 究 流量 及 其 分 布 如 何 随 处 理 器 数目 变化 也 是 一 件 很 有 意义 的 事 。 图 
8-10 显 示 了 对 于 缺 省 问题 规模 研究 得 到 的 结果 ， 其 中 将 远程 流量 分 成 了 几 类 ， 例 如 共享 A 
共享 或 伪 共 享 )、 容 量 型 扑 空 、 冷 启动 扑 空 、 回 写 和 额外 开销 。 在 8.3.2 节 和 8.3.3 节 中 我 
们 用 的 都 是 MEST 协议 ， 而 非 MST 协议 。 额 外 开销 包括 网 络 发 送 每 个 数据 块 时 必 不 可 少 的 数 
据 头 和 与 协议 有 关 的 不 携带 任何 数据 的 流量 比如 作废 和 应 答 。 协 议 流量 的 成 分 不 同 于 基于 总 
线 的 机 器 ， 在 这 里 每 一 个 点 对 点 的 作废 都 消耗 流量 ,确认 也 给 互连网 络 带 来 流量 。 对 不 同 的 
应 用 ， 我 们 用 每 个 浮 点 运算 的 字 节 数 或 每 条 指令 的 字 节 数 来 表示 流量 。 

我 们 可 以 看 出 ， 当 处 理 器 数目 增加 时 ， 本 地 流量 和 与 容量 相关 的 远程 流量 趋 于 降低 ， 这 
是 因为 处 理 器 的 工作 集 变 小 了 ， 由 本 地 而 不 是 远程 满足 的 冷 扑 空 也 减少 了 。 但 是 ， 与 共享 相 
关 流量 却 如 我 们 所 预料 的 增加 了 。 在 小 工作 集 的 应 用 中 ， 如 Barnes-Hut, LU 和 Radiosity， 容 
量 相关 流量 的 比例 非常 少 。 在 Bames-Hut 和 Raytrace 这 样 非 规则 的 应 用 程序 中 ， 容 量 相关 的 
流量 大 都 是 远程 的 ， 而 且 处 理 器 数目 越 多 越 是 这 样 ， 因 为 将 数据 以 页 为 粒度 分 布 使 得 容量 扑 
空 在 本 地 得 到 满足 并 不 容易 。 对 于 Ocean 这 样 的 程序 ， 使 用 大 高 速 缓存 ， 容 量 相关 的 流量 基 
本 上 是 均匀 分 布 的 ， 而 且 如 果 页 面 放置 恰当 (通过 4 维 数组 结构 可 以 很 容易 做 到 )， 流 量 几 
乎 全 是 本 地 的 。 但 如 果 共 享 页 按 循环 方式 放置 ，Ocean 中 大 多 数 本 地 容量 型 扑 空 变 成 远 
程 的 。 

当 我 们 为 了 捕捉 在 Ocean 和 Raytrace 中 的 工作 集 不 能 容纳 于 高 速 缓存 的 场景 而 采用 了 较 
小 的 高 速 缓存 时 ， 容 量 型 流量 变 得 比 以 前 多 得 多 。 因 为 数据 分 布 得 好 ，Ocean 中 的 大 多 数 流 
重 仍然 是 本 地 的 并 且 远 程 流量 与 处 理 器 数目 之 间 的 关系 趋势 不 变 。 不 好 的 页 面 分 布 会 使 网 络 
被 流量 所 充 塞 ,但 恰当 的 分 布 使 远程 流量 相当 的 低 。 然 而 ，Raytrace 中 的 容量 相关 的 流量 大 
多 是 远程 的 ， 与 共享 流量 占 主导 的 大 高 速 缓存 情况 相 比 ，Raytrace 中 主要 是 容量 相关 的 流量 ， 
以 至 于 改变 了 远程 流量 总 量 曲线 的 斜率 。 远 程 流量 仍然 随处 理 器 的 数量 增多 而 增长 ， 但 要 组 
慢 得 多 ， 因 为 工作 集 尺 寸 以 及 容量 型 扑 空 率 并 不 像 共享 扑 空 率 那样 依赖 于 处 理 器 的 数量 。 

当 一 次 扑 空 在 远程 被 满足 时 ， 数 据 是 从 宿主 节点 获得 还 是 用 另 一 个 消息 从 一 个 脏 节点 获 
得 ,除了 跟 扑 空 类 型 (是 共享 扑 空 ， 还 是 容量 /冲突 / 冷 启动 型 扑 空 ) 有 关外 ， 还 和 高 速 缓存 
的 大 小 有 关 。 高 速 缓存 容量 较 小 时 ， 脏 数据 可 能 会 被 蔡 换 并 回 写 ， 另 一 个 处 理 器 的 共享 扑 空 
就 可 能 在 宿主 节点 而 不 是 在 以 前 的 脏 节点 被 满足 。 对 于 像 Ocean 这 样 的 程序 ， 数 据 可 以 很 容 
易 地 放 到 它 所 在 宿主 节点 的 存储 器 中 ( 即 为 了 局 部 性 适当 地 分 布 )， 通常 只 有 那个 节点 对 它 
进行 写 操作 ， 所 以 即使 数据 是 “及 ”的 ， 它 也 是 在 宿主 节点 本 身 的 高 速 缓存 中 。 这 种 情况 的 
适用 范围 取决 于 应 用 的 数据 访问 方式 、 存 储 器 中 数据 分 配 的 粒度 以 及 程序 是 否 确实 恰当 地 分 
布 了 数据 等 。 
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8.3.3 高 速 缓存 块 尺 寸 的 影响 


高 速 缓存 块 的 大 小 对 扑 空 率 和 总 线 流量 的 影响 我 们 在 第 $ 章 已 经 讨论 过 了 ， 至 少 对 那些 
最 多 16 个 处 理 器 的 机 器 而 言 。 超 过 16 个 处 理 器 时 扑 空 率 自然 增长 ， 第 4 章 所 讨论 的 问题 规 
模 、 处 理 器 数量 和 块 尺寸 的 相互 作用 产生 的 阐 值 效应 是 个 例外 。 本 节 将 讨论 块 尺寸 对 具有 分 
布 式 存储 器 的 机 器 中 本 地 和 远程 流量 成 分 的 影响 。 

图 8-11 显示 了 在 32 处 理 器 每 个 处 理 器 1 MB 高 速 缓存 的 机 器 上 执行 应 用 程序 时 ， 流 量 
随 块 尺寸 的 变化 情况 。 在 Bames-Hut 中 ， 总 流量 在 块 尺寸 较 小 时 随 块 的 变 大 而 缓慢 地 增加 ， 
当 块 大 于 64 字 节 后 ， 由 于 伪 共 享 总 流量 快速 增长 。 但 是 ， 总 流量 比较 小 ， 因 为 通过 网 络 的 
每 个 块 的 额外 开销 是 固定 的 (作废 和 确认 的 代价 也 是 如 此 )}， 当 块 尺寸 增 大 到 能 产生 空间 局 
部 性 〈 即 如 果 较 大 的 块 减少 了 传输 的 块 的 数量 ) 时 ， 额 外 开销 成 分 会 变 小 。LU 程序 有 完美 
的 空间 局 部 性 ， 当 块 增 大 时 数据 流量 保持 不 变 。 额 外 开销 降低 ， 所 以 随 块 尺寸 的 增加 ， 总 流 
量 实际 上 是 减少 了 。 在 Raytrace 程序 中 ， 远 程 的 容量 型 流量 空间 局 部 性 差 ， 所 以 流量 随 块 的 
增 大 而 迅速 增长 。 在 Bames-Hut 和 Raytrace 中 ， 真 共享 的 空间 局 部 性 也 不 好 ，Ocean 中 面向 列 
的 分 区 的 边界 处 也 是 这 样 (在 面向 行 的 分 区 边界 处 ， 即 使 远程 数据 空间 局 部 性 也 相当 好 )。 
最 后 ，Radix 对 应 的 图 很 清楚 地 表明 ， 当 块 尺寸 超 过 一 定 阔 值 时 〈 此 时 大 约 是 128 字 节 或 256 
字 节 ) ， 伪 共享 对 远程 流量 的 影响 明显 。 使 用 较 小 的 高 速 缓存 的 结果 显示 ， 容 量 型 扑 空 正 如 
所 预料 的 那样 起 了 主导 作用 。 


8.4 目录 协议 设计 上 的 挑战 性 问题 


设计 一 个 正确 高 效 的 目录 协议 涉及 许多 比 我 们 已 经 讨论 过 的 简单 的 结构 更 复杂 、 更 精妙 
的 问题 ， 这 正 像 设计 一 个 基于 总 线 的 协议 要 比 单纯 地 选择 状态 数 、 为 稳定 状态 画 状 态 转换 图 
要 复杂 得 多 一 样 。 我 们 必须 去 处 理 诸如 状态 转换 的 非 原子 性 、 事 务 拆 分 迎 总 线 、 串 行 化 和 排 
次 序 、 死 锁 、 活 锁 和 饥饿 等 问题 。 我 们 已 经 理解 了 目录 协议 的 基本 要 点 ， 准 备 好 研究 这 些 问 
题 。 本 市 将 讨论 在 正确 地 实现 高 性 能 目录 协议 时 所 遇 到 的 新 的 协议 级 设计 的 挑战 性 问题 ， 认 
识 应 付 这 些 挑战 的 一 般 性 技术 。 在 下 两 节 ， 我 们 将 结合 基于 存储 器 和 基于 高 速 缓存 的 目录 协 
议 这 两 个 案例 分 析 ， 对 这 些 技 术 进 行 专门 研究 。 

和 任何 设计 一 样 ， 可 扩展 一 致 性 协议 设计 的 挑战 性 在 于 ， 在 保证 正确 性 的 基础 上 提供 高 
性 能 并 能 包容 由 此 带 来 的 复杂 性 。 我 们 将 依次 考察 性 能 和 正确 性 ， 并 将 注意 力 集中 于 在 基于 
总 线 和 非 高 速 缓存 系统 中 所 没有 遇 到 过 的 问题 。 因 为 性 能 优化 常常 导致 并 发 性 的 增加 ,使 正 
确 性 问题 复杂 化 ， 我 们 就 先 对 它们 进行 研究 。 


8.4.1 性 能 


作为 高 速 缓存 一 致 性 协议 基础 的 网 络 事务 与 显 式 消息 传递 中 用 到 的 网 络 事务 有 两 点 不 
同 。 第 一 ， 它 们 是 由 系统 ， 特 别 是 通信 辅助 部 件 或 控制 器 ， 根 据 协 议 自动 产生 的 ; 第 二 ， 每 
个 事务 本 身 都 很 小 ， 携 带 一 个 请 求 、 一 个 确认 或 是 一 个 数据 块 加 上 几 个 控制 位 。 但是， 前 几 
章 中 提出 的 网 络 事务 的 基本 性 能 模型 在 这 里 仍然 适用 。 一 个 典型 的 网 络 事务 在 它 的 源 端 处 理 
器 产生 一 些 额外 开销 〈 在 向 外 和 向 内 时 刀 历 高 速 缓存 层次 结构 ); 占用 端点 的 通信 辅助 部 件 
完成 某 些 工作 (典型 地 查找 状态 ， 生 成 请 求 或 介入 高 速 缓 存 的 操作 ); 由 于 传输 延迟 、 网 络 
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享 节点 处 的 处 理 器 都 不 直接 参与 网 络 事务 (虽然 其 他 节点 也 会 由 于 竞争 受到 影响 )。 

用 我 们 在 前 面 介绍 过 的 多 处 理 器 系统 层次 的 概念 来 理解 性 能 是 很 有 用 的 〈 见 图 8-2)。 系 
统 的 协议 层 使 用 通信 抽象 提供 的 网 络 事务 实现 编程 模型 。 所 以 ， 协 议 层 对 单个 网 络 事务 的 基 
本 通信 代价 如 传输 时 延 、 网 络 带宽 、 通 信和 辅助 部 件 占用 度 和 处 理 器 额外 开销 等 没有 什么 调节 
作用 ,但 它 能 决定 在 不 同 的 环境 下 实现 读 写 这 样 的 存储 器 操作 所 需 的 网 络 事务 的 数量 和 结 
构 。 一 般 来 说 ， 有 三 类 技术 可 以 提高 性 能 : 1) 协议 优化 ，2) 机 器 高 层 组 织 结构 ，3) 改善 
基本 通信 参数 的 专用 硬件 。 前 两 种 技术 都 对 通信 体系 结构 假定 了 一 组 固定 的 性 能 参数 ， 在 本 
节 对 它们 进行 讨论 。 改 变 基 本 性 能 参数 的 影响 将 在 8.7 节 中 考察 。 

1. 协议 优化 

协议 级 有 两 个 主要 的 性 能 指标 : 第 一 个 是 减少 每 个 存储 器 操作 产生 的 网 络 事务 量 ， 这 会 
相应 地 减少 对 网 络 和 通信 辅助 部 件 的 带宽 需求 ; 另 一 个 是 减少 处 理 器 关键 路 径 上 的 操作 ( 特 
别 是 网 络 事务 ) 的 数量 ， 从 而 降低 非 竞争 时 延 。 后 者 可 以 通过 尽 可 能 地 重 玲 存储 器 操作 所 需 
要 的 事务 来 实现 。 在 某 种 程度 上 ， 协 议 设计 也 可 以 有 助 于 减少 每 个 事务 对 端点 通信 辅助 部 件 
的 占用 ， 特 别 当 通信 辅助 部 件 是 可 编程 的 ， 这 既 减 少 了 非 竞争 时 延 ， 又 减少 了 端点 的 争 用 。 
流量 、 时 延 、 占 用 度 等 特征 不 应 该 随 使 用 的 处 理 节点 数量 的 增加 而 快速 上 升 ， 并 且 应 该 在 热 
点 这 样 病态 条 件 下 表现 平稳 。 

我 们 已 经 知道 ， 是 录 信 息 的 存放 方式 决定 了 存储 器 操作 的 关键 路 径 上 网 络 事务 的 数量 。 
例如 ， 基 于 存储 器 的 协议 可 以 从 宿主 节点 以 重 豆 方式 发 出 作废 ， 而 在 基于 高 速 缓存 的 协议 
中 ， 必 须 通 过 网 络 事务 遍历 分 布 式 链表 才能 了 解 共享 者 的 标识 。 不 过 ， 即 使 在 同一 类 协议 
中 ， 也 有 许多 改善 性 能 的 方法 。 

考虑 在 一 个 扁平 的 、 基 于 存储 器 的 目录 协议 中 对 一 个 远程 分 配 块 的 读 扑 空 ， 该 块 在 第 三 
个 节点 (拥有 者 ) 中 是 脏 的 。 图 8-12a 显示 了 以 前 讲 过 的 那 种 严格 的 请 求 -响应 方案 。 宿 主 节 
点 响应 请 求 者 的 消息 中 包含 了 拥有 者 节点 的 标识 。 然 后 请 求 者 再 向 拥有 者 发 出 请 求 ， 拥 有 者 





3: F 
1: 请 求 2 :干涉 
on CR O © © 
2:6 
4: 响应 3: 响应 
4b: 响应 
a) 严格 的 请 求 - 响应 b) 干涉 转发 





c) 回答 转发 


图 8-12 在 扁平 的 、 基 于 存储 器 的 协议 中 通过 转发 降低 时 延 。 所 示例 子 是 一 个 对 处 于 排他 态 的 块 的 读 请 求 。 
LL 代表 本 地 节点 或 请 求 节点 ，H 代表 决 的 宿主 节点 ，R 代表 拥有 块 的 排他 副本 的 远程 拥有 者 节点 
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用 数据 响应 (拥有 者 还 向 宿主 节点 发 出 一 个 “修正 ”消息 ， 后 者 用 数据 更 新 存储 器 并 把 目录 
状态 置 为 共享 的 。) 

这 种 方案 读 操 作 时 关键 路 径 上 有 四 个 网 络 事务 ， 总 共有 5 个 事务 。 一 种 减少 事务 数量 的 
方法 叫做 干涉 转发 。 使 用 这 种 方法 时 ， 宿 主 节点 并 不 响应 请 求 者 ， 而 是 简单 地 把 请 求 作为 一 
个 干涉 事务 转发 给 拥有 者 ， 要 求 它 从 它 的 高 速 缓存 中 取出 这 个 块 。 干 涉 和 请 求 相 似 ， 只 是 它 
是 作为 对 请 求 的 反应 而 发 出 ， 并 且 它 指向 高 速 缓 存 而 不 是 存储 器 (在 这 个 意义 上 ， 它 与 作废 
相似 ， 只 是 还 要 从 高 速 缓 存 取得 数据 )。 拥 有 者 会 把 数据 或 确认 (如 果 数 据 块 处 在 排他 态 而 
不 是 修改 态 ) 发 回 给 宿主 节点 ， 然 后 ， 宿 主 节点 更 改 其 目录 状态 并 用 数据 应 答 请 求 者 〈 兄 图 
8-12b)。 干 涉 转发 将 事务 总 数 降 为 4 个 ， 降 低 了 带宽 需求 ， 但 所 有 4 个 事务 仍然 都 在 关键 路 
径 上 。 一 个 更 有 进取 性 的 方法 是 应 答 转 发 ( 见 图 8-12c)。 宿 主 节点 也 把 干涉 消息 转发 到 拥有 
者 节点 , 但 是 该 干涉 消息 包含 请 求 者 的 标识 ， 拥 有 者 直接 用 数据 应 答 请 求 者 。 拥 有 者 也 向 宿 
主 节点 发 出 修正 消息 ,使 存储 器 和 目录 得 到 更 新 ， 但 这 个 消息 并 不 在 读 扑 空 的 关键 路 径 上 。 
这 种 方法 保持 事务 总 数 为 4 个 ， 但 将 关键 路 径 上 的 事务 数 减 少 为 3 个 (请求 二 干涉 一 对 请 求 
者 的 应 答 )， 所 以 ， 它 被 称 为 3- 消息 扑 空 。 注 意 ， 采 用 了 干涉 转发 和 应 答 转 发 ， 协 议 不 再 
是 严格 的 请 求 -响应 协议 了 ， 因 为 对 宿主 节点 的 请 求 产生 了 另外 一 个 对 拥有 者 节点 的 请 求 ， 
拥有 者 接着 生成 一 个 响应 。 后 面 将 会 看 到 ， 这 使 死 锁 的 避免 更 加 复杂 。 

除了 时 延 和 流量 特征 仅仅 居中 之 外 ,干涉 转发 还 有 一 个 缺点 ， 由 于 对 于 涉 的 响应 是 发 
给 宿主 节点 的 ， 所 以 必须 由 宿主 而 不 是 请 求 者 来 记录 未 决 的 干涉 请 求 。 因 为 引起 干涉 的 请 求 
可 能 来 自任 一 节点 (假设 有 PP 个 节点 )， 宿 主 节点 就 必须 能 够 同时 跟踪 4* P 个 未 决 的 干涉 ， 
这 里 是 每 个 节点 允许 的 未 决 请 求 的 数目 。 而 请 求 者 只 需 跟 踪 最 多 个 未 决 的 干涉 。 应 答 
转发 不 需要 宿主 节点 对 未 决 请 求 进 行 跟踪 ， 因 而 具有 更 好 的 性 能 特性 ， 所 以 系统 都 喜欢 采用 
这 种 方法 。 在 基于 高 速 缓存 的 方案 中 也 可 以 使 用 类 似 的 转发 技术 来 降低 时 延 ， 不 过 都 失去 了 
严格 的 “请 求 -应 答 ” 的 简单 性 ( 见 图 8-13)。 

除 转发 法 外 ， 还 有 其 他 一 些 降 低 时 延 的 协议 优化 方法 ， 包 括 通过 推测 执行 将 事务 和 活动 
重合 。 例 如 ， 当 请 求 到 达 宿 主 节点 时 ， 通 信 辅 助 部 件 可 以 一 边 从 存储 器 读数 据 ， 一 边 查 看 目 
录 ， 因 为 大 多 数 情况 下 数据 在 宿主 节点 都 处 于 “干净 ”的 状态 。 如 果 目 录 显 示 数 据 的 有 效 副 
本 在 其 他 节点 ， 那 么 从 存储 器 的 访问 就 浪费 了 ， 必 须 被 忽略 。 最 后 ， 协 议 可 能 会 自动 地 发 现 
标准 的 基于 作废 的 协议 不 能 理想 地 适应 常用 共享 模式 并 在 运行 时 对 自己 进行 调节 ， 以 便 更 好 
地 适应 这 些 模式 (见习 题 8.9 和 习题 8.10)。 

2. 机 器 的 高 层 组 织 结构 

机 器 的 组 织 结构 也 可 以 同 协议 相辅相成 改进 性 能 。 例 如 在 一 个 节点 内 部 采用 大 的 三 级 组 
存 可 以 减少 由 于 人 为 通信 产生 的 协议 事务 量 。 对 于 固定 的 处 理 器 总 数量 ， 在 两 级 组 织 结构 中 
使 用 多 处 理 器 而 非 单 处 理 器 也 是 很 有 用 的 。 

两 级 组 织 结构 在 成 本 和 性 能 方面 都 有 潜在 的 优势 。 在 成 本 方面 ， 每 节点 固定 开销 可 以 由 
节点 内 各 个 处 理 器 分 摊 ， 并 且 我 们 有 可 能 使 用 现成 的 SMP 系统 。 在 性 能 方面 ， 优 势 来 自 降 
低 涉及 目录 协议 、 产 生 跨 节点 网 络 事务 的 访问 数目 的 共享 特性 。 如 果 一 个 处 理 器 把 一 块 数据 
放 人 它 的 高 速 缓存 ， 同 一 节点 中 另 一 个 处 理 器 在 访问 此 块 〈 对 于 同一 个 字 或 不 同 的 字 ) ha 
时 ， 就 可 以 利用 高 速 缓存 对 高 速 缓 存 共享 的 本 地 协议 ， 更 快 地 得 到 满足 ;如果 该 块 是 远程 分 
本 的 话 ， 效 果 尤 其 明显 。 多 个 请 求 还 可 能 被 合并 :如果 一 个 处 理 器 对 菜 块 的 请 求 尚 待 完成 ， 
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图 8-13 在 扁平 的 、 基 于 高 速 缓存 的 协议 中 降低 时 延 。 在 这 个 写 操 作 场 景 中 ， 宿 主 节点 H 向 共享 
节点 S; 发 出 作废 。a) 是 严格 的 请 求 - 响应 方式 ， 每 个 节点 在 其 确认 〈 响 应) 中 包含 链 
表 中 下 一 个 共享 者 的 标识 ， 宿 主 节点 向 那个 共享 者 发 出 作废 。 在 这 个 作废 动作 序列 中 的 
事务 总 数 为 2*， 这 里 * 为 共享 者 的 数量 ， 所 有 事务 均 在 关键 路 径 上 。b) 中 每 一 个 节点 
都 把 作废 转 发 给 下 一 个 共享 者 ， 同 时 把 确认 发 给 宿主 节点 。: 事 务 总 数 仍然 是 2*， 但 只 有 
s +1 次 在 关键 路 径 上 。c) 中 只 有 链表 中 最 后 一 个 共享 者 向 宿主 节点 发 出 一 个 确认 ， 告 
诉 宿主 节点 操作 序列 已 经 完成 。 事 务 总 数 为 ;+ 1。b) 和 都 不 是 严格 的 请 求 - 响应 方式 





在 同一 个 SMP 节 点 中 的 男 一 个 节点 对 此 块 的 请 求 就 可 以 被 合并 ,从 对 第 一 个 处 理 器 的 应 管 
中 得 到 所 需 数据 ， 这 就 减少 了 时 延 、 网 络 事务 和 潜在 的 热点 竞争 。 这 些 优点 与 全 层次 结构 方 
法 和 共享 高 速 缓存 的 优点 类 似 。 事 实 上 ， 在 SMP 中 ,各 处 理 器 甚至 可 以 在 某 个 层次 上 共享 高 
速 缓 存 ， 在 这 种 情况 下 ， 第 6 章 讨论 的 共享 高 速 缓存 的 折 中 方法 都 适用 。 节 点 数 少 了 ， 本 地 的 
主 存储 器 也 增 大 了 。 最 后 ， 成 本 和 性 能 特性 还 可 以 用 一 种 适当 的 层次 封装 技术 进一步 改善 。 
当然 ， 两 级 共享 层次 结构 的 优势 能 在 多 大 程度 上 被 利用 取决 于 下 列 一 些 因素 : 共享 的 
局 部 性 、 应 用 的 数据 访问 模式 、 在 层次 结构 中 进程 与 处 理 器 的 映射 以 及 节点 内 通信 和 节点 间 
通信 代价 的 差异 等 。 例 如 ， 在 一 段 计算 过 程 中 存在 很 多 物理 上 本 地 只 读 共享 的 应 用 ， 比 如 
Bames-Hut 星系 模拟 ， 如 果 开 始 时 扑 空 率 很 高 ， 就 可 以 从 高 速 缓存 到 高 速 缓 存 的 共享 中 获得 
显著 的 好 处 。 像 Ocean 那样 呈现 近邻 共享 的 应 用 程序 ， 如 果 进 程 和 节点 有 较 好 的 映射 关系 ， 
那么 它们 大 部 分 的 访问 都 可 以 在 多 处 理 器 节点 内 部 得 到 满足 。 然 而 ， 尽 管 某 些 进程 的 所 有 访 
问 都 可 以 在 其 所 在 节点 内 部 满足 ， 但 另外 一 些 进 程 却 具 有 沿 至 少 -一 个 边界 的 访问 ， 必 须 远程 
才能 满足 ， 这 就 造成 了 负载 的 不 均衡 ， 以 至 于 失去 层次 结构 的 好 处 〈 性 能 将 受到 远程 通信 最 
多 的 那个 处 理 器 的 限制 )。 在 全 部 对 全 部 的 互联 通信 模型 中 ， 固 有 通信 的 减少 是 很 有 限 的 。 
在 一 个 有 p 个 处 理 器 的 系统 中 ， 一 个 处 理 器 现在 需要 同 -1 个 本 地 处 理 器 和 p -个 远 地 
处 理 器 进行 通信 ， 而 不 是 与 p - 1 个 远 地 处 理 器 进行 通信 ( 是 每 个 节点 的 处 理 回 数 )， 节 点 
间 通 信 最 多 节省 (p-k) /(p - 1)。 最 后 值得 一 提 的 是 ， 几 个 进程 共享 一 个 主 存 部 件 ， 使 
得 以 页 粒度 在 处 理 器 之 间 恰 当地 分 布 数据 变 得 更 加 容易 。 对 这 些 权衡 和 程序 特性 已 有 定量 的 
BFE (Weber 1993; Erlichson et al. 1995)。 在 我 们 的 两 台 案例 分 析 的 机 器 中 ，Sequent NUMA-Q 
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机 的 节点 使 用 的 是 基于 总 线 的 、 高 速 缓存 一 致 的 、 有 4 个 处 理 器 的 SMP 系统 ; SGI 的 Origin 
机 则 采用 了 一 种 有 趣 的 方案 : 两 个 处 理 器 为 了 分 摊 成 本 而 共享 一 条 总 线 和 一 个 存储 器 (及 一 
块 板 ) ， 但 它们 并 没有 用 总 线 侦 听 协 议 来 保持 一 致 性 ， 而 是 由 一 个 单一 的 目录 协议 来 保持 机 
器 中 所 有 高 速 缓存 的 一 致 。 

与 使 用 单 处 理 器 节点 相 比 ， 使 用 多 处 理 器 节点 主要 的 潜在 缺点 是 一 个 节点 内 部 的 通信 资 
源 被 多 个 处 理 器 共享 。 当 多 个 处 理 器 共享 一 条 总 线 、 一 个 通信 和 辅助 部 件 或 者 一 个 网 络 接口 
时 ， 它 们 一 方面 分 推 了 成 本 ， 另 一 个 方面 也 不 得 不 相互 竞争 带宽 。 如 果 它 们 对 带宽 的 需求 没 
有 因 通 信 模 式 的 本 地 性 而 减少 很 多 的 话 ， 这 种 竞争 就 会 影响 到 性 能 。 一 个 解决 的 办 法 就 是 当 
节点 中 新 增 处 理 器 时 也 相应 地 增加 资源 的 吞吐 量 ， 但 这 又 牺牲 了 成 本 上 的 优势 。 在 一 个 节点 
中 共享 一 条 总 线 有 一 些 特别 的 缺点 。 首 先 ， 如 果 总 线 必 须 楼 纳 几 个 处 理 器 的 话 ， 它 就 会 变 长 
以 至 于 在 一 块 底板 或 其 他 的 封装 单元 中 放 不 下 ， 这 会 使 总 线 速度 变 慢 ， 从 而 增加 了 本 地 或 远 
程 数 据 的 时 延 。 其 次 ， 如 果 总 线 在 节点 内 支持 侦 听 一 致 性 协议 ， 那 么 一 个 必须 在 远程 得 到 满 
足 的 请 求 就 必须 等 待 本 地 侦 听 的 结果 ， 然 后 才能 发 往 网 络 ， 就 会 引起 不 必要 的 延迟 。 第 三 ， 
如 果 在 远程 节点 上 也 采用 侦 听 总 线 ， 许 多 确实 要 去 远 端 的 访问 将 要 求 本 地 总 线 和 远程 总 线 上 
的 侦 听 和 数据 传输 ， 就 会 增加 时 延 ， 降 低 有 效 的 数据 访问 带宽 。 最 后 ， 侦 听 要 访问 第 二 级 高 
速 缓存 的 标志 ， 如 果 侦 听 不 能 经 常 成 功 实现 高 速 缓存 之 间 的 共享 的 话 ， 就 可 能 导致 与 处 理 器 的 
访问 之 间 不 必要 的 竞争 。 尽 管 如 此 ,还 是 有 一 些 基于 目录 的 系统 采用 了 基于 侦 听 一 致 性 协议 的 
多 处 理 器 节点 (Lenoski et al. 1993; Lovett and Clapp 1996; Clark and Alnes 1996; Weber et al. 
1997), 

改进 协议 性 能 的 最 后 一 个 方法 ， 即 改善 通信 体系 结构 的 性 能 参数 ， 将 在 8.7 节 讨 论 。 


8.4.2 正确 性 


间 基 于 侦 听 的 系统 类 似 ， 正确 性 的 考虑 可 以 划分 为 三 类 。 第 一 ， 协 议 必须 能 够 保证 在 
需要 时 ， 相 关 的 数据 块 能 被 作废 /更 新 和 读 取 ， 并 发 生 必 要 的 状态 转换 。 可 以 假定 在 所 有 人 情 
沈 下 这 种 情况 总 是 发 生 ， 不 对 它 作 进一步 的 考虑 。 第 二 ， 一 致 性 和 同一 性 模型 所 定义 的 串 行 
和 次 序 关系 必须 被 保持 。 第 三 ， 协 议 及 其 实现 必须 避免 死 锁 和 活 锁 ， 并 尽 可 能 避免 饥 饿 的 发 
生 。 可 扩展 协议 和 系统 的 某 些 方面 使 后 两 类 问题 的 复杂 性 超出 了 我 们 已 经 了 解 的 基于 总 线 的 
高 速 缓存 一 致 的 机 器 和 可 扩展 非 一 致 的 机 器 的 情况 。 存 在 两 个 基本 的 问题 。 首 先 ， 现 在 一 个 
块 可 以 有 多 个 高 速 缓存 副本 ,但 是 不 存在 一 个 能 看 到 所 有 相关 事务 并 对 它们 进行 上 串 行 化 的 部 
件 。 其 次 ， 由 于 有 大 量 的 处 理 器 ， 可 能 同时 有 许多 请 求 都 发 向 同一 个 节点 ， 使 得 第 7 章 中 谈 
到 过 的 输入 缓冲 的 问题 更 加 突出 。 系 统 的 高 时 延 使 这 些 问题 更 加 恶化 ， 促 使 我 们 去 挖掘 以 前 
提 到 过 的 那些 协议 优化 。 这 些 优化 允许 更 多 的 网 络 事务 同时 推进 ， 并 且 不 再 保持 严格 的 请 
求 - 响应 的 性 质 ， 使 正确 性 变 得 更 加 复杂 。 本 小 节 将 描述 在 正确 性 的 各 个 方面 新 出 现 的 主要 
问题 和 它们 的 一 般 解 决 方案 。 在 案例 分 析 的 协议 中 采用 的 特殊 解决 方案 将 在 后 面 的 几 小 节 中 
详细 讨论 。 

L 为 了 一 致 性 而 对 存储 器 单元 的 串 行 化 

回忆 一 下 一 致 性 的 写 串 行 化 。 一 个 给 定 的 处 理 器 不 仅 必须 能 够 从 对 一 个 给 定单 元 的 所 有 
操作 (至 少 是 所 有 写 操 作 和 处 理 器 本 身 的 读 操 作 ) 中 构造 出 一 个 串 行 的 次 序 ， 而 且 所 有 处 理 
此 必须 看 到 对 给 定单 元 的 写 操作 以 相同 的 次 序 发 生 。 
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我 们 需要 的 串 行 化 机 制 是 一 个 实体 ， 它 能 看 到 不 同 的 处 理 器 对 一 个 给 定单 元 的 存储 器 操 
E ( 即 不 是 完全 包含 在 处 理 节点 里 的 操作 ) 并 确定 它们 的 次 序 。 在 一 个 基于 总 线 的 系统 中 ， 
不 同 处 理 器 的 操作 是 按照 它们 的 请 求 出 现在 总 线 上 的 次 序 进行 串 行 化 的 。 在 一 个 不 对 共享 数 
据 做 高 速 缓存 的 分 布 式 系统 中 ， 完 成 同一 性 串 行 化 的 就 是 单元 所 在 的 主 存 储 器 。 例 如 ， 写 操 
作 到 达 存 储 器 的 次 序 ， 也 即 所 有 处 理 器 看 到 的 次 序 ， 读 操作 所 看 到 的 写 人 的 值 取决 于 读 到 达 
存储 器 的 时 刻 。 在 具有 一 致 的 高 速 缓存 的 分 布 式 系统 中 ， 宿 主 存储 器 也 是 决定 对 给 定单 元 操 
作 次 序 的 可 能 的 实体 ， 至 少 在 扁平 目录 方案 中 是 这 样 ， 因 为 所 有 相关 的 操作 都 要 先 到 达 这 
里 。 如 果 和 宿主 自身 可 以 满足 所 有 请 求 ， 它 就 只 需 按 先进 先 出 的 次 序 逐 个 对 它们 进行 处 理 ， 从 
而 确定 它们 的 次 序 。 然 而 当 有 多 个 副本 时 ， 一 个 操作 对 宿主 节点 可 见 并 不 一 定 意味 着 它 对 所 
有 处 理 器 可 见 。 可 以 很 容易 地 构造 一 个 场景 ， 使 处 理 器 所 看 到 的 对 一 个 单元 的 操作 次 序 与 请 
求 到 达 宿 主 节点 的 次 序 不 同 ， 或 者 使 不 同 处 理 器 看 到 的 操作 完成 的 次 序 不 同 。 

作为 一 个 简单 的 例子 ， 让 我 们 考虑 基于 更 新 的 协议 和 不 保证 相同 端点 之 间 点 对 点 事务 次 
序 的 网 络 。 如 果 对 一 个 共享 数据 的 两 个 写 请 求 以 某 种 次 序 到 达 宿 主 节点 ， 它 们 引起 的 更 新 可 
能 按 不 同 的 次 序 到 达 各 个 副本 。 另 外 一 个 例子 是 ， 在 基于 作废 的 协议 中 ， 假 定 两 个 节点 同时 
癌 一 个 在 脏 节 点 中 处 于 被 修改 状态 的 块 发 出 排他 读 请 求 。 在 严格 的 请 求 - 响应 协议 中 ， 宿 主 
节点 会 把 脏 节 点 的 标志 发 给 发 出 请 求 者 ， 由 后 者 再 向 脏 节 点 发 出 请 求 。 然 而 即使 在 一 个 保持 
点 对 点 次 序 的 网 络 中 ， 如 果 发 出 请 求 的 节点 不 是 一 个 ， 也 无 法 保证 请 求 到 达 脏 节点 的 次 序 与 
它们 到 达 宿 主 节 点 的 次 序 相同 。 那 么 在 这 种 情况 下 由 谁 来 对 全 局 一 致 的 串 行 化 负责 呢 ? 当 对 
一 个 块 的 多 个 操作 同时 进行 并 需要 不 同 节点 提供 服务 的 时 候 又 怎么 调度 呢 ? 

有 好 几 类 解决 方案 可 以 用 来 保证 对 一 个 单元 操作 的 串 行 化 ， 它 们 中 大 多 数 都 使 用 称 为 
性 状态 或 未 决 状态 的 额外 目录 状态 。 一 个 块 的 目录 状态 为 忙 表明 前 一 个 到 达 宿 主 的 针对 此 块 
的 请 求 还 正在 执行 ,没有 完成 。 当 一 个 请 求 到 达 宿 主 并 发 现 对 应 的 目录 状态 为 性 ， 就 可 以 通 
过 以 下 几 种 机 制 之 一 进行 串 行 化 。 

。 宿主 提供 缓冲 。 请 求 可 以 作为 未 决 请 求 在 宿主 处 缓冲 ， 直 到 正在 进行 的 对 该 块 的 前 
一 个 请 求 完成 ， 不 管 前 一 个 请 求 是 被 转发 给 脏 节点 ， 还 是 使 用 了 严格 的 请 求 - 响应 
协议 〈 当 然 ， 与 此 同时 宿主 必须 处 理 对 其 他 块 的 请 求 ) 。 这 个 方法 保证 按 请 求 到 达 宿 
主 的 先进 先 出 的 次 序 对 其 服务 ， 但 它 降 低 了 并 发 性 。 要 求 通知 宿主 写 操作 何 时 完成 ， 
或 更 一 般 地 ， 宿 主 对 于 写 操作 的 介 人 何 时 结束 。 最 后 ， 它 增加 了 宿主 的 输入 缓冲 溢 
出 的 危险 性 ， 因 为 缓冲 区 需要 保存 宿主 所 有 块 的 未 决 请 求 。 溢 出 时 的 一 个 策略 是 让 
输入 缓冲 溢出 到 主 存 ， 因 此 ， 只 要 有 足够 的 主 存 ， 它 提供 了 无 限 的 缓冲 ， 避 免 了 潜 
在 的 死 锁 问题 。 这 个 方案 被 用 在 MIT 的 Alewife 原型 机 中 (Agarwal et al. 1995)。 
请 求 者 提供 缓冲 区 。 未 决 的 请 求 不 是 缓冲 在 宿主 ， 而 是 由 请 求 者 自身 缓冲 ， 形 成 分 
布 式 的 未 决 请 求 的 链表 。 这 是 基于 高 速 缓 存 目录 方案 的 自然 延伸 ， 方 案 本 身 就 提供 
了 分 布 式 链表 支持 。 这 种 方法 被 用 于 SCI 协议 (Gustavson 1992; IEEE Computer Society 
1993)。 使 用 这 种 方案 ， 一 个 节点 需要 记录 的 未 决 请 求 数 比较 小 ， 并 且 完 全 由 本 地 节 
点 自己 去 管理 。 
否定 回答 (NACK) 并 重 试 。 当 目录 状态 是 忙 的 时 候 ， 宿 主 向 进入 的 请 求 发 出 否定 回 
答 〈 即 发 往 请 求 者 的 否定 回答 ) ， 而 不 是 将 它 缓冲 。 请 求 者 的 通信 辅助 部 件 稍 后 会 重 
新 发 出 请 求 ， 请 求 以 被 目录 接收 的 次 序 被 串 行 化 (被 否定 回答 的 请 求 并 不 进入 串 行 
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化 次 序 )。Origin2000 (Laudon and Lenoski 1997) 中 就 使 用 了 这 种 方法 。 

。 转发 给 脏 节点 。 如 果 因 为 前 一 个 请 求 已 经 被 转发 给 了 脏 节 点 而 使 目录 状态 为 忙 的 话 ， 
对 同一 块 的 后 续 请 求 不 在 宿主 缓冲 ， 也 不 被 否定 回答 ， 而 是 也 被 转发 给 脏 节点 ， 由 
此 决定 它们 的 串 行 化 。 因 此 ， 串 行 化 的 次 序 是 按 请 求 到 达 宿 主 节点 的 次 序 CRE 
宿主 中 是 干净 的 ) 或 由 它们 到 达 脏 节点 的 次 序 ( 当 块 处 于 “ 脏 ” 状 态 ) 来 确定 的 。 
如 果 在 一 个 请 求 被 转发 到 脏 节 点 之 前 ， 脏 节点 中 的 对 应 块 脱离 了 胜 状 态 〈 例 如 ， 因 
为 回 写 或 前 一 个 转发 的 请 求 的 处 理 所 致 )， 那 么 该 请 求 就 会 被 脏 节点 拒绝 并 被 重 试 。 
当 重 试 成 功 时 ， 请 求 在 宿主 或 脏 节 点 串 行 化 。 这 种 方法 被 用 于 Stanford 的 DASH 协议 
(Lenoski et al. 1990; Lenoski et al. 1993). 

不 幸 的 是 ， 当 分 布 式 网 络 中 存在 一 个 块 的 多 个 副本 时 ， 仅 仅 识别 一 个 串 行 化 实体 是 不 够 
的 。 问 题 在 于 宿主 节点 或 串 行 化 代理 可 能 知道 (或 被 告知 ) 它 参 与 的 请 求 处 理 何 时 结束 ， 但 
这 并 不 意味 着 请 求 相对 于 其 他 节点 也 已 经 结束 了 。 对 该 块 的 下 一 个 请 求 的 某 些 事务 可 能 在 前 
一 个 请 求 的 某 些 剩余 事务 之 前 到 达 其 他 节点 并 执行 。 在 8.5 节 和 8.6 节 的 案例 分 析 协 议 中 ， 
将 会 看 到 具体 的 例子 和 解决 方法 。 本 质 上 ， 这 些 例 子 说 明 ， 除 了 提供 针对 块 的 全 局 串 行 化 实 
体外 ， 每 一 个 节点 〈 比 如 请 求 者 ) 也 应 该 保持 各 个 块 的 局 部 串 行 次 序 ， 例 如 ， 不 应 该 把 进入 
的 事务 提交 给 仍 有 未 决 事务 的 块 。 

2. 为 实现 顺序 同一 性 的 单元 间 的 串 行 化 

满足 顺序 同一 性 (SC) 的 充分 条 件 的 两 个 最 有 趣 的 成 分 是 : 检测 写 的 结束 〈 保 持 程序 原 序 
所 需 ) 和 保证 写 的 原子 性 。 在 基于 总 线 的 机 器 中 ,互连网 络 的 固有 性 质 使 请 求 者 及 早 地 发 现 写 
的 结束 ， 写 操作 一 旦 获得 总 线 使 用 权 便 被 提交 并 对 处 理 器 应 答 ， 而 不 等 到 真正 更 新 或 作废 其 他 
的 高 速 缓 存 〈 见 第 6 章 )。 通 过 提供 一 个 所 有 事务 经 过 的 集中 的 路 径 ， 并 保证 新 的 数据 值 在 该 
路 径 之 外 先进 先 出 的 可 见 次 序 ， 基 于 总 线 的 系统 也 可 以 很 自然 地 实现 写 的 原子 性 。 

在 一 个 具有 分 布 式 网 络 但 不 对 共享 数据 做 高 速 缓 存 的 机 器 中 ， 检 测 写 的 完成 需要 来 自 保 
存 该 单元 存储 器 的 显 式 的 确认 ( 见 第 7 章 )。 事 实 上 ， 确 认可 以 早 一 点 发 出 ， 一 旦 我 们 知道 
写 已 经 到 达 那 个 节点 并 被 插入 存储 器 的 FIFO 队列 ， 写 就 提交 了 ， 因 为 进入 队列 的 所 有 后 续 
读 将 不 再 能 看 到 旧 值 ， 我 们 可 以 利用 提交 来 代替 完成 以 保持 程序 原 序 。 写 的 原子 性 可 以 自然 
地 实现 : 写 只 有 在 到 达 主 存储 器 时 才 是 可 见 的 ， 在 那 一 点 对 所 有 处 理 器 都 可 见 。 

当 有 分 布 式 网 络 并 且 块 有 多 个 副本 时 ， 在 作废 或 更 新 真正 到 达 所 有 节点 之 前 假定 写 的 完 
成 是 很 困难 的 。 不 能 在 写 操作 到 达 宿主 节点 时 就 向 请 求 者 发 出 确认 并 假定 操作 已 经 有 效 地 完 
成 。 因 为 同一 个 请 求 者 在 接收 到 对 前 一 个 写 操作 不 的 这 样 的 确认 之 后 ， 有 可 能 按 程序 原 序 
发 出 另 一 个 后 续 的 写 操作 了 Y， 但 对 另 一 个 处 理 器 ，7 可 能 在 X 之 前 可 见 ， 因 此 违反 了 sc. 
发 生 这 种 情况 的 原因 是 了 对 应 的 作废 或 更 新 事务 可 能 经 不 同 的 路 径 通过 网 络 或 者 是 网 络 不 
提供 点 对 点 的 次 序 保障 。 只 有 从 所 有 副本 收 到 显 式 的 确认 时 ， 我 们 才能 认为 操作 已 经 完成 。 
当然 ， 拥 有 副本 的 节点 可 以 在 接收 到 作废 时 立即 发 出 确认 ， 而 不 用 等 到 对 高 速 缓存 的 操作 完 
成 ， 前 提 是 它 能 够 在 本 身 的 高 速 缓存 层次 中 保证 适当 的 次 序 (正如 第 6 章 使 用 提交 而 不 是 完 
成 )。 为 了 满足 SC 的 充分 条 件 ， 处 理 器 在 发 出 一 个 写 请 求 后 必须 等 待 ， 直 到 接收 到 所 有 的 确 
认 ， 然 后 才能 通过 该 写 操作 进行 下 一 个 存储 器 操作 。 

在 存在 多 个 副本 和 分 布 式 网 络 的 情况 下 ， 保 证 写 操作 的 原子 性 也 同样 很 困难 。 为 了 解 这 
一 点 ， 图 8-14 给 出 了 一 个 依赖 写 原子 性 的 代码 段 的 语义 遭 到 破坏 的 例子 ， 例 子 的 代码 段 先 
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自 第 5 章 〈 见 图 $-11) 。 必 须 适 当地 调度 网 络 事务 来 满足 顺序 同一 性 的 约束 。 在 基于 作废 的 
方案 中 保持 写 操作 原子 性 的 一 种 常用 方法 是 ， 块 的 当前 拥有 者 ( 主 存 模块 或 在 其 高 速 缓存 中 
保持 脏 副 本 的 处 理 器 ) 在 对 生成 新 值 的 写 操作 的 所 有 作废 确认 返回 之 前 ， 不 允许 任何 进程 访 
问 新 值 ， 以 此 提供 原子 性 。 这 样 ， 在 新 值 为 所 有 处 理 器 可 见 之 前 ,没有 一 个 处 理 器 能 看 到 
它 。 维 持原 子 性 对 于 基于 更 新 的 协议 要 困难 得 多 ， 因 为 数据 被 送 往 各 共享 者 ， 并 立即 可 以 访 
问 。 为 了 保证 新 值 对 所 有 共享 者 可 见 之 前 , 没有 任何 共享 者 能 对 它 读 取 ， 需 要 两 阶段 的 交 
互 。 在 第 一 个 阶段 ， 该 存储 块 在 所 有 相关 处 理 器 的 副本 被 更 新 ， 但 禁止 这 些 处 理 器 访问 新 
值 。 在 第 二 个 阶段 ， 通 过 上 述 的 确认 了 解 到 第 一 个 阶段 已 经 完成 之 后 ， 向 这 些 处 理 器 发 出 消 
息 ， 人 允许 它们 使 用 新 值 。 实 现 上 的 困难 以 及 性 能 上 的 限制 ， 使 得 更 新 协议 在 基于 目录 的 可 扩 
展 机 器 中 不 像 其 在 基于 总 线 的 机 器 中 那样 有 吸引 力 。 


A=1; 一 一 一 一 一 一 一 while (A==0). 
B=1; 一 一 一 一 While(B==0) 
print A; 





图 8-14 在 具有 高 速 缓存 的 可 扩展 系统 中 违反 写 原子 性 的 例子 。 该 图 显示 了 三 个 处 理 器 和 各 自 执行 
的 代码 段 。 假 设 网 络 保持 点 对 点 的 次 序 ， 并 且 高 速 缓存 中 A 和 B 的 副本 初 值 为 0。 为 简单 
起 见 ， 忽 略 查 目录 和 满足 读 扑 空 的 事务 。 在 SC 下， 我 们 希望 P 打印 的 A 的 值 为 1。 但 是 ， 
如 果 P, 先 看 到 A 的 新 值 ， 跳 出 自己 的 while 循环 ， 甚 至 在 不 知道 P, 是 否 已 经 能 够 看 到 P 
对 A 的 写 人 值 之 前 ， 就 对 B 写 人 人。 其 结果 是 ，P 可 能 在 看 到 P 对 A 的 写 人 之 前 ， 先 看 到 
PRY BHSA, AAP, 的 写 产 生 的 作废 或 更 新 可 能 经 过 一 段 拥塞 的 网 络 而 被 延迟 (而 其 
他 的 事务 并 不 经 过 拥塞 网 段 )。 因 此 ，P, 读 到 BB 的 新 值 和 A 的 旧 值 ， 产 生 非 预期 的 结果 


3， 死 锁 

在 第 7 章 中 讨论 了 请 求 -响应 协议 潜在 死 锁 的 重要 来 源 ， 和 共享 地 址 空间 的 死 锁 类 似 ， 
比如 装 满 了 有 限 的 输入 缓冲 ， 我 们 建议 了 三 种 解决 缓冲 死 锁 的 方法 : 

1) 提供 一 个 足够 大 的 缓冲 空间 ， 或 者 在 请 求 端 使 用 分 布 链表 缓冲 请 求 ， 或 者 对 最 大 可 
能 的 到 达 事务 量 提供 足够 大 的 输入 缓冲 空间 (通过 硬件 或 主 存 )。 

2) 使 用 否定 回答 NACK。 

3) 提供 分 离 的 请 求 和 响应 网 络 ， 既 可 以 是 物理 上 分 离 的， 也 可 以 是 各 自 带 缓冲 的 多 路 
复 用 ， 用 以 防止 表现 不 好 行为 的 请 求 网 络 中 的 活动 拥塞 正常 响应 事务 的 传输 。 
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两 个 分 离 的 网 络 对 于 一 个 严格 的 请 求 - 响应 协议 来 说 已 经 足够 ， 也 就 是 说 ， 所 有 事务 被 
分 成 请 求 和 响应 ， 这 样 一 个 请 求 只 产生 一 个 响应 〈 或 什么 也 不 产生 )， 而 响应 不 再 产生 进 一 
步 的 事务 〈 即 不 产生 进一步 的 依赖 关系 )。 但 是 我 们 知道 为 了 提高 性 能 ， 许 多 实际 的 一 致 性 
协议 都 使 用 转发 ， 并 不 总 是 严格 的 请 求 - 响应 协议 ， 这 破坏 了 避免 死 锁 的 假设 前 提 。 一 般 来 
说 ,我们 需要 的 网 络 (物理 的 或 虚拟 的 ) 与 完成 给 定 操作 所 要 求 的 不 同类 型 事务 的 最 长 的 链 
一 样 多 ， 这 样 总 是 能 保证 处 于 链 的 端点 的 事务 〈 即 不 产生 进一步 事务 的 事务 ) 向 前 推进 。 但 
是 ， 使 用 多 个 网 络 代价 昂贵 ， 多 数 并 不 能 充分 利用 。 除 了 提供 足够 的 缓冲 〈 比 如 HAL S1 和 
MIT Alewife) 或 使 用 NACK 的 方法 外 ， 还 有 两 种 方法 可 以 避免 非 严格 的 请 求 — 响应 协议 中 的 
死 锁 。 它 们 都 是 先 假定 协议 是 严格 请 求 - 响应 协议 并 且 提 供 两 个 物理 或 虚拟 的 网 络 ， 然 后 ， 
依靠 发 现 死 锁 可 能 发 生 的 场景 并 求助 于 一 种 不 同 的 机 制 来 避免 这 些 情 况 下 的 死 锁 。 这 个 机 制 
可 以 是 NACK 机 制 ， 或 回 到 严格 的 请 求 - 响应 协议 。 

潜在 死 锁 场景 的 发 现 可 以 有 多 种 方法 实现 。 在 Stanford 的 DASH 机 中 ， 当 输入 缓冲 和 输 
出 缓冲 都 超过 一 个 阀 值 ， 并 晶 在 输入 缓冲 头 部 的 请 求 会 产生 如 干涉 或 作废 之 类 进一步 的 请 求 
时 〈 即 该 请 求 会 违反 严格 的 请 求 - 响应 操作 ， 可 能 引起 死 锁 ) ， 节 点 就 保守 地 认为 将 要 发 生 
死 锁 。 田 一 种 策略 是 当 输 出 请 求 缓冲 满 ， 并 且 在 7 个 周期 内 没有 从 输出 缓冲 移 走 一 个 事务 
时 ， 将 认为 有 可 能 死 锁 。 当 发 现 了 潜在 的 死 锁 时 ，DASH 系统 采用 第 一 种 基于 NACK 的 方案 
来 避免 死 锁 : 节点 从 输入 队列 头 逐 个 移 走 请 求 ， 并 且 向 相应 的 请 求 者 发 出 NACK 消息 ， 直 到 
头 部 的 请 求 不 会 产生 进一步 请 求 或 输出 请 求 队列 不 再 满 为 止 。 被 拒绝 掉 的 请 求 者 稍 后 会 重 发 
它们 的 请 求 。 

Origin2000 采用 了 另外 一 种 死 锁 避免 方法 。 当 发 现 潜在 死 锁 时 ， 不 是 向 请 求 者 发 出 
NACK， 而 是 向 请 求 者 发 出 一 个 响应 ， 让 请 求 者 直接 向 共享 者 发 出 于 涉 或 作废 请 求 ， 也 就 是 
说 ， 系 统 动态 地 从 转发 协议 回 到 严格 的 请 求 - 响应 协议 ， 暂 时 牺牲 性 能 ， 但 切断 死 锁 回路 。 
该 方案 的 优势 在 于 ， 对 于 与 拥塞 相关 的 问题 而 言 ，NACK 是 一 个 统计 的 方案 ， 但 并 不 是 一 个 
健壮 的 方案 : 在 坏 的 情况 下 ， 请 求 不 得 不 被 重 试 多 次 ， 这 导致 网 络 流量 和 时 延 增加 ， 推 迟 了 
操作 的 完成 。 下 面 将 会 看 到 ， 这 种 动态 退回 严格 请 求 - 响应 协议 的 方案 在 处 理 活 锁 时 也 有 
优势 。 

4. 4K 

在 通过 为 请 求 提供 足够 大 的 缓冲 区 来 避免 死 锁 的 协议 中 ， 无 论 缓 冲 区 是 集中 式 的 ， 还 是 
分 布 链表 式 的， 只 要 它 是 先进 先 出 的 ， 就 自动 地 处 理 活 锁 和 挨 饿 问题 。 但 其 他 方案 并 不 考虑 
活 锁 和 挨 饿 ， 通 常 ， 处 理 因 竞争 条 件 〈 多 个 处 理 器 在 同一 时 刻写 同一 块 ) 而 产生 的 经 典 活 锁 
的 做 法 是 ， 证 发 往 宿主 的 第 一 个 请 求 通过 ， 但 拒绝 所 有 其 他 的 请 求 。 

NACK 是 解决 上 述 竞 争 条 件 而 不 产生 活 锁 的 有 用 的 机 制 。 但 是 ， 当 面 对 输 入 缓冲 的 限 
制 ， 用 它 来 避免 死 锁 时 〈 比 如 我 们 前 面 讲 过 的 DASH 解决 方案 )， 有 可 能 会 引起 活 锁 。 例 如 ， 
一 个 节点 发 现 潜 在 的 死 锁 ， 就 向 一 些 请 求 发 出 NACK 信号， 但 所 有 那些 请 求 有 可 能 又 在 同一 
时 刻 重 发。 在 极端 的 情况 下 ， 这 种 情况 会 不 断 重复 出 现 并 导致 活 锁 S 。 死 锁 的 另外 一 种 解决 
方案 ， 即 在 潜在 死 锁 场景 下 切换 为 严格 的 请 求 -响应 协议 ， 这 不 会 带 来 活 锁 问题 。 它 保证 








O 尽管 DASH 体系 结构 的 设计 使 用 NACK， 实 际 的 原型 实现 却 通 过 使 用 足够 大 的 请 求 输入 缓冲 绕 过 这 个 问题 ， 因 为 
节点 的 数量 和 每 个 节点 可 能 的 未 决 请 求 的 数量 都 不 大 。 但 是 ， 这 对 于 较 大 的 、 更 为 进取 性 的 、 不 能 提供 足够 大 
缓冲 空间 的 机 器 来 说 ,不 是 一 个 健壮 的 解决 方案 。 
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向 前 推进 ， 消 除了 宿主 节点 处 的 请 求 - 请 求 依赖 关系 。 

5. RIR 

在 设计 完善 的 协议 中 ， 搁 饿 一 般 是 不 会 发 生 的 ,但 并 不 能 完全 排除 这 种 可 能 性 。 解 决 挨 
饿 最 公平 的 方法 是 以 先进 先 出 的 次 序 对 请 求 进行 缓冲 ， 这 同时 也 解决 了 死 锁 和 活 锁 的 问题 。 
但 这 可 能 会 导致 性 能 下 降 。 其 他 不 采用 这 个 方法 的 协议 要 避免 挨 饿 并 不 容易 。 用 NACK 和 重 
试 的 方法 解决 死 锁 和 活 锁 的 方案 比较 容易 产生 挨 铁 问题 ， 尤 其 是 当 许 多 处 理 器 反复 争 用 同一 
资源 时 更 是 如 此 。 有 些 处 理 器 可 能 总 是 成 功 的 ， 而 某 个 或 更 多 个 处 理 器 却 不 那么 幸运 ， 总 是 
被 拒绝 。 

协议 可 以 不 对 挨 馈 进行 任何 处 理 ， 而 是 依靠 系统 延迟 时 间 的 变化 使 得 那 种 无 限 重复 的 情 
况 不 会 出 现 。DASH 机 就 采用 了 这 种 策略 ， 如 果 那 种 重复 的 情况 超过 时 限 就 会 发 出 一 个 总 线 
超时 错误 。 另 外 ， 我 们 可 以 在 两 次 重 试 之 间 揪 和 一段 跑 机 的 延迟 来 进一步 降低 发 生 挨 饿 的 概 
率 。 最 后 我 们 还 可 以 根据 请 求 被 拒绝 的 次 数 来 赋予 它们 不 同 的 优先 级 ，Origin2000 的 协议 就 
采用 了 这 种 技术 。 

在 对 基本 的 目录 组 织 结构 、 高 层 的 协议 、 关 键 性 能 和 正确 性 问题 有 了 一 般 性 的 了 解 之 
后 ， 现 在 可 以 进入 基于 存储 器 和 基于 高 速 缓存 协议 的 案例 分 析 了 。 我 们 将 会 看 到 在 实际 实现 
中 协议 状态 和 动作 的 形态 ， 目 录 协 议 是 如 何 与 底层 的 处 理 器 交互 作用 并 受 其 影响 的 ， 可 扩展 
高 速 缓存 一 致 的 机 器 是 什么 样 的 ， 在 性 能 和 保证 正确 性 及 协议 调试 验证 的 复杂 性 之 间 ， 实 际 
的 协议 是 如 何 权衡 的 。 


8.5 基于 存储 器 的 目录 协议 : SGI 的 Origin 系统 


我 们 的 讨论 从 扁平 的 、 基 于 存储 器 的 目录 协议 开始 ， 使 用 SGI 的 Origin 体系 结构 作为 研 
究 实 例 。 至 少 对 中 等 规模 的 系统 来 说 ， 这 种 机 器 使 用 了 一 种 全 位 向 量 目录 表示 。Stanford 的 
DASH 机 研究 原型 中 也 使 用 了 同样 的 目录 表示 ， 但 是 协议 稍 有 不 同 ， 它 是 第 一 台 采 用 基于 目 
录 一 致 性 的 分 布 存储 器 的 机 器 。 在 当前 和 下 一 个 案例 分 析 (Sequent NUMA-Q 机 使 用 的 SCI 协 
议 ) 中 遵循 同一 个 讨论 框架 。 从 基本 的 一 致 性 协议 开始 ， 包 括 目录 结构 、 目 录 和 高 速 缓存 的 
状态 ， 读 、 写 、 回 写 操作 的 处 理 方式 以 及 所 使 用 的 性 能 提升 方法 。 然 后 我 们 将 简单 地 讨论 针 
对 主要 的 正确 性 问题 的 措施 ， 然 后 是 为 了 额外 功能 的 重要 的 协议 上 的 扩展 。 接 着 ， 将 考察 作 
为 多 处 理 器 的 机 器 的 其 余部 分 ， 以 及 一 致 性 的 机 制 如 何 适 应 它 。 这 包括 处 理 器 节点 、 互 连 网 
络 、 输 入 输出 系统 、 以 及 在 目录 协议 和 底层 节点 间 的 有 趣 交 互 。 这 个 案例 分 析 最 后 讨论 一 些 
重要 的 实现 问题 (指明 了 它 如 何 工作 以 及 重要 的 数据 和 控制 通路 )、 协 议 的 基本 性 能 特征 
(时 延 、 占 用 度 、 带 宽 )、 以 及 在 样本 应 用 所 表现 出 的 应 用 性 能 。 


8.5.1 高 速 缓存 一 致 性 协议 


Origin 系统 是 由 许多 处 理 节 点 组 成 的 ， 这 些 处 理 节点 由 基于 交换 的 互连网 络 连接 在 一 起 
(ILEI 8-1$)。 每 个 处 理 节 点 包括 两 个 MIPS R10000 处 理 器 ， 每 个 处 理 器 都 有 一 级 和 二 级 高 速 
缓存 ， 节 点 还 包括 机 器 主 存储 器 的 一 部 分 、 一 个 IO 接口 和 一 个 称 作 Hub 的 单 片 通信 辅助 部 
件 或 一 致 性 控制 器 ， 该 部 件 实现 一 致 性 协议 。Hub 集成 在 存储 器 系统 中 。 它 可 以 看 见 该 节点 
内 处 理 器 产生 的 所 有 (CA) 高 速 缓存 扑 空 ， 不 管 它们 是 被 本 地 还 是 远程 满足 ; 它 从 网 络 接 
收 进来 的 事务 (KRE, Hub 实现 了 网 络 接口 ); 它 能 从 本 地 处 理 器 高 速 缓存 取得 数据 。 
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图 8-15 Silicon Graphics 的 Origin2000 多 处 理 器 的 框图 。 每 个 节点 包含 两 个 处 理 器 、 一 个 叫做 Hub 的 通信 辅助 
部 件 或 控制 器 ， 以 及 带 有 相关 目录 的 主 存储 器 。 照 片 显示 了 单 节点 板 。 照 片 引 自 Silicon Graphics, Inc 

根据 8.4.1 节 讨论 的 性 能 问题 ， 在 协议 级 ，0rigin2000 在 查找 宿主 目录 的 同时 ， 并 行 地 
进行 应 答 转 发 和 推测 性 存储 器 操作 。 在 机 器 组 织 结构 级 ，Origin 选择 每 个 节点 两 个 处 理 器 的 
设计 主要 出 于 成 本 考虑 : 节点 内 的 其 他 部 件 (Hub、 系 统 总 线 等 等 ) 被 处 理 器 所 共享 ， 在 分 
摊 开 销 的 同时 仍 希 望 为 每 个 处 理 器 提供 足够 的 带宽 。Origin 的 设计 者 相信 ， 在 一 个 节点 内 通 
过 侦 听 总 线 互 连 导 致 的 时 延 和 带宽 上 的 商 端 大 于 它 的 好 处 ， 所 以 决定 不 在 节点 内 两 个 处 理 器 
间 维 持 侦 听 一 致 性 。 另 外 ， 系 统 地 址 和 数据 (SysAD) 总线 不 过 是 节点 内 两 个 处 理 器 之 间 复 
用 的 物理 链 路 。 这 牺牲 了 节点 内 高 速 缓存 到 高 速 缓存 之 间 共 享 的 潜在 优势 ， 但 也 消除 了 侦 听 
引起 的 时 延 、 占 用 和 高 速 缓存 标志 位 的 竞争 。 特 别 是 在 一 个 节点 内 只 有 两 个 处 理 器 的 情况 
下 ， 高 速 缓存 到 高 速 缓存 之 间 成 功 共 享 的 机 会 很 小 ， 所 以 由 此 带 来 的 劣势 可 能 反而 占 主 导 地 
位 。 由 于 两 个 处 理 器 共享 Hab， 可 以 支持 对 网 络 的 请 求 (不 是 对 目录 协议 ) 的 合并 ， 但 是 这 
需要 额外 的 实现 开销 ， 所 以 没有 这 样 做 。 在 本 节 讨 论 协议 时 ， 为 简单 起 见 ， 先 考虑 每 个 节点 
只 有 一 个 处 理 器 和 相关 的 高 速 缓存 层次 结构 、Hub 及 存储 器 的 情况 。 在 本 节 后 面 ， 将 考虑 每 
节点 两 个 处 理 器 对 目录 结构 和 协议 的 影响 。 

除了 应 答 转发 ，Origin 协议 的 最 有 趣 之 处 在 于 它 采 用 了 忙 状态 和 NACK 解决 竞争 ， 提 供 
对 一 个 单元 操作 的 串 行 化 ， 在 于 它 的 死 锁 和 活 锁 的 解决 方法 ， 在 于 它 处 理 因 回 写 引起 的 竞争 
的 方法 ， 还 在 于 它 不 依赖 于 在 网 络 事务 之 间 保持 任何 次 序 (甚至 不 依赖 于 相同 端点 对 之 间 事 
务 的 点 对 点 的 次 序 )。 为 了 说 明 完 整 的 协议 如 何在 有 竞争 的 情况 下 工作 ， 以 及 为 了 说 明 在 不 
同情 况 下 使 用 的 性 能 增强 技术 ， 我 们 将 考察 Origin 如 何 把 各 种 技术 综合 在 一 起 来 处 理 读 和 写 
操作 。 

1, 目录 结构 和 协议 状态 

一 个 存储 器 块 的 目录 信息 在 该 块 的 宿主 节点 内 保存 。 现 在 假定 它 是 全 位 向 量 ， 稍 候 将 考 
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察 目 录 组 织 结构 是 如 何 随 着 机 器 的 规模 变化 的 。 
在 高 速 缓存 中 ， 协 议 采 用 与 第 5 章 中 相同 的 MESI 状态 。 在 上 且 录 中 ， 一 个 块 可 以 处 于 7 
种 状态 之 一 。 三 个 是 稳定 状态 : 未 拥有 ， 即 在 系统 中 没有 高 速 缓存 副本 ; 共享 ， 即 零 个 或 多 
个 只 读 高 速 缓存 副本 ， 其 位 置 由 存在 位 向 量 指明 ; 排他 ， 系 统 中 只 有 一 个 读 写 高 速 缓存 副 
本 ， 由 存在 位 向 量 指 示 。 一 个 排他 的 目录 状态 意 昧 着 在 高 速 缓存 中 块 是 处 于 脏 的 或 者 干净 的 
排他 状态 (BI MEST 协议 中 的 M 或 卫 状 态 )。 另 外 三 个 状态 是 忙 状 态 。 如 前 所 述 ， 这 表示 宿 
主 节 点 已 经 接收 了 一 个 对 该 块 的 请 求 ， 但 它 本 身 不 能 完成 操作 〈 例 如 ， 该 块 可 能 在 另 一 个 节 
点 的 高 速 缓 存 中 处 于 脏 状态 ); 完成 该 请 求 的 事务 仍 在 系统 内 进行 ， 所 以 宿主 的 目录 不 能 响 
应 对 该 块 的 新 的 请 求 。 三 个 忙 状态 对 应 于 三 种 不 同类 型 的 仍然 在 进行 的 请 求 : 读 、 排 他 读 或 
升级 、 非 高 速 缓存 读 〈 结 果 不 进入 处 理 器 高 速 缓存 的 读 ， 因 此 不 必 保持 一 致 性 )。 这 个 协议 
使 用 忙 状态 和 NACK (而 不 是 大 量 的 缓冲 空间 ) 来 避免 竞争 条 件 ， 提 供 对 存储 器 单元 操作 的 
串 行 化 。 第 7 个 状态 是 毒化 (poison) 状态 ， 用 以 实现 惰性 的 TLB 击落 方法 ,该 方法 实现 页 
面 在 存储 器 中 的 迁移 。( 像 非 高 速 缓存 操作 和 页 面 迁移 这 样 的 协议 扩展 在 8.5.4 节 中 讨论 。) 
给 定 这 些 状态 ， 计 我 们 看 一 看 一 致 性 协议 是 如 何 处 理 来 自 一 个 节点 的 读 、 写 和 回 写 请 求 的 。 
2. 读 请 求 处 理 
假定 处 理 器 发 出 的 读 请 求 在 高 速 缓存 层次 中 扑 空 。 本 地 Hub 检查 扑 空 的 地 址 以 决定 其 
宿主 节点 ， 并 向 宿主 节点 发 出 一 个 读 请 求 事务 ， 以 便 查 找 目录 项 。 如 果 宿 主 就 在 本 地 ， 那 么 
本 地 Hub 自己 查找 本 地 的 目录 。 在 宿主 节点 ， 该 块 的 数据 在 查找 目录 项 的 同时 被 并 行 推测 
访问 。 目 录 项 的 查找 比 推测 性 数据 访问 早 一 个 周期 完成 ， 它 指出 存储 器 块 处 于 以 下 几 个 不 同 
的 状态 之 一 ， 针 对 不 同情 况 采 取 不 同 的 动作 。 
， 共 享 或 未 拥有 。 这 意味 着 宿主 节点 主 存 中 有 数据 的 最 新 副本 (因此 推测 性 访问 成 
功 )。 如 果 状 态 是 共享 的 ， 目 录 存 在 位 向 量 对 应 请 求 者 的 位 被 置 位 ， 如 果 状 态 是 未 拥 
有 的 ， 目 录 状 态 设 为 独占 〈 实 现 侦 听 系统 中 共享 信和 号 所 提供 的 功能 )。 然 后 宿主 节点 
以 应 答 事 务 将 数据 发 回 请 求 者 。 这 些 情况 满足 严格 的 请 求 - 响应 协议 。 当 然 ， 如 果 
宿主 节点 与 请 求 节点 是 同一 个 节点 ， 那么 就 不 会 产生 网 络 事务 或 消息 ， 这 是 一 个 本 
地 可 满足 的 扑 空 。 
忙 。 这 意味 着 宿主 节点 不 应 该 在 此 刻 处 理 请 求 ， 因 为 对 该 块 的 前 一 个 请 求 的 处 理 正 
在 进行 。 请 求 者 会 收 到 一 个 否定 回答 (NACK) 消息 ， 被 告知 稍 后 再 试 。NACK 被 归 
类 为 响应 ， 但 像 确 认 一 样 不 携带 数据 。 
。 排 他。 这 是 最 有 趣 的 一 种 情形 。 如 果 宿 主 节点 不 是 块 的 拥有 者 ， 那 么 必须 从 它 的 拥 
有 者 那里 得 到 有 效 的 数据 ， 并 且 必 须 找到 拥有 者 通 往 请 求 者 和 宿主 节点 的 路 径 。Ori- 
gin 协议 采用 应 答 转 发 ， 请 求 被 转发 给 拥有 者 ， 拥 有 者 直接 应 答 请 求 者 ， 并 把 修正 的 
消息 发 给 宿主 节点 。 如 果 宿 主 节点 本 身 就 是 拥有 者 ， 那 么 宿主 简单 地 应 答 请 求 者 ， 
把 目录 状态 变 为 共享 ， 并 在 存在 位 向 量 中 置 位 请 求 者 对 应 的 位 。 事 实 上 ， 目 录 把 窒 
主 节 点 的 高 速 缓存 和 其 他 高 速 缓存 一 样 对 待 ， 惟 一 的 不 同 之 处 是 宿主 目录 和 宿主 节 
点 高 速 缓存 之 间 的 “消息 ”不 转换 成 网 络 事务 。 
现在 看 一 下 当 读 请 求 到 达 宿 主 节点 并 发 现状 态 为 排他 时 实际 发 生 的 细节 (图 8-16 说 明 
了 这 个 情况 以 及 其 他 几 个 被 讨论 的 情况 )。 如 通常 所 做 的 那样 ， 存 储 器 块 的 推测 人 性 访问 与 目 
录 查 找 并 行进 行 。 如 果 发 现 目录 状态 是 排他 ， 将 它 置 为 忙 -排他 以 便 应 付 后 续 的 请 求 ， 并 日 
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把 请 求 转发 给 排他 节点 。 我 们 还 不 能 把 状态 置 为 共享 ， 因 为 存储 器 中 还 没有 最 新 的 副本 ， 也 
不 想 一 直 让 状态 停留 在 排他 ， 因 为 这 样 做 的 话 ， 后 续 的 请 求 就 会 像 当 前 的 请 求 一 样 去 追踪 块 
的 同一 个 排他 副本 ， 从 而 要 求 当前 的 拥有 者 节 点 而 不 是 宿主 节点 来 决定 串 行 化 次 序 。 


1. Read/RdEx 请 求 1:Read/RdEx 请求 2b: 干涉 


3b:Revision 





2 基部 的 或 排他 响应 3a: 共享 的 或 排他 响应 
Oe ITA ANAR b) 对 于 目录 状态 为 排他 的 读 或 排他 读 请 求 。 
CER A. DARRAI AA 干涉 的 类 型 分 别 是 共享 或 排他 ,后 者 引起 
TH DOERR Ree 作废. 修正 消息 是 共享 回 写 或 拥有 权 转 移 
他 响应 ,这 样 块 可 以 以 E 而 不 是 S 
状态 装 入 高 速 组 存 
1. Read/RdEx/Upgrade 请 求 1:RdEx/Upgrade 请 求 2b:Invalidation 请 求 





2. NACK 





i i 3a: 作 废 确认 
TBR RERNERRENT A 4) STARA RAEI Ho 
拥有 、 排 他 的 块 的 升级 请 求 或 升级 请 求 
1:Request, 2b: Intervention, 
LAS ~ 
2c:Speculative reply, 3b: 回 写 确认 
me £) 对 目录 状态 为 忙 的 块 的 回 写 请 求 
e) 对 目录 状态 为 排他 的 块 的 回 写 请 求 ( 带 下 标 y 的 事务 和 虚线 代表 使 


日 录 为 位 的 其 他 请 求 ) 


图 8-16 在 Origin 多 处 理 器 中 响应 请 求 的 协议 动作 。 所 考虑 的 情况 出 现在 图 下 面 ， 指 示 了 请 求 到 达 
宿主 节点 时 请 求 的 类 型 和 目录 项 的 状态 。 消 息 或 者 事务 类 型 在 每 条 弧 线 边 列 出 。 因 为 相同 
的 图 代表 了 请 求 类 型 和 目录 状态 的 不 同 组 合 ， 所 以 在 每 一 条 弧 线 旁 列 出 不 同 的 消息 类 型 


把 目录 项 置 为 忙 状 态 后 ， 存 在 位 向 量 被 修改 ， 请 求 者 对 应 的 位 被 置 位 ， 而 当前 拥有 者 对 
应 的 位 被 复位 。 此 刻 这 样 做 的 原因 在 我 们 考察 回 写 请 求 时 就 会 很 清楚 。 现 在 看 到 了 协议 的 -一 
个 有 趣 的 方面 : 尽管 目录 状态 是 排他 的 ， 宿 主 乐观 地 假设 在 该 块 在 拥有 者 的 高 速 缓存 中 是 
(FAW) 排他 态 而 不 是 脏 态 ， 它 会 把 在 宿主 节点 推测 性 访问 的 存储 器 块 作为 推测 性 应 答 发 
给 请 求 者 〈 即 这 种 应 答 携带 的 数据 可 能 有 用 ， 也 可 能 没 用 )。 与 此 同时 ， 宿 主 把 于 涉 请 求 转 
发 给 拥有 者 。 拥 有 者 检查 它 的 高 速 缓存 的 状态 并 执行 下 列 动作 之 一 。 如 果 块 处 于 脏 状 态 ， 它 
把 带 有 数据 的 应 答 直接 发 送 给 请 求 者 ， 并 把 包含 数据 的 修正 消息 发 送 给 宿主 。 在 请 求 者 节 
点 ， 该 响应 覆盖 宿主 以 前 发 来 的 过 时 的 推测 性 应 答 。 发 送 给 宿主 的 带 有 数据 的 修正 消息 被 称 
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做 共享 回 写 ， 因 为 它 把 来 自 拥 有 者 高 速 缓存 的 数据 写 回 主 存 ， 并 告诉 主 存 把 块 的 状态 置 为 共 
享 。 如 果 块 处 于 排他 态 ， 拥 有 者 发 给 请 求 者 的 应 答 和 发 给 宿主 的 修正 消息 中 不 含有 数据 ， 因 
为 两 者 已 经 有 最 新 的 副本 〈 请 求 者 从 来 自 宿主 的 推测 性 应 答 得 到 数据 )。 对 请 求 者 的 响应 是 
一 个 简单 的 确认 ， 而 修正 消息 叫做 降级 消息 ， 因 为 它 要 求 宿 主 把 块 的 状态 从 〈 忙 ) 排他 降 为 
共享 。 在 每 一 种 情况 下 ， 宿 主 接 到 修正 消息 后 都 把 状态 从 忙 改 为 共享 。 

你 可 能 注意 到 在 这 种 情况 下 ， 使 用 推测 性 应 答 并 没有 任何 性 能 上 的 优势 ， 因 为 请 求 者 为 
了 了 解 排他 节点 的 真实 状态 ， 在 能 够 使 用 该 数据 之 前 只 能 等 待 。 事 实 上 ， 一 个 更 简单 的 替代 
方案 是 假设 拥有 者 的 高 速 缓存 中 块 是 脏 的 ， 因 此 不 发 送 推测 性 应 答 ， 总 是 由 拥有 者 发 回 带 有 
数据 的 应 答 ， 不 管 它 的 块 是 处 于 脏 (干净 ) 的 排他 状态 。 为 什么 Origin 采用 推测 性 应 答 呢 ? 
这 里 有 两 个 原因 ， 说 明了 协议 是 如 何 受 到 现存 的 处 理 器 的 影响 以 及 不 同 的 协议 优化 如 何 相互 
影响 。 首 先 ，Origin 所 使 用 的 R10000 处 理 器 的 高 速 缓存 控制 器 在 收 到 对 一 个 排他 〈 不 是 及 
的 高 速 缓存 块 的 干涉 请 求 时 ， 不 返回 数据 ， 因 为 假定 存储 器 中 有 有 效 的 副本 。 其 次 ， 推 测 性 
应 管 允许 协议 的 男 一 种 不 同 的 优化 是 ， 它 允许 处 理 器 高 速 缓 存 块 被 蔡 换 时 ， 简 单 地 丢掉 一 个 
CPE) 排他 块 而 不 必 通 知 主 存储 器 ， 它 具有 惟一 的 副本 ， 应 该 对 后 续 的 请 求 做 出 应 答 ， 因 
为 主 存储 器 在 需要 时 总 是 发 出 推测 性 应 答 。 

3. 处 理 写 请 求 

在 第 5 章 中 讲 过 , 一 个 调用 协议 的 写 扑 空 会 产生 要 求 数据 和 拥有 权 两 者 的 排他 读 请 求 ， 
或 者 产生 只 要 求 拥有 权 的 升级 请 求 ， 因 为 请 求 者 的 数据 是 有 效 的 。 在 每 一 种 情况 下 ， 请 求 将 
到 达 宿 主 节点 ， 查 找 目录 的 状态 来 决定 执行 何 种 动作 。 如 果 目 录 的 状态 不 是 未 拥有 (或 导致 
否定 回答 的 忙 )， 在 其 他 高 速 缓 存 中 的 副本 必须 作废 。 为 了 保持 次 序 模型 ， 必 须 对 作废 显 式 
地 确认 。 

和 读 的 情况 一 样 ， 可 以 采用 严格 的 请 求 -响应 协议 、 干 涉 转发 或 应 答 转发 (见习 题 8.4)。 
Origin 选择 了 应 答 转发 以 降低 时 延 : 宿主 更 新 目录 状态 并 直接 发 出 作废 ; 作废 消息 中 还 包括 
了 请 求 者 的 身份 ， 这 样 被 作废 者 可 以 直接 向 请 求 者 发 回 确认 。 排 他 读 和 升级 的 实际 处 理 取决 
于 请 求 到 达 时 目录 的 状态 ， 也 就 是 说 ， 看 它 是 未 拥有 、 共 享 、 排 他 还 是 忙 状 态 。 

。 未 拥有 。 如 果 是 一 个 升级 请 求 ， 目 录 状 态 应 该 是 共享 。 未 拥有 状态 意味 着 这 个 块 已 
经 从 请 求 者 的 高 速 缓存 中 替换 ， 目 录 已 被 通报 ， 因 为 它 发 出 了 升级 请 求 〈 这 是 可 能 
的 ， 因 为 Origin 的 协议 并 没有 假设 点 对 点 的 网 络 次 序 )。 升 级 请 求 不 再 是 一 个 合适 的 
请 求 ， 所 以 它 被 否定 回答 了 。 写 操作 将 像 一 个 排他 读 那 样 被 重 试 。 如 果 请 求 是 排他 
读 ， 目 录 状 态 被 改 成 排他 ， 请 求 者 的 存在 位 。 宿 主 用 存储 器 中 的 数据 应 答 。 
共享 。 在 有 副本 的 高 速 缓存 中 块 必须 被 作废 。 宿 主 的 Hub 先 利用 存在 位 向 量 列 出 应 
该 被 作废 的 所 有 共享 者 。 然 后 ， 将 目录 状态 设 为 排他 ， 并 置 请 求 者 的 存在 位 。 这 保 
证 下 一 个 对 该 块 的 请 求 能 转发 给 请 求 者 。 如 果 请 求 是 排他 读 ， 宿 主将 向 请 求 者 发 出 
一 个 响应 〈 叫 做 “具有 未 决 作废 的 排他 应 答 ”)， 此 应 答 包含 共享 者 的 数目 ， 希 望 从 
这 些 共享 者 得 到 作废 确认 。 如 果 请 求 是 一 个 升级 ， 宿 主 向 请 求 者 发 出 一 个 类 似 的 
“具有 未 决 作废 的 升级 确认 ”， 但 不 携带 该 块 的 数据 。 在 每 一 种 情况 下 ， 宿 主 下 一 步 
给 所 有 的 共享 者 发 送 作 废 请 求 ， 共 享 者 接着 向 请 求 者 (不 是 宿主 ) 发 出 确认 。 请 求 
者 在 “关闭 ”或 结束 操作 前 ， 等 待 所 有 的 确认 到 来 。 如 果 在 此 期 间 ， 对 该 块 的 一 个 
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新 的 请 求 到 达 宿 主 ， 它 将 看 到 目录 的 状态 是 排他 ， 并 且 将 被 作为 干涉 转发 给 当前 的 
请 求 者 。 当 前 的 请 求 者 不 会 立刻 处 理 这 个 干涉 ， 而 是 将 它 缓 冲 ， 直 到 收 到 对 自己 请 
求 的 所 有 的 确认 并 结束 操作 〈 更 进一步 ， 在 此 期 间 到 达 宿 主 的 请 求 将 发 现 块 处 在 忙 - 
排他 状态 ， 这 前 面 早已 讨论 ) 。 
。 排他 。 如 果 是 一 个 升级 请 求 ， 那 么 ， 排 他 目录 状态 表示 另 一 个 写 请 求 在 宿主 节点 胜 
过 它 。 升 级 不 是 合适 的 请 求 ， 于 是 被 拒绝 。 对 一 个 排他 读 请 求 ， 采 取 王 面 的 动作 。 
和 读 一 样 ， 宿 主将 目录 状态 置 为 忙 ， 将 请 求 者 的 存在 位 置 位 ， 向 它 发 送 一 个 推测 性 
应 答 。 向 拥有 者 发 出 一 个 包含 写 请 求 者 身份 的 作废 请 求 (如 果 宿 主 是 拥有 者 ， 只 是 
对 本 地 高 速 缓存 的 作废 而 没有 网 络 事务 )。 如 果 拥 有 者 的 块 处 于 脏 状 态 ， 它 向 宿主 发 
出 一 个 “拥有 权 转 移 ” 的 修正 消息 (不 含 数 据 )， 向 请 求 者 发 出 一 个 带 有 数据 的 应 
答 。 这 个 应 答 覆 盖 请 求 者 从 宿主 那里 收 到 的 推测 性 应 答 。 如 果 拥 有 者 的 块 处 于 (F 
净 的 ) 排他 状态 ， 它 依赖 于 来 自 宿主 的 推测 性 应 答 ， 简 单 地 向 请 求 者 发 一 个 确认 ， 
向 宿主 发 一 个 “拥有 权 和 转移” 的 修正 信息 。 
。 忙 。 和 读 的 情况 一 样 ， 请 求 被 否定 回答 ， 必 须 被 重 试 。 
4. 处 理 回 写 请 求 和 替换 
当 一 个 节点 替换 它 高 速 缓存 里 的 脏 块 时 ， 它 产生 一 个 回 写 请 求 。 这 个 请 求 携带 数据 并 被 
宿主 确认 应 答 。 当 回 写 请 求 到 达 时 ， 目 录 不 能 处 在 未 拥有 状态 或 共享 状态 ， 因 为 回 写 请 求 者 
有 脏 的 副本 。( 在 回 写 产 生 和 它 到 达 宿 主 之 间 ， 不 允许 一 个 读 请 求 把 目录 状态 变 为 共享 ， 因 
为 这 种 请 求 可 能 会 被 转发 给 正在 申请 回 写 的 那个 节点 ， 而 目录 状态 会 被 设置 为 性 ) 下面 来 看 
看 在 排他 和 忙 这 两 种 目录 状态 下 回 写 请 求 到 达 宿 主将 会 发 生 什么 。 
。 排他。 目录 状态 从 排他 变 成 未 拥有 〈 因 为 仅 有 的 高 速 缓存 副本 被 从 高 速 缓存 中 替换 
掉 了 )， 返 回 一 个 确认 信息 。 
”上 性。 这 表示 了 一 个 有 趣 的 竞争 情况 。 目 录 状 态 只 能 是 忙 ， 因 为 对 该 块 的 一 个 于 涉 
(由 于 来 自 男 一 个 节点 了 的 请 求 ) 已 经 被 转发 给 正在 回 写 的 那个 节点 X FHAR 
在 互连网 络 中 擦 肩 而 过 。 现 在 ,我 们 面临 一 个 有 趣 的 情形 。 从 了 来 的 其 他 操作 已 经 
在 执行 中 ， 不 能 被 取消 。 我 们 不 能 丢弃 这 个 回 写 ， 否 则 将 失去 这 个 块 的 惟一 有 效 副 
本 。 我 们 也 不 能 拒绝 这 个 回 写 并 在 了 的 操作 结束 后 重 坛 ， 因 为 那样 的 话 ，y 的 高 速 
缓存 中 将 有 一 个 有 效 的 副本 ， 而 一 个 不 同 的 脏 副 本 会 从 的 高 速 缓存 中 回 写 到 存储 
器 去 ! 这 个 协议 本 质 上 通过 合并 这 两 个 操作 ， 用 回 写作 为 对 了 的 请 求 的 响应 来 解决 
这 个 问题 ( 见 图 8-16f)。 发 现 目录 状态 是 忙 的 回 写 请 求 把 状态 变 为 共享 (如 果 状 态 是 
忙 -共享 ， 即 来 自 Y 的 请 求 是 为 了 读 一 个 副本 ) 或 者 排他 (如果 状 态 是 忙 -排他 )。 回 
写 返回 的 数据 由 宿主 转发 到 请 求 者 Y。 这 作为 给 了 的 应 答 ， 而 不 是 像 没有 回 写 的 情 
况 下 ， 直 接 从 《那里 收 到 应 答 。 当 由 于 了 的 请 求 ，X 收 到 一 个 该 块 的 干涉 时 ， CR 
是 忽略 它 〈 见 习题 8.13)。 目 录 也 发 送 一 个 回 写 确 认 给 了 了。 当 Y 了 收 到 响应 时 结束 操 
作 ， 当 蕊 收 到 回 写 确认 时 ， 回 写 操作 结束 。 在 讨论 操作 串 行 化 时 ， 将 看 到 在 更 复杂 
的 情况 下 这 个 处 理 的 一 个 例外 。 一 般 来 说 ， 回 写 把 很 多 微妙 的 情形 引入 了 基于 目录 
的 一 致 性 协议 。 
如 果 正 被 蔡 换 的 高 速 缓存 块 处 于 共享 状态 ， 节 点 可 以 选择 将 替换 提示 消息 发 回 宿主 ， 让 
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宿主 清除 目录 中 的 存在 位 ， 也 可 以 选择 不 这 样 做 。 替 换 提 示 消 息 避 免 对 该 块 的 下 一 个 死 用 的 
作废 ， 并 且 能 减少 有 限 指针 目录 表示 方案 中 表 项 的 数量 ， 但 它们 占用 通信 辅助 部 件 ， 民 能 减 
少 流量 。 实 际 上 ， 如 果 该 块 没有 被 其 他 的 节点 再 次 写 人 ， 车 换 提示 就 是 一 一 种 浪费 :- Origjy 协 
议 不 使 用 有 限 指针 表示 ， 也 不 使 用 替换 提示 。 

在 Origin 协议 中 ,用 于 一 致 性 存储 器 操作 的 事务 数 总 共 是 9 种 请 求 ，6 种 作废 和 干涉 ， 
39 种 响应 。 对 非 一 致 性 操作 ， 例 如 非 高 速 缓存 的 存储 器 操作 、LIO 操作 和 特殊 的 同步 支持 ， 
事务 的 数目 是 19 种 请 求 ，14 种 应 答 (因为 没有 一 致 的 高 速 缓存 ， 所 以 没有 作废 或 干涉 )。 


8.5.2 关于 正确 性 问题 


到 目前 为 止 ， 我 们 已 经 看 到 了 在 不 同 的 节点 上 读 扑 空 或 写 扑 空 时 发 生 的 情况 以 及 解决 一 
些 重要 竞争 的 方法 。 现 在 分 析 Origin 协议 另 一 个 侧面 ， 考 察 它 对 8.4.2 节 所 讨论 的 正确 性 问 
的 输入。 

. 为 了 一 致 性 对 单元 的 事 行 化 

rac Hho A A FAES PMR ANS 进行 次 序 串 行 化 的 实体 。 我 们 已 经 看 到 ， 这 里 
所 提供 的 串 行 化 不 是 在 宿主 节点 缓冲 请 求 ， 直 到 前 一 个 请 求 结束 ; 也 不 是 把 请 求 转 发 给 拥有 
者 节点 ， 即 使 目录 处 于 忙 状态 也 不 这 样 做 ; 而 是 在 忙 状态 下 由 宿主 拒绝 请 求 ， 让 它们 以 后 重 
试 。 只 有 在 稳定 目录 状态 下 请 求 才 被 转发 。 串 行 化 是 由 宿主 接受 请 求 的 次 序 决定 的 ， 也 就 是 
说 ， 由 宿主 满足 请 求 或 转发 它们 的 次 序 ， 而 不 是 由 请 求 到 达 宿 主 的 次 序 决 定 的 。 
8.4.2 节 中 对 串 行 化 技术 的 一 般 性 讨论 表明 : 对 一 个 给 定单 元 的 串 行 化 比 简单 的 全 局 串 行 
化 要 求 更 高 ， 因 为 实行 串 行 化 的 实体 没有 在 所 有 相关 节点 上 与 给 定 操作 有 关 的 事务 何 时 结束 
的 全 局 性 知识 。 有 了 对 协议 的 足够 深入 的 理解 ， 我 们 现在 考察 这 个 问题 的 革 些 具体 例子 
(Lenoski 1992) ， 看 看 问题 是 如 何 解决 的 〈 见 例 8.1 和 例 8.2)。 

例 8.1 考虑 下 面 的 代码 段 





rd A (i) wr A 
BARRIER BARRIER 


rd A (ii) 


对 入 的 写 人 可 以 发 生 在 对 A 的 首次 读 之 前 或 之 后 ， 但 是 ， 它 对 于 首次 读 必须 是 串 行 的 。 第 
二 次 对 A 的 读 总 是 返回 被 已 写 人 的 值 ， 然 而 ， 如 果 我 们 不 小 心 的 话 ， 写 的 效果 很 可 能 被 丢 
失 。 请 说 明 在 像 Origin 这 样 的 协议 中 这 类 情况 如 何 发 生 ， 并 讨论 可 能 的 解决 方案 。 

解答 : 图 8-17 显示 了 这 个 问题 如 何 发 生 ， 图 中 的 正文 解释 了 事务 、 事 件 序列 和 问题 。 
有 两 种 可 能 的 解决 方案 : 一 种 不 是 很 诱 人 的 方案 是 对 读 应 答 本 身 显 式 地 确认 ， 让 宿主 接受 到 
这 个 确认 后 继续 处 理 下 一 个 请 求 。 这 进一步 违背 了 请 求 - 响应 协议 的 本 性 ， 引 起 了 缓冲 和 洪 
在 死 锁 的 问题 ， 并 且 导 致 大 的 延迟 。 更 为 可 能 的 方案 是 P 这 样 对 块 有 未 决 请 求 的 节点 在 它 
的 未 决 请 求 完 成 前 ， 不 允许 像 作废 这 样 的 其 他 请 求 访问 其 高 速 缓存 中 的 对 应 的 块 。P, 可 以 
缓冲 进入 的 作废 请 求 ,， 并且 只 有 在 接受 并 结束 了 读 应 答 之 后 ， 才 实施 缓冲 的 作废 请 求 。 或 
者 ，P, 甚至 可 以 在 收 到 读 应 管 前 实施 作废 ， 然 后， 当 它 返回 并 重 试 读 时 ， 认 为 应 答 无 效 
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(一 个 NACK) 。Origin 机 用 前 一 种 方法 ， 而 DASH 机 用 后 一 种 方法 。 在 两 种 机 器 里 ，P, 的 第 
一 次 读 相 对 于 P 的 写 的 次 序 是 不 同 的 ， 但 两 种 次 序 都 是 有 效 的 。 需 要 的 缓冲 很 小 ， 并 且 不 
会 产生 死 锁 问 题 。 转 
例 8.2 除了 请 求 者 之 外 ， 宿 主 在 一 个 块 的 操作 结束 之 前 ， 也 不 允许 真正 实施 对 该 块 
(或 对 它 的 目录 状态 ) 的 新 的 操作 。 和 否则 ， 目 录 信 息 会 被 破坏 。 请 给 出 一 个 说 明 这 种 需要 的 
例子 并 讨论 解决 方案 。 
解答 : 图 8-18 显示 了 一 个 更 为 精妙 的 例子 。 发 出 写 请 求 的 节点 通过 确认 检测 写 的 结束 
(就 它 是 否 还 要 关心 这 个 写 操 作 而 言 )， 然 后 才能 处 理 对 该 块 的 另 一 个 请 求 。 问 题 是 宿主 并 不 
会 等 待 涉及 它 的 写 操作 的 结束 ， 即 等 待 修正 消息 和 目录 更 新 ， 然 后 才 允 许 其 他 访问 〈 这 里 是 
回 写 ) 作用 于 这 个 块 。Origin 协议 用 忙 状态 防止 这 样 的 现象 发 生 : 如 果 回 写 在 修正 信息 之 前 
到 达 时 ， 目 录 将 会 处 于 忙 - 排他 状态 。 当 目录 检测 到 回 写 来 自 使 目录 状态 变 成 忙 ~ 排他 的 同 
一 个 节点 ， 该 回 写 被 拒绝 并 必须 被 重 试 (回忆 一 下 关于 回 写 处 理 的 讨论 ， 如 果 发 出 导致 必 状 
态 的 请 求 的 节点 不 同 于 发 出 回 写 的 节点 ， 对 回 写 的 处 理 有 所 不 同 ; 在 这 种 情况 下 ， 回 写 不 是 
被 否定 回答 ， 而 是 作为 响应 被 送 到 请 求 者 去 )。 国 
1) Pi 向 宿主 节点 发 出 读 A 的 请 求 
2) P 像 宿主 发 出 排他 读 请 求 (为 写 人 A). BE ( 串 行 化 实施 者 ) 
在 结束 先 收 到 的 来 自 P 的 读 之 前 ， 不 会 处 理 它 
3) 作为 对 1) 的 响应 ， 宿 主 向 Pi 发 送 应 答 〈 并 设置 目录 存在 位 )， 
宿主 此 时 认为 读 已 经 结束 了 (对 读 应 答 没有 确认 )。 不 地 的 是 ， 
应 答 没 有 马上 到 达 P， 
4a) 作为 对 2) 的 响应 ， 宿 主 向 P 发 送 对 应 请 求 2 的 数据 应 答 
4b) 作为 对 2) 的 响应 ， 宿 主 向 P 发 送 作废 ， 它 在 事务 3 之 前 到 达 
P, (Origin 没有 假定 点 对 点 的 次 序 ， 一 般 来 说 ,作废 是 个 请 求 ， 
而 事务 3 是 个 响应 ， 它 们 在 不 同 的 网 络 中 传输 ) 
5) P, 接受 并 实施 作废 ， 像 宿主 发 送 确认 
最 后 ， 读 应 答 3) 到 达 Pi ， 覆 盖 作 废 的 块 。 当 P 在 路 障 (Barier) 


之 后 读 A 时 ， 它 读 到 肯 值 ， 而 不 是 看 到 作废 的 块 因而 去 取 新 值 。 
对 于 Pl 来 说 ，P 的 写 的 效果 被 丢失 


图 8-17 说 明 请 求 者 节点 操作 的 局 部 串 行 化 需求 的 例子 。 这 个 例子 显示 了 一 个 写 是 如 何 被 备 
失 的 ， 尽 管 宿主 认为 它 是 按 次 序 工作 的 。 与 第 一 个 读 操作 相关 的 事务 用 虚线 表示 ， 
而 与 写 操作 相关 的 事务 用 实 线 表示 。 事 务 线 上 的 3 个 横 杠 表示 事务 在 网 络 中 延迟 





初始 状况 : 块 在 Pi 的 高 速 缓存 中 处 于 脏 状 态 

1) P 向 宿主 发 出 排他 读 请 求 

2) 宿主 把 请 求 转 递 给 P|( 脏 节点 ) 

3) P, PEP, 发 送 数 据 应 答 (3a)， 向 宿主 发 送 “ 拥 有 权 转 移 ” 的 修正 
信息 给 宿主 ， 把 拥有 者 改 为 p，(3b) 

4) 接收 到 它 的 应 答 后 ，P; 认为 写 已 经 结束 了 ， 继 续 执行 ， 但 碰 到 要 
替换 掉 刚刚 变 脏 的 块 ， 因 此 要 通过 事务 4 把 该 块 回 写 
宿主 节点 在 收 到 来 自 P 的 拥有 权 和 转移 修正 消息 之 前 收 到 这 个 回 
E (即使 网 络 保持 点 对 点 的 次 序 也 无 济 于 事 )， 这 个 块 被 写 人 存 
储 器 。 然 后 ， 当 修正 消息 到 达 宿 主 节点 时 ， 修 改 目 录 指 示 P 拥 
有 脏 副本 。 但 这 不 是 事实 ， 我们 的 协议 被 破坏 了 


图 8-18 说 明 宿 主 节点 上 操作 的 局 部 串 行 化 需求 的 例子 。 这 个 例子 显示 了 如 果 宿 主 不 等 待 涉及 它 的 先前 的 请 
求 结束 例如， 从 拥有 者 节点 接收 到 修正 消息 ) 就 允许 对 同一 个 块 的 访问 ， 目 录 信息 是 如 何 破 坏 的 


这 些 例 子 说 明了 另 一 个 一 般 性 要 求 的 重要 性 ， 即 除了 要 有 对 块 做 全 局 串 行 化 的 实体 存在 





605 


606 





607 


440 并行 计算 机 体系 结构 








之 外 ,节点 必须 局 部 地 满足 正确 的 串 行 性 。 任 何 节 点 ,不 仅仅 是 实施 串 行 化 的 实体 ， 只 要 涉 
及 它 本 身 的 话 ， 在 对 一 个 块 的 早先 的 未 决 存储 器 操作 〈 节 点 已 经 开始 操作 ) 结束 之 前 ， 不 能 
实施 针对 该 块 的 新 的 存储 器 操作 的 事务 。 

2. 保持 存储 器 同一 性 模型 

动态 调度 的 R10000 处 理 器 允许 发 出 脱离 程序 原 序 的 独立 的 存储 器 操作 ， 同 时 允许 多 个 
操作 未 决 并 人 允许 未 决 操 作 之 间 重 登 。 但 是 ， 它 保证 操作 按照 程序 原 序 完成 ， 事 实 上 ， 它 保证 
写 操 作 相对 于 其 他 操作 以 程序 原 序 离开 处 理 器 环境 并 被 存储 器 系统 可 见 ; 因此， 保持 了 顺序 
同一 性 (第 11 章 进 一 步 讨 论 必要 的 处 理 器 机 制 )。 处 理 器 并 不 满足 第 5 章 所 说 的 顺序 同一 性 
的 充分 条 件 ， 因 为 它 不 等 前 面 的 操作 完成 就 发 出 下 一 个 操作 ， 但 是 ， 采 用 该 处 理 器 并 提供 原 
子 性 的 系统 本 身 满足 顺序 同一 性 模型 ” 。 

因为 处 理 器 保证 可 见 性 和 完成 遵循 程序 原 序 ， 存 储 器 层次 结构 可 以 在 不 破坏 这 个 性 质 的 
前 提 下 ， 按 它 的 期 望 改变 对 不 同 单元 操作 的 次 序 。Origin 协议 提供 前 面 讨论 过 的 写 的 原子 
E: 一 个 节点 不 允许 任何 对 作废 操作 未 决 的 块 的 新 的 访问 ， 直 到 对 这 些 作 废 的 确认 已 经 返回 
( 即 写 已 被 提交 )。 但 是 ， 由 于 Origin 协议 与 处 理 器 的 交互 而 产生 的 一 种 实现 上 的 考虑 对 保持 
SC 是 重要 的 。 回 忆 一 下 图 8-16d， 对 于 在 目录 中 处 于 共享 状态 的 块 的 写 请 求 〈 排 他 读 或 升 
级 ) 导致 什么 情况 发 生 。 请 求 者 接收 到 两 种 类 型 的 响应 : 来 自 宿主 节点 的 排他 应 答 ， 这 在 前 
面 已 经 讨论 过 了 ， 它 的 角色 是 指出 在 存储 器 处 写 已 经 相对 其 他 对 该 块 的 操作 串 行 化 了 ， 或 许 
将 返回 数据 ; 另 一 种 响应 是 作废 确认 ， 指 出 其 他 副本 已 经 被 作废 ， 写 已 经 结束 。 然 而 ， 微 处 
理 器 仅仅 希望 对 它 的 写 请 求 有 一 个 响应 ， 就 像 在 单 处 理 器 系统 里 那样 ， 所 以 这 些 不 同 的 响应 
必须 由 被 请 求 的 Hub 处 理 。 为 了 保证 顺序 同一 性 ，Hub 只 有 当 排 他 应 答 和 作废 确认 两 者 都 收 
到 后 ， 才 必须 把 响应 传递 给 处 理 器 ， 人 允许 它 声明 写 的 完成 。 它 不 能 在 收 到 排他 应 答 时 简单 地 
把 响应 传递 给 处 理 器 ， 因 为 这 将 允许 处 理 器 在 对 当前 单元 的 所 有 作废 被 确认 之 前 ， 结 束 对 其 
他 单元 的 后 面 的 访问 ， 从 而 违反 顺序 同一 性 。 我 们 将 在 9.1 节 看 到 ， 当 使 用 比 SC 更 放松 的 
存储 器 同一 性 模型 时 ， 这 种 违反 是 有 用 的 。 

3. RA, SH FRM 

Origin 使 用 有 限 的 输入 缓冲 和 一 个 非 严格 的 请 求 -响应 协议 。 正 如 8.4.2 节 所 讨论 的 ， 为 
了 避免 死 锁 ， 它 用 了 一 个 技术 : 在 它 侦 测 到 可 能 引发 死 锁 的 高 度 竞 争 时 ， 就 转 回 严格 的 请 
OR -响应 协议 。 因 为 没有 使 用 NACK 来 减轻 竞争 ， 也 避免 了 这 种 情况 下 的 活 锁 。 典 型 的 活 锁 
是 由 多 个 处 理 器 试图 同时 写 一 个 块 引起 的 ， 我 们 用 忙 状 态 和 NACK 来 避免 它 (回忆 一 下 在 这 
种 情况 下 ，NACK 能 避免 而 不 是 引起 活 锁 )。 到 达 宿 主 的 第 一 个 请 求 设置 状态 为 忙 并 向 前 扒 
进 ， 其 他 的 请 求 都 被 否定 回答 并 必须 重 试 。 

总 的 来 说 ，Origin 协议 的 思想 有 两 部 分 : 1) 成 为 “ 非 记 忆 的 "， 也 就 是 说 ， 每 一 个 节点 
对 进入 事件 的 反应 只 使 用 当前 的 本 地 状态 ， 不 涉及 先前 事件 的 历史 记录 ; 2) 当 一 个 操作 请 
求 其 他 资源 时 ， 不 允许 它 占用 全 局 共享 资源 。 后 者 导致 对 忙 资源 请 求 的 否定 回答 而 不 是 组 
冲 ， 这 有 助 于 防止 死 锁 。 这 些 决策 大 大 地 简化 了 硬件 ， 在 大 多 数 情 况 下 提供 了 高 的 性 能 。 然 
而 ， 因 为 用 拒绝 而 不 是 FIFO 次 序 ， 挨 饿 的 问题 依然 存在 。 这 个 问题 的 解决 是 给 请 求 赋予 优 





O 对 于 在 一 致 性 协议 控制 下 的 访问 来 说 ,这 是 成 立 的 。 处 理 器 也 支持 一 致 性 协议 不 可 见 的 非 一 致 的 存储 器 操作 ， 
对 这 些 操作 ， 系 统 不 保证 任何 次 序 。 在 这 种 情况 下 ， 插 人 同步 以 保持 所 希望 的 次 序 是 用 户 的 责任 。 
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先 级 ， 一 个 请 求 的 优先 级 是 该 请 求 被 拒绝 次 数 的 函数 ” 。 

4, 错误 处 理 

即使 是 正确 的 协议 ， 和 运行 时 还 是 可 能 发 生硬 件 和 软件 的 错误 。 这 些 错误 可 能 会 破坏 存储 
器 内 容 ， 或 者 把 数据 误 写 到 非 期 望 的 单元 (例如 ， 写 操作 的 地 址 被 破坏 )。Origin 系统 提供 
了 很 多 的 标准 机 制 来 处 理 部 件 的 硬件 错误 。 所 有 的 高 速 缓存 和 存储 器 都 用 差错 校正 码 (ECC) 
保护 ， 而 所 有 的 路 由 器 和 VO 链 路 都 用 循环 宛 余 校 验 码 (CRC) 和 一 个 硬件 链 路 级 的 协议 来 保 
护 ， 该 协议 自动 地 检测 错误 并 重 试 。 此 外 ， 当 程序 引起 失效 时 ， 系 统 提供 了 在 机 器 中 该 程序 运 
行 的 部 分 包容 失效 的 机 制 。 对 存储 器 和 1/0 设备 提供 了 访问 保护 权限 ， 防 止 非 授权 的 节点 对 它 
们 修改 。 这 些 访问 权 允 许 把 操作 系统 划分 成 单元 和 分 区 ， 这 种 结构 叫做 细胞 结构 操作 系统 。 一 
个 细胞 是 在 启动 时 配置 的 一 些 节 点 。 如 果 一 个 应 用 运行 于 一 个 细胞 ， 就 不 允许 它 对 细胞 外 的 
存储 器 或 IO 写 人 。 如 果 应 用 失败 并 破坏 了 存储 器 或 10， 它 只 会 影响 运行 在 同一 细胞 中 的 
其 他 应 用 或 系统 ， 而 不 会 破坏 细胞 外 的 代码 。 所 以 ， 细 胞 是 系统 中 抑制 故障 的 单位 。 


8.5.3 目录 结构 的 细节 


尽管 到 目前 为 止 为 了 简单 性 ， 我 们 假定 了 全 位 向 量 目录 组 织 结构 ，Origin 目录 项 的 实际 
结构 却 要 复杂 一 点 ， 有 两 点 理由 : 第 一 ， 为 了 安排 每 个 节点 两 个 处 理 器 ; 第 二 ， 人 允许 目录 结 
构 在 64 位 目录 项 的 情况 下 支持 多 于 64 个 节点 的 扩展 。 这 里 事实 上 有 三 种 可 能 的 目录 位 格式 
或 解释 。 如 果 一 个 块 在 高 速 缓存 中 处 于 排他 状态 〈 即 ， 被 修改 或 排他 ) ,那么 该 目录 项 的 其 
余部 分 就 不 是 有 一 位 被 置 位 的 位 向 量 ， 而 是 包含 了 指向 那个 特定 处 理 器 (不 是 节点 ) 的 显 式 
的 指针 。 这 就 意味 着 宿主 转发 的 于 涉 指向 那个 特定 的 处 理 器 。 否 则 ， 如 果 目 录 状 态 是 共享 
的 ， 目 录 项 就 被 解释 为 一 个 位 向 量 。 位 向 量 中 的 位 对 应 于 节点 ， 所 以 尽管 一 个 节点 中 的 两 个 
处 理 右 高 速 缓存 不 能 由 总 线 保持 一 致 ， 这 种 格式 下 目录 可 见 的 单位 是 节点 或 Hub， 而 不 是 处 
理 器 。 如 果 一 个 作废 被 发 送 给 了 Hub， 与 干涉 不 同 ， 它 通过 连接 两 个 处 理 器 和 Hub 的 SysAD 
总 线 广 播 给 节点 中 的 两 个 处 理 器 。 有 两 种 尺寸 的 存在 位 向 量 : 16 位 的 和 64 位 的 (在 16 位 情 
况 下 ， 目 录 项 存 贮 在 和 主 存储 器 一 样 的 DRAM F, MÆ 64 位 情况 下 ， 多 出 的 位 存放 在 并 行 
查找 的 扩展 目录 存储 器 模块 中 )。16 位 的 向 量 因此 支持 多 达 32 个 处 理 器 ,而 64 位 的 向 量 最 
多 可 支持 128 个 处 理 器 。 

对 更 大 的 系统 来 说 ， 对 位 的 解释 变 成 第 三 种 形式 。 在 一 个 有 p 个 节点 的 系统 中 ， 每 一 
位 对 应 一 组 固定 的 p/64 个 节点 。 当 一 个 组 的 任何 一 个 或 多 个 节点 具有 块 的 副本 时 ， 对 应 位 
就 被 置 位 。 如 果 写 发 生 时 一 个 位 处 于 置 位 状态 ， 作 废 就 被 发 送 到 该 位 所 代表 的 所 有 p/64 节 
点 (然后 被 广播 给 每 个 节点 的 两 个 处 理 器 )。 例 如 ， 在 支持 最 大 数目 为 1 024 个 处 理 器 (512 
个 节点 ) 的 情况 下 ， 每 一 个 位 对 应 8 个 节点 。 这 被 称 作 粗糙 向 量 表示 方式 ， 在 8.10 节 当 作 
为 高 级 论题 讨论 目录 表示 的 溢出 策略 时 将 再 次 遇 到 它 。 事 实 上 ， 在 大 机 器 中 ， 系 统 会 在 位 向 
量 和 粗 粒 度 向 量 表示 两 种 方式 之 间 动 态 地 选择 :如 果 共 享 一 个 块 的 所 有 节点 都 位 于 机 器 的 同 





O ”优先 级 机 制 按 如 下 方式 工作 。 一 个 块 的 目录 项 包含 一 个 与 之 相关 的 “当前 ”优先 级 。 不 会 使 目录 状态 变 为 忙 的 
进来 的 事务 总 是 被 服务 。 其 他 的 请 求 只 有 当 它 们 的 优先 级 高 于 当前 目录 优先 级 ， 才 可 能 被 服务 。 如 果 一 个 这 样 
的 请 求 被 否定 回答 (例如 ， 当 请 求 到 达 时 目录 处 于 忙 状态 )， 则 将 目录 的 当前 优先 级 设置 成 与 被 拒绝 的 请 求 优 先 
级 相同 。 这 保证 了 在 这 个 请 求 在 经 过 重 试 最 终 被 服务 以 前 ， 目 录 不 会 为 其 他 更 低 优先 权 的 请 求 服务 。 为 了 防止 
单调 增 而 使 目录 项 的 优先 级 到 “ 顶 "， 一 旦 一 个 优先 级 高 于 或 等 于 目录 项 优先 级 的 请 求 被 服务 ， 就 将 目录 项 优先 
级 复位 成 零 。 i 
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一 个 由 64 节点 组 成 的 八 分 之 一 中 ， 就 使 用 位 向 量 方式 ; 否则 ， 使 用 粗糙 向 量 。 
8.5.4 协议 扩展 


除了 前 面 讨论 的 协议 优化 外 ，Origin 的 协议 还 提供 了 一 些 扩展 ， 支 持 与 协议 交互 的 特殊 

IERES: SIRAH DMA RIE, ETBA. 
.对 输入 /输出 和 DMA 操作 的 支持 

为 了 支持 DMA THERE ERE, 协议 提供 了 “ 非 高 速 缓存 的 读 共享 ”请 求 。 该 请 
求 向 DMA 设备 返回 数据 一 致 副本 的 一 个 快照 ， 但 此 后 协议 不 再 保证 该 副本 的 一 致 性 。 该 请 
求 主要 由 VO 系统 和 Hub 提供 的 块 传输 引擎 使 用 ， 因 此 主要 为 操作 系统 所 使 用 。 从 DMA 设 
备 对 存储 器 进行 写 操作 时 ， 协 议 提供 了 “写作 废 ” 请 求 。 写 作废 只 是 简单 地 把 一 个 字 的 新 值 
写 人 存储 器 ,将 原来 的 值 覆盖 了 。 它 还 作废 了 系统 中 所 有 存在 的 该 块 的 高 速 缓存 副本 ， 使 旧 
录 项 回 到 未 拥有 状态 。 从 协议 的 角度 来 看 ， 它 的 行为 和 排他 读 请 求 类 似 ， 只 是 它 修改 了 存储 
器 中 的 块 并 且 将 目录 项 置 为 未 拥有 状态 。 

2. 对 自动 页 迁移 的 支持 

正如 我 们 在 第 3 章 中 所 讨论 的 ， 对 于 有 物理 分 布 的 存储 器 的 机 器 而 言 ， 重 要 的 是 将 数据 
适当 地 在 物理 存储 器 内 分 配 ， 以 使 得 大 多 数 容量 扑 空 、 冲 突 扑 空 和 冷 启 动 扑 空 在 本 地 满足 。 
在 像 Origin 这 样 的 CC-NUMA 机 器 中 ， 数 据 按 页 的 粒度 (这 里 为 16 KB) 在 存储 器 中 分 配 。 尽 
和 的 多 下， 即使 在 没有 竞争 的 情况 下 ， 但 访问 远程 存储 器 的 时 延 

也 至 少 是 访问 本 地 存储 器 时 延 的 2~3 倍 。 页 面 在 存储 器 中 的 适当 分 布 可 以 在 运行 时 动态 调 
整 ， 或 者 由 于 并 行程 序 访问 模式 的 变化 ， 或 者 由 于 操作 系统 决定 把 应 用 进程 从 一 个 处 理 器 迁 
移 到 另 一 个 处 理 器 ， 以 便 在 多 道 程 序 应 用 之 间 更 好 地 管理 资源 。 所 以 ， 系 统 在 运行 时 发 现 移 
动 页 面 的 需要 ， 自 动 把 它们 迁移 到 需要 的 地 方 是 有 用 的 。 

Origin 给 主 存 的 每 一 页 提供 了 一 个 扑 空 计数 器 数组 ， 每 个 节点 一 个 计数 器 ， 用 它 来 判定 
什么 时 候 大 多 数 扑 空 来 自 非 本 地 处 理 器 ， 因 此 需要 将 页 迁移 。 扑 空 计数 器 存在 宿主 的 目录 存 
储 器 中 。 当 有 对 一 个 页 的 请 求 时 ， 就 将 对 应 节点 的 扑 空 计数 器 加 1， 并 和 宿主 节点 的 扑 空 计 
数 咒 进行 比较 。 如 果 它 超出 后 者 一 定 的 阐 值 ， 就 可 以 把 该 页 迁移 到 那个 远程 节点 去 。( 对 每 
个 页 提供 了 64 个 计数 器 ， 如 果 系 统 中 节点 数 大 于 64， 则 8 个 节点 共享 一 个 计数 器 。) 页 迁移 
的 代价 一 般 都 很 高 ， 通 常 抵 销 了 进行 迁移 的 好 处 。 其 代价 之 所 以 这 么 高 的 一 个 主要 原因 在 于 
要 改变 所 有 访问 该 页 的 处 理 器 的 TIB 中 虚实 地 址 的 映射 ， 而 不 是 由 于 页 传送 (用 Hub 的 块 
传输 引擎 传送 一 个 16 KB 的 页 大 约 需要 25 ~ 30us)。 迁 移 一 个 页 将 保持 虚 地 址 不 变 ， 但 是 改 
变 了 物理 地 址 ， 因 此 处 理 器 页 表 的 旧 映 射 现 在 是 无 效 的 。 当 页 表 项 被 改变 时 ， 重 要 的 是 处 理 
器 的 TLB 表 项 的 高 速 缓存 版 本 应 被 作废 (很 像 第 6 章 讨论 过 的 TLB 击落 )。 事 实 上 ， 由 于 我 
们 不 知道 哪个 处 理 器 在 其 TLB 中 缓存 了 该 页 的 映射 必须 向 所 有 的 处 理 器 发 送 一 个 TLB E 
上 废 消息 。 处 理 器 被 中 断 ， 发 出 作废 的 处 理 器 必须 等 到 最 后 一 个 处 理 器 也 做 出 了 响应 ， 才 能 更 
新 页 表 项 并 继续 执行 。 除了 页 传送 本 身 的 代价 之 外 ， 这 个 过 程 一 般 需 要 100 ys 以 上 的 时 间 。 

为 了 减少 这 个 代价 ，Origin 采用 了 它 的 第 7 种 目录 状态 ， 即 毒化 状态 所 支持 的 分 布 式 惰 
性 TLB 作废 机 制 。 其 思想 是 页 移动 时 不 作废 TLB 项 ， 而 是 当 该 处 理 器 下 一 次 访问 该 页 时 才 
将 其 TLB 项 作废 。 这 样 做 不 仅 把 作废 所 有 TLB 的 时 间 从 管理 迁移 的 处 理 器 的 关键 路 经 中 移 
走 ， 而 且 只 是 把 接着 访问 该 页 的 处 理 器 的 TLB 项 作废 。 让 我 们 看 看 这 是 如 何 工作 的 。 为 了 
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迁移 一 个 页 ， 块 传输 引擎 用 特殊 的 “ 非 高 速 缓存 的 排他 读 ” 请 求 从 源 页 位 置 读 取 所 有 的 高 速 
缓存 块 。 这 种 请 求 返回 数据 的 最 新 的 一 致 的 副本 ， 并 且 作 废 任何 存在 的 高 速 缓存 副本 ( 像 一 
个 正规 的 排他 读 请 求 一 样 )， 但 是 它 也 导致 用 块 的 最 新 版 本 更 新 目标 主 存 ， 并 将 目录 置 为 毒 
化 状态 。 迁 移 本 身 只 花费 了 块 传输 的 时 间 。 当 处 理 器 接着 试图 使 用 其 过 时 TLB 项 访问 旧 的 
物理 页 的 块 时 ， 它 会 在 高 速 缓存 中 扑 空 ， 并 且 发 现 目录 中 块 处 于 毒化 状态 。 这 时 ， 毒 化 状态 
导致 发 出 请 求 的 处 理 器 看 到 一 个 总 线 错误 。 对 于 该 总 线 错误 的 特殊 的 操作 系统 处 理 例 程 将 使 
页 表 处 理 器 的 TLB 项 作废 ， 这 样 处 理 器 再 次 访问 时 可 以 从 页 表 中 获得 新 的 映射 。 当 然 ， 系 
统 在 某 个 时 刻 会 回收 旧 的 物理 页 以 避免 存储 空间 的 浪费 。 一 旦 块 传输 完成 ， 操 作 系 统 每 个 时 
间 片 作废 一 个 TLB 项 ， 这 样 在 一 个 固定 的 时 间 后 ， 旧 页 可 以 被 移 到 空 表 中 。 

3. 对 同步 的 支持 

Origin 提供 了 两 种 类 型 的 同步 支持 。 首 先 ，R10000 处 理 器 的 加 锁 载 人 - 条 件 存 储 (LL 
SC) 指令 可 以 有 效 地 合成 同步 操作 ， 这 一 点 前 面 已 经 提 到 过 。 其 次 ， 如 果 有 多 个 处 理 器 竞 
争 更 新 一 个 存储 单元 ， 比 如 全 局 的 计数 器 或 一 个 栅 障 ， 可 以 提供 非 高 速 缓存 的 fetch&op 原 
语 。 这 些 fetch&op 操作 在 主 存 中 执行 ， 并 不 在 高 速 缓存 中 复制 块 ， 这 样 后 续 的 试图 更 新 该 单 
元 的 节点 就 不 需要 从 前 一 个 写 人 者 的 高 速 缓存 中 去 取 它 。 当 同一 个 节点 反复 访问 共享 的 〈 同 
步 ) 变量 时 ， 使 用 可 高 速 缓存 的 LC-SC 效果 更 好 ， 当 不 同 的 节点 以 交错 或 者 竞争 的 方式 进行 
更 新 ， 则 使 用 fetch&op 的 效果 更 好 。 非 高 速 缓存 的 读 写 操作 对 同步 事件 的 生产 者 -消费 者 型 
的 通信 也 有 帮助 ， 因 为 在 通 往 宿主 节点 的 路 上 ， 生 产 者 和 消费 者 的 事务 甚至 可 能 会 重 倒 。 但 
是 ， 在 远程 非 高 速 缓存 的 单元 上 踏步 等 待 可 能 产生 大 量 的 流量 。 


8.5.5 ”Origin2000 硬件 概述 


前 面 关于 协议 的 讨论 使 我 们 了 解 了 扁平 的 、 基 于 存储 器 的 目录 协议 是 如 何 用 网 络 事务 和 
状态 转换 实现 的 ， 正 像 基 于 总 线 的 协议 是 用 总 线 事务 和 状态 转换 实现 的 一 样 。 现 在 让 我 们 把 
注意 力 集中 到 实现 这 一 协议 的 Origin2000 的 实际 硬件 上 来 。 本 节 概 述 了 系统 硬件 的 组 成 ， 随 
后 深入 考察 Hub 控制 器 是 怎么 样 实现 的 〈 见 8.5.6 小 节 )。 最 后 ， 在 8.5.7 节 讨 论 机 器 的 性 
能 。( 只 对 协议 感 兴趣 的 读者 可 以 跳 过 本 节 的 剩余 部 分 而 不 会 失去 连贯 性 。) 

除了 由 一 个 系统 总 线 连接 的 两 个 MIPS R10000 处 理 器 之 外 ，Origin2000 的 每 个 节点 包含 
机 器 主 存 的 一 部 分 〈 每 节点 1~4 GB)、 一 个 Hub ( 它 是 通信 /一 致 性 控制 器 和 网 络 接口 的 合 
W) 以 及 一 个 被 称 为 Xbow 的 1/0 接口 。 除 Xbow 外 的 所 有 组 成 部 分 都 在 一 块 “16x 11” 的 印 
刷 电 路 板 上 。 节 点 中 每 个 处 理 器 都 有 它 自 己 独立 的 L AL, 高 速 缓存 ，L 高 速 缓存 的 配置 可 
以 是 14 MB， 块 大 小 为 128 字 节 ， 采 用 两 路 组 相 联 。 主 存 的 每 个 块 对 应 一 个 目录 项 。 存 储 器 
采用 4~32 路 交叉 访问 ,根据 插 入 的 存储 模块 数 来 决定 (模块 内 4 KB 粒度 4 路 交叉 ， 模 块 
间 512 MB 粒度 32 路 交叉 )。 系 统 可 以 有 多 达 512 个 这 样 的 节点 ， 即 1 024 个 处 理 器 。 对 195 
MHz 的 R10000 处 理 器 而 言 ， 每 个 处 理 器 的 峰值 性 能 为 390 MFLOPS 或 者 780 MIPS (每 个 时 钟 
周期 4 条 指令 )， 因 此 最 大 的 机 器 配置 总 的 峰值 性 能 几乎 可 达 500 GFLOPS。 连 接 两 个 处 理 器 
的 SysAD 总 线 的 峰值 带宽 为 780 MBps. Hub 和 存储 器 的 连接 带宽 也 是 如 此 。 存 储 器 本 身 的 数 
据 带 宽 约 为 670 MBps. Hub 与 板 外 网 络 路 由 器 芯片 和 Xbow IO 接口 的 连接 带宽 分 别 为 1，56 
GBps， 和 采用 相同 的 链 路 技术 。 节 点 板 的 详 图 如 图 8-19 所 示 。 

Hub 已 片 是 机 器 的 心 胜 。 它 位 于 节点 的 系统 总 线 上 ， 连 接着 处 理 器 、 本 地 存储 器 、 网 络 
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图 8-19 Origin 多 处 理 器 的 节点 板 。“L $ ”表示 二 级 高 速 缓存 芯片 ,“B Cul” 表 示 存 储 器 体 榨 制 器 


和 Xbow， 这 些 部 件 都 通过 Hub 相互 通信 。 对 本 地 存储 器 或 远程 存储 器 的 所 有 高 速 缓存 扑 空 
都 要 通过 Hub ( 它 实 现 一 致 件 协议 )， 所 有 的 非 高 速 缓存 操作 也 要 经 过 Hub. Hub 的 集成 度 很 
高 ， 采 用 500-k 的 门 标准 单元 设计 ，0.5pm 的 CMOS 工艺 。 它 为 节点 的 两 个 处 理 器 各 设置 了 
一 个 未 决 事务 缓冲 器 〈 每 个 处 理 器 允许 有 4 个 未 决 的 请 求 ) 、 一 对 支持 以 系统 总 线 全 部 带宽 
进行 存储 器 块 复制 和 填充 操作 的 块 传输 引擎 、 网 络 接口 、SysAD 总 线 、 存 储 器 /目录 和 1/0 子 
系统 。Hub 还 实现 前 面 讨 论 过 的 存储 器 的 非 高 速 缓存 的 feteh&op 指令 和 页 迁移 。 

互连网 络 在 机 器 的 处 理 器 数 小 于 64 个 时 采用 超 立 方 体 拓扑 结构 ， 但 是 当 处 理 器 个 数 超 
过 64 时 采用 另外 一 种 叫做 胖 立 方 体 的 拓扑 结构 。 (该 拓扑 结构 在 第 10 章 讨 论 ) 每 个 路 由 器 
提供 6 条 链 路 。 网 络 链 路 具有 高 带宽 〈 每 条 链 路 总 带宽 1.56 GBps， 双 向 ) 、 低 时 延 (经 过 一 
个 路 由 器 点 对 点 时 延 41 ns)， 链 路 长 可 达 3 英尺 ， 每 条 链 路 支持 4 个 虚拟 通道 。 虚 拟 通道 将 
在 第 10 章 介绍 ， 现 在 ， 我 们 可 以 认为 机 器 拥有 4 个 独立 的 网 络 ， 每 个 拥有 实际 物理 链 路 带 
宽 的 四 分 之 一 。 一 个 虚拟 通道 用 作 请 求 网 络 事务 ， 另 一 个 用 于 响应 。 其 他 两 个 用 于 缓解 拥塞 
和 高 优先 级 事务 的 传输 ， 此 时 可 按 点 对 点 的 次 序 ， 或 者 也 可 以 用 作 VO. 

Xbow 芯片 连接 Hub 和 其 他 的 IO 接口 。 它 本 身 被 实现 为 具有 8 个 端口 的 交叉 开关 。 典 
型 地 ， 两 个 节点 (Hub) 连接 到 一 个 Xbow 上 ， 经 过 Xbow 后 连 到 6 个 外 部 的 WO 卡 上 ， 如 图 
8-20 所 示 。Xbow 和 路 由 器 芯片 (PKA SPIDER) 很 相似 ， 但 是 具有 较为 简单 的 缓冲 和 仲裁 ， 
这 样 就 可 以 在 芯片 上 容纳 8 个 接口 而 不 是 6 个 接口 。 仲 裁 器 还 支持 对 特定 设备 的 带宽 预 留 ， 


因此 可 以 支持 像 视 频 VO 这 样 的 实时 要 求 。 像 图 形 卡 这 样 的 高 性 能 VO 卡 直接 连接 到 Xbow 


的 端口 上 ， 但 是 ， 大 多 数 其 他 的 端口 还 是 通过 桥 或 者 V0 总 线 连接 ， 这 样 允许 插入 多 个 卡 。 
任意 一 个 处 理 器 都 可 以 访问 机 器 中 的 任何 一 个 物理 WO 设备 ， 可 以 通过 对 特殊 1/0 地 址 空间 
的 非 高 速 缓存 的 访问 ， 或 者 通过 高 速 缓存 一 致 的 DMA 操作 。 一 个 LO 设备 也 可 以 和 系统 中 
任意 一 个 存储 器 交换 数据 ， 而 不 是 局 限于 通过 Xbow 与 其 直接 相连 的 节点 上 的 存储 器 ， 这 样 
充分 利用 了 共享 地 址 空间 的 优点 。 处 理 器 和 相应 的 Xbow 之 间 的 通信 由 Hub 和 网 络 路 由 器 透 
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图 8-20 由 两 个 节点 共享 的 典型 的 Origin VO 配置 。 高 性 能 的 图 形 设备 直接 连 到 
Xbow 上 ， 其 他 的 WO 设备 连 到 1/0 BRE, VO 总 线 经 过 桥 与 Xbow 相连 
明 地 处 理 。 所 以 ， 和 存储 器 一 样 VO 设备 也 是 物理 上 分 布 ， 但 全 局 可 访问 ， 因 此 vo 分 布 的 
局 部 性 也 是 性 能 问题 而 不 是 正确 性 的 问题 。 


8.5.6 Hub 的 实现 


通信 辅助 部 件 ， 即 Hub， 必 须 具 有 实现 一 致 性 协议 的 某 些 基本 能 力 。 它 必须 能 够 看 到 所 
有 的 高 速 缓存 扑 空 、 同 步 事 件 和 非 高 速 缓 存 操 作 ， 在 继续 处 理 其 他 发 出 的 请 求 和 进入 的 事务 
的 同时 ， 跟 踪 未 决 的 请 求 ， 保 证 接收 来 自 网 络 的 响应 ; 作废 高 速 缓存 块 ， 以 及 为 了 获得 数据 
对 高 速 缓存 的 干涉 操作 。 对 于 来 自 不 同 部 件 流 过 它 的 所 有 不 同类 型 的 事务 的 动作 和 相互 依赖 
性 ， 它 还 必须 予以 协调 ， 并 且 实 现 必要 通路 和 控制 。 因 此 ， 设 计 这 样 的 控制 器 是 一 种 挑战 。 
本 小 节 简 要 描述 Orign2000 中 所 使 用 的 Hub 控制 器 的 主要 成 分 ， 并 指出 在 一 致 性 协议 的 实现 
中 采用 的 主要 特性 。 了 解 Hub 的 实际 数据 和 控制 通路 的 进一步 的 细节 ， 以 及 用 来 实际 控制 
消息 间 交 互 的 机 制 ， 对 于 理解 如 何 实现 可 扩展 的 高 速 缓 存 一 致 性 协议 是 有 用 的 ， 读 者 可 以 阅 
读 其 他 文献 (Singh 1997)。 

Hub 划分 成 4 个 主要 的 接口 ， 各 用 于 它 所 连接 的 每 一 种 类 型 的 外 部 实体 ， 处 理 器 接口 或 
称 PI， 存 铺 器 /目录 接口 或 称 MI， 网 络 接口 NI 和 LO 接口 TT ( 见 图 8-21)。 接 口 之 间 通 过 芯 
片上 的 交叉 开关 相互 通信 。 每 个 接口 分 成 几 个 主要 的 结构 ， 包 括 对 发 往 / 来 自 其 他 接口 以 及 
发 往 /来 自 外 部 实体 的 消息 进行 缓冲 的 FIFO 队列 。 设 计 中 的 一 个 关键 的 特性 是 接口 对 外 部 实 
体 屏 蔽 其 他 接口 和 实体 的 细节 ， 反 之 亦 然 。 例 如 ，PI 对 其 他 部 分 隐藏 处 理 器 ， 央 此 任何 其 
他 的 接口 只 需 知道 PI 的 行为 ， 而 不 知道 处 理 器 和 SysAD 总 线 本 身 的 行为 。 让 我 们 简要 地 讨 
论 一 下 PI、MI 和 NI 的 结构 ， 以 及 这 些 接 口 提供 的 屏蔽 的 例子 。 

1. 处 理 器 接口 

在 接口 中 ，PI 的 控制 机 制 最 复杂 ， 因 为 它 必 须 跟 踪 未 决 的 协议 请 求 和 进入 的 响应 ， 并 
是 必须 对 它们 进行 匹配 。PI 一 侧 与 两 个 R10000 处 理 器 的 存储 器 (SysAD) 总 线 连接 ， 另 一 侧 
和 输入 输出 的 FIFO 队列 连接 ， 这 些 队列 将 它 与 男 一 端的 各 个 Hub 接口 相连 接 ( 见 图 8-21). 
通过 提供 独立 的 逻辑 和 分 级 缓冲 ， 每 个 物理 的 FIFO 逻辑 上 被 分 成 独立 的 请 求 和 响应 “虚拟 
FIFO 。 此 外 ，FI 本 身 还 包含 三 对 一 致 性 控制 缓冲 器 ， 它 们 被 用 于 跟踪 未 决 的 事务 ， 控 制 消 
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图 8-21 Hub 芯片 的 布局 。 中 央 的 交叉 开关 连接 4 种 不 同 接口 的 缓冲 器 。 从 左下 角 开 始 
顺 时 针 看 ，BTE 是 块 传输 引擎 。 左 上 和 角 是 IO 接口 或 记 作 N (SSD 和 SSR 对 发 往 
MEA WO 接口 的 信号 进行 转换 )。 接 下 来 是 网 络 接 口 〈《NI) ， 包 括 路 由 表 。 右 
下 角 是 存储 器 /目录 接口 (MI)， 最 下 方 是 处 理 器 接口 (PI) 及 其 请 求 跟踪 缓冲 器 


息 流通 过 EL， 实 现 协议 所 指定 的 消息 间 的 相互 作用 。 但 是 ， 这 些 缓冲 器 并 不 保存 消息 本 身 。 
有 两 个 读 请 求 缓冲 器 (RRB)， 跟 踪 来 自 每 个 处 理 器 的 未 决 读 请 求 ， 有 两 个 写 请 求 缓冲 器 
(WRB)， 跟 踪 未 决 的 写 请 求 ， 还 有 两 个 干涉 请 求 缓冲 器 (IRB)， 跟踪 进入 的 作废 和 干涉 请 
求 。 对 这 三 组 缓冲 器 的 访问 是 通过 单条 总 线 ， 因 此 所 有 的 消息 需要 竞争 访问 它们 。 

记录 在 一 种 类 型 的 缓冲 器 中 的 消息 也 可 能 需要 查询 其 他 类 型 的 缓冲 器 ， 以 便 检 查 是 否 有 
来 自 处 理 器 对 同一 地 址 的 冲突 访问 或 干涉 。 例 如 ， 向 外 发 出 的 读 请 求 对 WRB 执行 相关 查找 ， 
看 看 是 否 有 对 同一 地 址 的 未 决 的 回 写 。 如 果 有 一 个 冲突 的 WRB 项 ， 读 请 求 就 不 放 到 PI 的 发 
送 读 请 求 的 FIFO 队列 中 去 ， 而 是 在 RRB 项 中 设置 一 个 位 ， 表 明 当 对 应 的 WRB 项 释放 时 ， 
应 该 重新 发 出 读 清 求 〈 也 就 是 说 ， 当 回 写 被 确认 或 根据 每 个 协议 被 进入 的 作废 撤销 时 )。 当 
来 自 节点 中 的 处 理 器 或 者 来 自 其 他 接口 的 结束 响应 到 达 时 ， 也 要 查找 缓冲 器 来 关闭 其 中 对 应 
的 未 决 PL 事务 。 因 为 事务 关闭 的 次 序 是 不 确定 的 ， 因 此 一 个 新 的 事务 必须 进入 任何 可 用 的 
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缓冲 单元 ， 这 样 ， 这 些 跟踪 缓冲 器 的 实现 就 是 全 相 联 的 ， 而 不 是 先进 先 出 (FIFO) 的 了 ( 保 
存 实 际 消息 的 队列 是 FIFO 的 )。 缓 冲 器 的 查找 决定 了 了 是 否 应 该 对 处 理 器 或 者 其 他 接口 发 
出 一 个 请 求 。 

Pl 是 接口 提供 屏蔽 的 很 好 例子 。 如 果 处 理 器 (或 高 速 缓存 ) 对 进 人 的 干涉 提供 数据 作 
为 应 答 ， 正 是 FI 的 输出 FIFO 把 应 答 扩 展 成 协议 要 求 的 两 个 响应 ， 一 个 是 给 宿主 节点 的 共享 
的 回 写 修正 消息 ， 另 一 个 是 给 请 求 者 的 响应 。 并 不 需要 修改 处 理 器 ， 让 它 产生 两 个 应 答 。 另 
一 个 例子 是 用 于 跟踪 和 匹配 进入 和 送出 的 请 求 和 响应 的 机 制 。 以 任 一 方向 通过 PI 的 请 求 被 
赋予 一 个 请 求 号 ， 响 应 也 携带 这 些 请 求 号 。 但 是 ， 处 理 器 本 身 并 不 知道 请 求 号 ，PI 的 任务 
是 ， 当 它 把 一 个 进入 的 请 求 (干涉 或 作废 ) 传递 给 处 理 器 时 ， 它 保证 将 处 理 器 的 响应 与 未 决 
的 干涉 /作废 匹配 ， 而 处 理 器 无 需 与 请 求 号 打交道 。 

2. 存储 器 /目录 接口 

在 MI 和 Hub 的 交叉 开关 之 间 也 有 FIFO. M Hub 的 交叉 开关 到 MI 的 FIFO 将 消息 头 与 数 
据 分 离 ， 以 便 为 当前 消息 服务 时 ， 目 录 可 以 检查 下 一 个 消息 的 头 ; 这 人 允许 以 存储 器 峰值 带宽 
对 写 操作 流水 执行 。MI 还 含有 一 个 目录 接口 ， 一 个 处 理 器 接口 和 一 个 控制 器 。 目 录 接 口 包 
会 决定 所 发 生 的 协议 动作 的 逻辑 和 表 ， 因 此 实现 了 一 致 性 协议 。 它 还 包含 生成 输出 消息 头 的 
逻辑 ， 而 存储 器 接口 包含 生成 输出 消息 数据 的 逻辑 。 存 储 器 和 目录 RAM 都 有 各 自 的 地 址 和 
数据 总 线 。 一 些 消息 像 到 达 宿 主 节点 的 修正 消息 可 能 不 访问 存储 器 而 只 访问 目录 。 

接收 到 一 个 读 请 求 ， 宿 主推 测 性 地 向 存储 器 发 出 读 操作 ， 同 时 开始 目录 操作 。 在 存储 器 
数据 读 出 之 前 的 一 个 时 钟 周期 获得 目录 状态 ， 控 制 器 用 它 (外 加 消息 类 型 和 发 出 者 ) 来 查找 
目录 协议 表 。 这 个 硬 接线 实现 的 表 指 出 控制 器 应 发 生 的 动作 和 应 发 送 的 消息 。 目 录 块 把 后 一 
个 信息 发 送 给 存储 器 接口 ， 在 那里 装配 消息 头 ， 并 将 它 和 从 存储 器 返回 的 数据 一 起 插 人 输出 
FIFO 中 。 目 录 查 找 本 身 是 一 个 读 - 修 改 - 写 操作 。 为 此 ，MI 提供 对 存储 器 块 部 分 写 的 支持 ， 
并 用 一 个 只 有 一 项 的 合并 缓冲 器 保存 从 存储 器 读 出 的 字 节 ， 直 到 它们 被 写 回 。 最 后 ， 为 了 加 
速 用 于 同步 的 对 存储 器 的 fetch&op 访问 ，MI 包含 了 一 个 4 项 的 LRU fetch&op 高 速 缓存 ， 用 于 
保存 最 近 的 fetch&op 变量 的 数据 ， 因 此 ， 可 以 尽量 地 避免 存储 器 或 者 目录 的 访问 。 这 将 最 佳 
情况 的 存储 器 fetch&op 串 行 时 间 降 低 为 41 ns, K2 4 个 100 MHz 的 Hub 时钟 周期 。 

3. 网 络 接 口 

NI 提供 Hub 的 交叉 开关 和 该 节点 的 网 络 路 由 器 的 接口 。 路 由 器 和 Hub 内 部 使 用 不 同 的 
数据 传输 格式 、 不 同 的 协议 和 不 同 的 速率 (Hub 的 频率 为 100 MHz， 而 路 由 器 的 频率 为 400 
MHz), ltt NI 的 一 个 主要 功能 就 是 在 两 者 之 间 进 行 转换 。 朝 向 路 由 器 这 侧 ，NI 实现 了 一 个 
流 控 机 制 ， 以 避免 网 络 拥塞 〈Singh 1997)。NI 和 网 络 之 间 的 FIFO 也 实现 分 开 的 虚拟 的 请 求 
和 响应 FIFO， 因 此 实现 了 独立 的 虚拟 网 络 。 输 出 FIFO 包含 一 个 作废 目的 节点 地 址 的 生成 
器 ， 它 利用 作废 节点 的 位 向 量 ， 并 生成 发 给 那些 节点 的 一 个 个 消息 ; 输出 FIFO 还 包含 一 个 
路 由 表 和 虚拟 通道 选择 逻辑 ， 路 由 器 根据 源 节点 和 目的 节点 预先 决定 路 由 。 


8.5.7 性 能 特征 


前 面 说 过 ，Origin2000 系统 的 峰值 硬件 带宽 为 : SysAD 总 线 是 780 MBps; 本 地 存储 器 是 
670 MBps; 节点 到 网 络 的 每 个 方向 是 780 MBps。 对 高 速 缓存 块 的 一 个 事务 占用 宿主 节点 Hub 
的 大 约 20 个 Hub 周期 ( 约 为 40 个 处 理 器 周期 )、 根 据 后 续 访 问 的 目录 页 是 否 位 于 同一 个 目 
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录 RAM 体 或 根据 后 续 事 务 的 精确 模式 ， 这 个 占用 时 间 可 能 在 18 个 周期 到 30 个 周期 之 间 变 
化 。 存 储 器 操作 的 时 延 取决 于 很 多 因素 ， 比 如 说 操作 的 类 型 ， 宿 主 是 本 地 的 还 是 远程 的 ， 数 
据 当前 缓存 在 什么 地 方 ， 处 于 什么 状态 ， 访 问 路 径 上 对 资源 的 竞争 如 何等 。 时 延 可 以 用 微 基 
准 测试 程序 来 进行 度量 。 首 先 考察 微 基 准 测试 程序 关于 时 延 和 带宽 的 结果 ， 然 后 是 6 个 并 行 
应 用 的 性 能 和 扩展 性 。 

1. 微 基 准 测试 程序 的 特征 

与 SGI Challenge 所 使 用 的 MIPS R4400 处 理 器 不 同 ，Ornigin 的 MIPS R10000 处 理 器 采用 动 
态 调 度 ， 不 会 在 读 扑 空 上 暂停 。 这 样 使 得 读 时 延 的 测量 更 加 困难 ， 因 此 产生 了 一 个 有 趣 的 方 
法 学 的 问题 。 例 如 ， 我 们 不 能 通过 简单 地 执行 第 4 章 的 微 基 淮 测 试 程序 ， 读 一 个 跨 距 大 于 高 
速 缓存 块 尺寸 的 数组 的 元 素 ， 来 测量 读 扑 空 的 无 负载 时 延 。 因 为 扑 空 发 生 在 不 同 的 单元 ， 后 
续 的 扑 空 会 相互 重合 ， 处 理 器 看 不 到 它 完整 的 时 延 。 相 反 ， 该 微 基准 测试 程序 将 给 出 系统 在 
一 个 处 理 器 发 出 连续 的 读 扑 空 时 所 能 提供 的 知 吐 量 的 度量 。 吞 吐 量 是 重 鱼 后 仍 莘 余 的 时 延 的 
倒数 ， 我 们 称 这 种 时 延 为 流水 时 延 。 

为 了 测量 完整 的 时 延 ， 我 们 需要 保证 相继 的 操作 相互 依赖 。 为 了 做 到 这 一 点 ， 可 以 用 
一 个 沿 链表 追赶 指针 的 微 基准 测试 程序 : 在 前 一 次 的 读 指 针 的 操作 结束 之 前 ， 处 理 器 得 不 到 
下 一 个 读 的 地 址 ， 这 样 读 不 能 重 释 。 但 是 ， 我 们 发 现 这 对 决定 无 负载 时 延 有 点 过 于 斐 观 了 。 
其 原因 是 处 理 器 能 实现 关键 字 重 启 ， 也 就 是 说 ， 一 旦 所 读 的 字 返 回 到 处 理 器 ， 它 就 可 以 使 用 
读 返 回 的 值 ， 而 不 必 等 高 速 缓存 块 的 其 余部 分 载 入 高速 缓 存 。 在 指针 追赶 微 基准 测试 程序 
中 ， 下 一 个 读 请 求 会 在 前 一 个 块 被 载 人 之 前 发 出 ， 并 且 将 和 块 的 其 余部 分 的 载 人 竞争 高 速 组 
存 的 访问 。 从 该 微 基 准 测试 程序 得 到 的 时 延 ， 其 中 包括 了 这 种 竞争 ， 可 以 称 之 为 背靠背 时 延 
(正好 在 前 一 次 读 结束 时 发 出 下 一 次 读 扑 空 )。 要 避免 连续 访问 之 间 的 竞争 ,需要 在 读 扑 空 之 
间 插 入 一 些 计算 ; 该 计算 应 该 依赖 于 正在 读 出 的 数据 ， 因 此 它 不 可 以 和 读 扑 空 并 行 地 执行 ， 
也 不 应 该 在 两 次 扑 空 之 问 访 问 高 速 缓存 。 其 目的 就 是 要 让 计算 的 时 间 于 与 读 扑 空 后 将 缓冲 块 
的 其 余部 分 载 人 高 速 缓存 所 花费 的 时 间 重 要 ， 这 样 下 一 次 读 扑 空 就 不 必 在 高 速 缓存 访问 上 等 
待 。 当 然 ， 重 至 计算 的 时 间 必 须 从 微 基准 测试 程序 所 花费 的 时 间 中 扣除 ， 这 样 才 得 到 真实 的 
无 负载 的 读 扑 空 时 延 ， 这 里 假设 采用 关键 字 重 启 的 做 法 。 我 们 能 把 它 称 之 为 真实 的 无 负载 的 
时 延 。 表 8-1 显示 了 在 Origin2000 上 所 测 得 的 背靠背 时 延 和 真实 的 无 负载 的 时 延 。 只 有 一 个 
处 理 器 执行 微 基准 测试 程序 ， 但 是 被 访问 的 数据 分 布 在 不 同 数量 的 处 理 器 的 存储 器 中 。 背 靠 
育 时 延 通 常 要 长 出 13 个 SysAD 总 线 周期 (133 ns), AX L 高 速 缓存 块 的 尺寸 (128 B) HEL 
高 速 缓存 块 的 尺寸 (32 B) 要 长 12 个 双 字 的 长 度 ， 总 线 往返 还 要 占 一 个 周期 。 


表 8-1 不 同 大 小 的 系统 上 的 背靠背 时 延 和 真实 无 负载 的 时 延 

















扑 空 被 满足 的 地 方 网 络 路 由 器 遍历 背靠背 时 延 (ns) 真实 的 无 负载 的 时 延 (ns) 
L 高 速 缓存 0 5.5 5.5 
L MERE 0 f 56.9 56.9 
本 地 存储 器 0 472 329 

4P 远程 存储 器 1 582 449 

8P 远程 存储 器 2 775 621 

16P 远程 存储 器 3 826 702 


注 : 第 一 列 显 示 在 扩展 的 存储 器 层次 结构 中 ， 扑 空 是 在 何 处 满足 的 。 例 如 ， 对 8P 的 情况 ， 在 一 个 包含 8 个 处 理 器 
的 系统 中 ， 扑 空 是 在 离 请 求 者 最 远 的 节点 满足 的 。 对 于 给 定 的 Origin2000 的 拓扑 结构 来 说 ， 意 味 着 在 这 种 情况 
下 要 经 过 两 个 网 络 路 由 器 。 
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表 8-2 列 出 了 被 访问 块 的 不 同 的 初始 状态 所 对 应 的 背靠背 时 延 (Hristea, Lenoski 和 
Keen1997)。 回 忆 一 下 ， 当 块 在 目录 中 处 于 未 拥有 或 共享 状态 时 ,拥有 者 节点 是 宿主 节点 ; 
而 当 块 处 于 排他 状态 时 ， 拥 有 者 节点 是 具有 高 速 缓存 副本 的 节点 。 宿 主 和 拥有 者 都 是 本 地 节 
点 情况 下 ( 即 如 果 块 由 主 存 拥 有 ， 其 他 的 处 理 器 在 同一 节点 ) 的 真实 无 负载 时 延 是 338 ns 
(未 拥有 状态 ) 656 ns (干净 的 排他 状态 ) 和 892 ns (被 修改 状态 ) 。 注 意 ， 在 这 个 微 基准 测 
试 程序 中 不 会 碰 到 和 来 自 其 他 处 理 器 的 操作 的 竞争 ， 而 在 真实 负载 下 的 时 延 要 大 一 些 。 


表 8-2 块 的 不 同 初始 状态 所 对 应 的 背靠背 时 延 (以 ns 为 单位 ) 














块 的 状态 
宿主 拥有 者 - - 一 
未 拥有 的 状态 干净 的 排他 状态 修改 的 状态 
Local Local 472 707 1 036 
Remote Local 704 930 1 272 
Local Remote 472 930 1 159 
Remote Remote 704 917 1 097 


注 : 第 一 列 指出 块 的 宿主 是 否 是 本 地 的 ， 第 二 列 指出 当前 拥有 者 是 否 为 本 地 的 ， 后 三 列 给 出 处 于 各 种 状态 下 的 块 的 
时 延 。 当 然 ， 对 未 拥有 状态 应 该 忽略 拥有 者 节点 。 

2. 应 用 的 加 速 比 

图 8-22 显示 了 在 32 个 处 理 器 的 Origin2000 上 的 6 个 并 行 应 用 的 加 速 比 ， 每 个 应 用 采用 
两 种 问题 规模 。 我 们 看 到 ， 大 部 分 应 用 的 加 速 比 良好 ， 特 别 是 问题 规模 足够 大 时 。 对 问题 规 
模 的 依赖 关系 在 Ocean 和 Raytrace 这 样 的 应 用 中 表现 的 特别 明显 。 加 速 比 不 太 好 的 例外 是 
Radiosity， 以 及 Radix。 对 于 Radiosity， 即 使 是 较 大 的 那 种 问题 规模 对 于 这 种 规模 和 能 力 的 机 
器 来 说 也 太 小 了 。 我 们 可 以 期 望 对 更 大 的 问题 可 以 看 到 更 好 的 加 速 比 。 对 于 Radix， 问 题 出 













~ 人 Rarnes~Hut:16-K 星体 
—@— Barnes~Hut:512-K 星体 
—#— Ocean:n = 514 
—* Ocean:n =1 026 
—@— Radix:1-M keys 
一 一 Radix:4-M keys 


—O~ LU: n=2 048 
BB LU: n=4 096 
一 全 一 Raytrace: 点 

一 般 一 Raytrace: 车 

一 2 一 Radiosity: BT 
一 一 Radiosity: 大 屋子 















30 
25-----------+----------~- 25 pmo rr or ree eee 
x 20 x 20 
期 起 
其 I}-----------»§<-----~_--- B 15 p---e 
10 10 
5 上 =- ae eee e 5 上 -aa ~----------~--------~- 
0 0 
13579111315 17 19 21 23 25 27 29 31 13579 11 13 15 17 19 21 23 25 27 29 31 
处 理 器 数目 处 理 器 数目 


图 8-22 Origin2000 上 并 行 应 用 的 加 速 比 。 每 一 种 应 用 有 两 种 不 同 的 问题 规模 。 
Radix 排序 程序 的 扩展 性 不 是 很 好 ，Radiosity 应 用 受到 输入 的 问题 规 
模 的 限制 。 其 他 的 应 用 在 采用 合理 的 大 问题 规模 时 ， 加 速 比 都 很 好 
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自在 置换 阶段 高 度 分 散 的 、 突 发 的 写 信 模式。 这 些 写 大 多 数 是 针对 远程 分 配 的 单元 和 目录 之 
间 大 量 的 请 求 、 作 废 和 确认 ， 以 及 对 它们 产生 的 应 答 ， 导 致 了 在 Hub 和 存储 器 中 严重 的 热 
点 竞争 。 运 行 更 大 问题 只 是 缓解 伪 共 享 的 情况 ， 因 为 在 这 个 阶段 ， 除 了 数据 置换 之 外 ， 没 有 
其 他 的 计算 ,通信 与 计算 的 比 本 质 上 与 问题 的 规模 无 关 。 事 实 上 ， 当 处 理 器 的 键 字 分 区 不 能 
容纳 于 高 速 缓存 时 ， 情 况 变 得 更 坏 ， 这 时 还 会 发 生 频 繁 的 回 写 事务 。 对 于 像 Radix 这 样 的 应 
用 (比如 没有 给 出 的 FFT) 来 说 ， 它 们 表现 出 全 部 对 全 部 的 突 发 通信 ， 两 个 处 理 器 共享 一 个 
Hub 和 两 个 Hub 共享 一 个 路 由 器 的 事实 也 导致 这 些 资源 的 竞争 ， 尽 管 它 们 有 着 高 的 峰值 带宽 
(Jiang 和 Singh 1998)。 对 于 这 些 应 用 来 说 ， 如 果 机 器 每 个 Hub 和 每 个 路 由 器 上 都 只 有 一 个 处 
理 器 的 话 ， 其 性 能 会 更 好 。 但 是 ， 资 源 的 共享 确实 降低 了 成 本 ， 而 且 在 其 他 应 用 情况 下 性 能 
也 还 不 错 。 在 第 3、4 章 中 我 们 以 每 个 处 理 器 为 基础 ， 将 这 种 机 器 的 执行 时 间 分 成 各 个 组 成 
部 分 ,使 我 们 更 清楚 地 了 解 到 时 间 都 花费 在 什么 地 方 。 

3. 扩展 

图 8-23 显示 了 在 Origin2000 上 不 同 扩 展 模 型 下 的 Bames-Hut 星系 模拟 的 加 速 比 。 这 些 结 
果 和 第 6 章 中 在 SCI 的 Challenge 机 上 得 到 的 结果 相当 类 似 ， 尽 管 扩展 到 更 多 的 处 理 器 ， 但 那 
里 的 分 析 基 本 适用 。 对 于 像 Ocean (未 示 出 ) 这 样 的 应 用 ， 重 要 工作 集 与 每 个 处 理 器 的 数据 
集成 比例 ， 像 Origin2000 这 样 的 机 器 在 比较 扩展 模型 时 显示 了 有 意思 的 效果 ， 这里， 我 们 是 
从 工作 集 无 法 容纳 于 单 处 理 器 上 的 高 速 缓存 中 这 样 的 问题 规模 开始 的 。 在 PC 和 TC 扩展 下 ， 
每 个 处 理 器 数据 集 的 尺寸 随 着 处 理 器 的 数量 增加 而 减 小 。 所 以 ， 尽 管 通信 对 计算 的 比 增加 
了 ,一 旦 工作 集 开始 能 容纳 于 高 速 缓 存 时 我 们 会 观察 到 超 线性 的 加 速 比 (因为 当 工 作 集 能 容 
纳 于 高 速 缓 存 时 ， 节 点 内 的 性 能 会 变 得 更 好 )。 在 MC 扩展 下 ， 通 信 对 计算 的 比 不 变 ， 但 是 
每 个 处 理 器 的 工作 集 的 大 小 也 不 变 。 结 果 是 ， 尽 管 对 通信 体系 结构 的 要 求 更 倾向 于 MC 扩展 
而 不 是 TC 或 PC 扩展 (工作 集 产生 的 容量 型 朴 空 几 乎 全 是 本 地 的 )， 其 加 速 比 却 不 是 很 好 ， 
因为 工作 集 和 高 速 缓存 相 匹配 时 所 获得 的 好 处 再 也 看 不 到 了 。 而 且 ， 甚 至 局 部 的 容量 型 扑 空 
也 占用 Hub 和 存储 器 ， 导 致 了 竞争 。 
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图 8-23 在 Origin2000 上 不 同 扩展 模型 的 Bames-Hut 星系 模拟 所 模拟 的 星体 数量 和 加 速 比 的 扩 
展 情况 。 和 第 6 章 中 基于 总 线 的 机 器 的 结果 一 样 ， 加 速 比 在 各 种 扩展 模型 下 都 很 好 ， 
所 能 模拟 的 星体 的 数量 在 实际 的 TC 扩展 下 比 在 MC 或 简单 TC 扩展 下 增长 得 慢 得 多 
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8.6 基于 高 速 缓存 的 目录 协议 : Sequent 的 NUMA-Q 


在 我 们 的 第 二 个 案例 分 析 中 所 描述 的 扁平 的 、 基 于 高 速 缓存 的 目录 协议 是 EEE 的 标准 
可 扩展 一 致 接口 (SCI) 协议 (Gustavson 1992)。 作 为 这 个 协议 的 一 个 案例 ， 将 考察 Sequent 
Computer Systerm, Inc. 的 NUMA-Q 机 ， 这 种 机 器 面向 商业 工作 负载 比如 数据 库 、 事 务 处 理 
(Lovett and Clapp 1996)。 该 机 器 高 度 依赖 于 第 三 方 商品 化 硬件 ， 采 用 市 售 的 Intel 的 SMP 系统 
作为 处 理 节点 ， 采 用 市 售 的 1/0 链 路 和 Vitesse Semiconductor Corporation 公司 的 DataPump 网 络 
接口 在 节点 和 网 络 间 传 送 数据 。 仅 有 的 定制 部 件 是 用 于 实现 SCI 目录 协议 的 1Q 链 路 板 。 在 
Convex Exemplar 系列 机 中 使 用 了 类 似 的 目录 协议 (采用 了 很 多 的 定制 部 件 ) (Convex Computer 
Corporation 1993; Thekkath et al. 1997), 它 和 SCI 的 Origin 一 样 ， 了 瞄准 科学 计算 。 622 

NUMA-Q 是 一 组 由 环 结构 的 高 速 链 路 互 连 的 同 构 的 处 理 节点 〈 如 图 8-24 所 示 )。 每 个 处 
理 节点 是 一 个 便宜 的 Inte 的 基于 总 线 的 4 处 理 器 ， 配 备 4 个 Intel Pentium Pro 微 处 理 器 ， 这 是 
一 个 采用 大 批量 生产 的 SMP 作为 更 大 系统 的 构造 模块 的 例子 。 出 自 Data General (Clark and 
Alnes 1996) 和 HAL Computer Systems (Weber et al. 1997) 的 系统 也 使 用 Pentium Pro 4 Ak IERE 
为 它们 处 理 节点 ， 前 者 在 4 处 理 器 节点 之 间 采 用 类 似 于 NUMA-Q 的 SCI 协议 , 后 者 采用 由 
Stanford 的 DASH 协议 而 来 的 基于 存储 器 的 协议 。 (在 Convex Exemplar 系列 中 ，SCI 协议 连接 
的 节点 不 是 基于 总 线 的 ， 而 是 小 型 的 基于 目录 的 多 处 理 器 ， 内 部 由 一 个 不 同 的 目录 协议 保持 
一 致 。) 在 第 1 章 描述 过 4 处 理 器 的 SMP 节点 〈 见 图 1-17) ， 在 这 里 就 不 进一步 讨论 了 。 


Ci 











图 8-24 Sequent 的 NUMA-Q 多 处 理 器 的 框图 。 该 图 显示 了 机 器 的 高 层 组 织 结构 ， 跨 节点 
和 在 节点 内 。 照 片 显示 了 一 块 IQ 链 路 板 。 照 片 引 自 Sequent Computer System, Inc 


每 个 4 处理 器 节点 的 IQ 链 路 板 插 在 节点 的 存储 器 总 线 上 ， 取 代 了 SGI Origin 中 的 Hub. 
除了 目录 逻辑 和 存储 以 及 4 处 理 器 节点 总 线 和 网 络 之 间 的 数据 通路 之 外 ， 它 还 包含 一 个 大 的 
(可 扩展 的 ) 32 MB、4 路 组 相 联 的 远程 访问 高 速 缓 存 ， 用 来 缓存 从 远程 存储 器 取 到 节点 的 
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BR TER SCH, RARD ARAARA, 在 跨 节 点 的 SC 目录 协议 中 代 
表 所 在 的 4 处 理 器 节点 。 它 是 4 处 理 器 节点 中 惟一 对 协议 可 见 的 高 速 缓存 ; 每 个 处 理 骨 的 高 
速 缓存 通过 节点 内 的 总 线 侦 听 协 议 与 远程 高 速 缓存 保持 一 致 。 在 很 大 程度 上 ， 目 录 协 议 与 节 
点 内 处 理 器 的 数量 以 及 总 线 协 议 没 多 大 关系 。 节 点 内 的 远程 高 速 缓存 和 处 理 器 高 速 缓存 之 间 
保持 包容 关系 ; 这 样 ， 如 果 从 远程 高 速 缓 存 中 替换 掉 一 个 块 ， 该 块 也 会 在 处 理 器 高 速 缓存 中 
作废 ; 如 果 一 个 块 在 处 理 器 的 高 速 缓存 中 被 置 为 修改 状态 ， 远 程 高 速 缓存 也 要 反映 这 个 状 
态 。 远 程 高 速 缓存 中 抉 的 尺寸 是 64 字 节 ， 这 因此 也 是 通信 和 和 跨 节 点 一 致 性 的 粒度 。 


8.6.1 高 速 缓存 一 致 性 协议 


BIRTE Sequent 的 NUMA-Q 机 使 用 了 两 个 相互 作用 的 协议 ， 这 一 节 的 注意 力 集中 在 跨 远 
程 高 速 缓存 的 SCI 目录 协议 ， 忽略 四 处 理 器 节点 的 多 处 理 嚣 性质。 在 8.6.5 W, 将 讨论 在 4 
处 理 器 节点 内 侦 听 的 MESI 协议 的 交互 作用 。 

1， 目 录 结 构 

SCI 的 目录 结构 采用 扁平 的 、 基 于 高 速 缓存 的 分 布 式 双向 链表 方案 ， 该 结构 在 8.2.3 节 
描述 过 ， 如 图 8-8 所 示 。 每 一 个 块 有 一 个 共享 者 的 链表 ， 指 向 该 链表 头 的 指针 存储 在 对 应 存 
储 咒 块 的 宿主 节点 的 主 存 里 。 链 表 中 的 一 个 项 对 应 一 个 4 处 理 器 节点 的 远程 高 速 缓存 。 远 程 
高 速 缓存 和 链表 的 前 向 和 后 向 指针 都 存储 在 那个 节点 的 IQ 链 路 板 的 同步 DRAM 中 。 图 8-25 
给 出 了 链表 的 一 个 简化 的 表示 。 第 一 个 元 素 (节点 ) 叫做 链表 的 头 ， 最 后 一 个 元 素 叫 做 链表 
的 尾 。 头 节点 对 它 的 高 速 缓存 的 块 有 读 写 许可 权 ， 而 其 他 的 节点 只 有 读 的 许可 权 〈 称 为 成 对 
共享 的 特殊 情况 是 个 例外 ， 我 们 将 在 8.6.3 节 简 要 地 讨论 )。 节 点 中 指向 链表 尾 方 向 的 相 邻 
点 的 指针 叫做 前 向 或 下 游 指针 ， 相 反方 向 的 叫做 后 向 或 者 上 游 指针 。 下 面 看 一 下 跨 节点 的 
SCI 一 致 性 协议 是 如 何 使 用 这 种 目录 表示 的 。 








图 8-25 ”SCI 共享 链表 。NUMA-Q 机 的 链表 的 每 个 元 素 是 一 个 多 处 理 器 节点 ， 由 它 的 远程 高 速 缓 存 代表 

2. 状态 

因为 处 理 器 的 高 速 缓存 对 目录 协议 是 不 可 见 的 ， 并 且 ， 与 Origin 机 不 一 样 ， 块 从 不 进入 

其 宿主 节点 的 远程 高 速 缓存 ， 所 以 ，NUMA-Q 机 的 目录 协议 确实 不 记录 在 宿主 节点 被 高 速 组 
存 的 副本 。 保 持 宿 主 存储 器 中 的 副本 与 那些 被 高 速 缓存 的 副本 一 致 是 总 线 协 议 的 任务 。 主 存 
储 融 中 的 一 个 块 可 以 处 于 三 个 目录 状态 之 一 ， 这 些 状态 的 名 字 由 SC 协议 如 下 定义 。 这 些 状 
态 与 Origin 协议 的 目录 状态 很 类 似 ， 但 不 完全 相同 。 

。 笨 主 。 系 统 中 没有 远程 节点 含有 该 块 的 副本 (当然 ,4 倍 于 宿主 节点 本 身 的 处 理 器 高 
速 缓存 可 能 含有 副本 ， 因 为 它 对 SCI 一 致 性 协议 不 可 见 ， 而 是 由 节点 中 的 总 线 协 议 
管理 的 )。 这 和 Origin 中 的 未 拥有 目录 状态 类 似 。 

“新 鲜 。 一 个 或 多 个 远程 高 速 缓存 中 可 能 有 只 读 的 副本 ， 存 储 器 中 的 副本 是 有 效 的 。 
它 类 似 于 Origin 中 的 共享 状态 。 

* 过 时 。 另 一 个 远程 高 速 缓存 包含 一 个 可 写 的 (排他 或 胜 ) 副本 。 本 地 节点 不 存在 有 
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效 的 副本 。 这 类 似 于 Origin 中 的 排他 状态 。 

考虑 一 下 远程 高 速 绥 存 中 块 的 缓存 状态 。 虽 然 4 处 理 器 节点 中 的 处 理 器 高 速 缓存 采用 标 
准 的 MESI 稳定 状态 ， 管理 远程 高 速 缓存 的 SCI 方案 却 有 大 量 可 能 的 高 速 缓存 状态 。 事 实 上 ， 
使 用 了 7 位 来 表示 远程 高 速 缓存 中 的 块 状态 ， 该 标准 描述 了 29 个 稳定 状态 和 许多 未 决 ( 忙 ) 
状态 或 过 渡 状 态 。 我 们 可 以 认为 每 个 稳定 状态 有 两 个 部 分 ， 反 映 在 状态 的 命名 结构 中 。 第 一 
部 分 描述 了 块 的 高 速 缓存 项 在 共享 链表 中 的 位 置 。 可 以 是 惟一 oNLY ( 单 节 点 链表 ) 、 头 
HEAD 、 尾 TAIL 或 中 间 MID (这 意味 着 在 多 节点 的 链表 中 ， 它 既 不 是 头 ， 也 不 是 尾 )。 第 二 
部 分 描述 了 被 缓存 块 的 实际 状态 。 包 括 脏 (dirty) (修改 过 并 可 写 )、 和 干净 (clean) (未 修改 
过 ， 与 存储 器 内 容 相同 ， 但 可 写 ， 和 MEST 中 的 独占 状态 类 似 )、 新 鲜 (fresh) (在 通知 存储 
器 之 前 ， 数 据 可 读 但 不 可 写 ) 、 副 本 (copy) (未 修改 ， 可 读 ); 还 有 其 他 一 些 状 态 。 一 个 完 
整 的 描述 可 以 在 SCI 标准 的 文档 中 找到 (IEEE Computer Society 1993)。 以 后 ， 我 们 会 碰 到 几 
个 这 样 的 状态 (如 头 - 脏 (HEAD-DIRTY ) 、 尾 -干净 (TAIL-CLEAN 等 ) 。 

SCL 标 准 定义 了 三 个 可 以 对 分 布 的 共享 链表 执行 的 基本 操作 。 像 读 扑 空 、 写 扑 空 、 回 写 
和 替换 这 些 存 储 器 操作 都 使 用 这 三 个 基本 操作 实现 。 

1) 链表 构造 : 把 一 个 新 节点 (共享 者 ) 加 到 共享 链表 的 头 部 。 

2) 转 出 : 从 链表 去 掉 一 个 节点 ， 需 要 该 节点 与 其 上 游 和 下 游 相 邻 节点 通信 ， 通 知 它们 
谁 是 它们 的 新 邻居 ， 以 便 它们 更 新 自己 的 指针 。 

3) 清除 ER): 链表 头 的 节点 可 以 清除 或 作废 所 有 其 他 节点 ， 从 而 导致 单个 元 素 的 链 
表 。 只 有 表 头 节点 可 以 发 出 清除 操作 。 

SCT 标准 还 描述 了 三 级 复杂 度 逐 渐 提 高 的 SCI 协议 。 最 小 协议 其 至 不 允许 读 共 享 ， 也 就 
是 说 ， 同 时 只 能 有 一 个 节点 保存 一 个 块 的 高 速 缓 存 副 本 。 典 型 协议 是 大 多 数 系统 期 望 实现 
的 。 它 允许 读 共 享 (多 副本 ) ， 提 供 对 存储 器 中 处 于 FRESH 状态 的 数据 的 有 效 访问 ， 以 及 有 
效 的 DMA 传输 和 从 错误 中 恢复 的 健壮 性 。 最 后 ， 完 全 协议 实现 标准 定义 的 所 有 可 选 功能 ， 
包括 对 仅 两 个 节点 间 的 成 对 共享 的 优化 和 在 锁 位 上 排队 (QOLB) 同步 (后 面 讨论 )。NUMA- 
Q 系统 实现 了 典型 协议 ， 这 就 是 我 们 所 讨论 的 。 下 面 看 一 下 不 同类 型 的 存储 器 操作 一 一 读 扑 
空 、 写 扑 空 和 替换 (包括 回 写 ) 一 一 是 如 何 处 理 的 。 在 各 种 情况 下 ， 首 先 根据 块 的 地 址 决定 
宿主 节点 。 

3. 读 请 求 的 处 理 

假定 读 请 求 需 要 从 节点 内 传 出 。 就 SCI 协议 来 说 ， 我 们 可 以 把 这 个 节点 的 远程 高 速 缓存 
看 作 是 请 求 高 速 缓存 。 如 果 需 要 ， 请 求 高 速 缓存 首先 为 块 分 配 一 个 表 项 ， 并 且 把 块 的 高 速 组 
存 状态 置 为 未 决 忙 ; 在 这 个 状态 下 ， 它 不 会 处 理 其 他 对 该 块 的 请 求 。 (SCI 协议 经 常 在 请 求 
者 处 把 被 高 速 缓存 的 块 置 于 忙 状态 来 保持 对 块 的 事务 的 原子 性 ， 方 便 串 行 化 ， 很 像 Origin 协 
议 对 目录 的 忙 状态 所 做 的 那样 ; 但 是 ， 我 们 将 会 看 到 ， 它 不 使 用 NACK)。 然 后 ， 它 通过 向 
宿主 节点 发 送 一 个 请 求 开始 一 个 链表 构造 操作 ， 把 自己 加 到 共享 链表 的 表 头 。 当 宿主 节点 收 
到 请 求 ， 它 的 块 可 能 处 于 前 面 定义 的 三 个 目录 状态 之 一 : HOME、FRESH 或 GONE 。 

如 果 目 录 状 态 是 宿主 (HOME ) ， 那 么 不 存在 高 速 缓存 副本 ， 存 储 器 中 的 数据 是 有 效 的 。 
当 收 到 这 样 的 读 请 求 时 ， 宿 主 把 它 的 块 更 新 为 FRESH 状态 ， 并 把 它 的 头 指 针 指 向 请 求 节点 。 
然后 宿主 向 请 求 节点 发 送 数据 ， 请 求 节点 接 到 后 将 它 的 状态 从 未 决 (PENDING) 变 为 惟一 
新 鲜 (ONLY_ FRESH), 一 个 节点 响应 事务 的 所 有 动作 都 是 原子 的 (一 个 没 结束 前 不 会 开始 
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下 一 个 )， 在 任何 情况 下 都 遵循 严格 的 请 求 -响应 协议 〈 与 Origin 不 一 样 ) 。 

如 果 目 录 状 态 是 新 鲜 (FRESH ) ， 就 已 经 存在 一 个 共享 链表 ， 但 是 宿主 中 的 副本 也 是 有 
效 的 。 宿 主 把 它 的 头 指针 指向 请 求 高 速 缓存 ， 而 不 是 链表 以 前 的 头 节点 。 然 后 它 向 请 求 节点 
送 回 一 个 事务 ， 包 含 了 数据 以 及 指向 以 前 表 头 的 指针 。 请 求 节点 接收 到 这 个 事务 后 ， 转 移 到 
不 同 的 未 决 状 态 ， 并 向 以 前 的 表 头 送出 一 个 事务 ， 要 求 成 为 链表 的 新 的 表 头 〈 链 表 构 造 操 
作 )。 以 前 的 表 头 对 这 个 请 求 的 反应 是 把 它 的 状态 从 头 新 鲜 (HEAD_ FRESH) 变 为 中 间 有 效 
(MID_ VALID) 或 从 惟一 新 鲜 (ONLY_FRESH) 变 为 尾 有 效 (TAIL-VALID)， 根 据 情况 而 定 ， 
改变 它 的 后 向 指针 以 指向 请 求 者 ， 并 且 对 请 求 者 发 送 一 个 确认 。 当 请 求 者 接 到 确认 时 ， 把 它 
的 前 向 指针 指向 以 前 的 表 头 ， 并 把 状态 从 未 决 变 为 头 新 鲜 (HEAD_FRESH)。 若 当 请 求 到 来 
时 ， 以 前 的 表 头 处 于 头 新 鲜 (HEAD_ FRESH) 状态 ， 事 务 和 动作 的 顺序 如 图 8-26 所 示 。 


请 求 者 旧 头 节点 请 求 者 旧 头 节点 


ONLY_ 
INVALID PENDING 
~ 








宿主 存储 器 宿主 存储 器 
a) 初始 状态 b) 在 第 一 次 往返 后 
请 求 者 旧 头 节点 请 求 者 旧 头 节点 
~ ] FRESH 
一 
宿主 存储 器 宿主 存储 器 
c) 第 二 次 往返 d) 最 后 状态 


图 8-26 SCI 协议 中 读 扑 空 的 例子 。 本 图 显示 了 当初 始 情况 下 一 个 块 在 它 的 宿主 节点 

处 于 FRESH 状态 时 ， 对 它 的 读 扑 空 产生 的 消息 和 状态 转换 ， 在 共享 链表 中 有 

一 个 节点 。 实 线 是 共享 链表 中 的 指针 ， 虚 线 代 表 网 络 事务 。 空 指针 没有 显示 
如 果 目 录 状 态 是 过 时 (GONE ) 的 ， 在 共享 链表 头 部 的 高 速 缓存 有 该 块 的 一 个 排他 (于 
净 或 修改 过 ) 副本 。 现 在 ， 存 储 器 不 用 数据 应 答 ， 只 是 简单 地 停留 在 cone 状态 ， 并 把 指向 
以 前 的 表 头 的 指针 发 回 请 求 者 。 请 求 者 进入 一 个 新 的 未 决 状态 并 向 以 前 的 表 头 发 送 一 个 请 
求 ， 请 求 得 到 数据 并 成 为 新 的 头 节点 (链表 构造 )。 以 前 的 头 节点 把 它 的 状态 从 头 部 脏 
(HEAD_DIRTY ) 变 为 中 间 有 效 (MID_ VALID) 或 从 惟一 脏 (ONLY. DIRTY) 变 为 尾 有 效 
(TAIL_VALID ) (或 无 论 什么 合适 的 状态 ); 设置 它 的 后 向 指针 指向 请 求 者 ， 并 向 请 求 者 返 
回 数据 。( 数 据 可 能 必须 从 以 前 的 头 节点 的 处 理 器 高 速 缓存 中 取出 )。 然 后 请 求 者 更 新 它 的 副 
本 ,将 它 的 状态 设置 为 头 部 脏 (HEAD_DIRTY )， 并 把 它 的 前 向 指针 指向 新 的 表 头 ， 这 些 动 
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作 都 是 单个 原子 动作 。 注 意 ， 尽 管 访问 是 赎 ， 共 享 链表 的 头 节点 的 状态 停留 在 头 部 脏 (HEAD_ 
DIRTY )。 这 并 不 具有 我 们 所 熟悉 的 脏 的 标准 含义 ， 也 就 是 说 ， 头 节点 可 以 把 数据 写 人 而 无 需 
作废 任何 其 他 的 高 速 缓存 。 这 意味 着 它 确 实 可 以 不 和 宿主 通信 就 把 数据 写 人 高 速 缓存 (甚至 在 
送出 作废 之 前 )， 但 是 它 必须 作废 共享 链表 中 的 其 他 节点 ， 因 为 它们 处 于 有 效 状 态 。 

甚至 在 目录 状态 不 是 GONE 时 ， 读 取 一 个 HEAD_ DIRTY 的 块 也 是 可 能 的 。 例 如 ， 当 请 求 
节点 希望 很 快 会 写 那个 块 时 。 在 这 种 情况 下 ， 如 果 目 录 状 态 是 FRESH ， 那 么 存储 器 给 请 3 
者 返回 数据 ， 并 返回 指向 共享 链表 的 旧 表 头 的 一 个 指针 ， 再 把 自己 置 为 GONE 状态 。 然 后 ， 
请 求 者 通过 向 旧 表 头 节点 发 出 请 求 把 自己 变 成 共享 链表 的 头 ， 并 使 自己 进入 HEAD DIRTY 
状态 。 旧 头 节点 把 自己 的 状态 从 HEAD_FRESH 变 为 MID_VaLID 或 从 ONLY FRESH AJ TAIL 
VALID ， 表 中 的 其 他 节点 仍 保持 不 变 。 

在 上 面 这 些 情况 中 ,宿主 节点 总 是 把 请 求 者 引 向 旧 的 头 节点 。 旧 头 节点 (叫做 4) 在 收 
到 新 的 请 求 者 (叫做 B) 的 请 求 时 ， 可 能 处 于 未 决 状态 ， 因 为 它 本 身 可 能 对 该 块 进行 了 一 次 
未 完成 的 存储 器 操作 。 这 种 情况 不 是 靠 在 4 中 缓冲 或 否定 回答 这 个 请 求 来 处 理 的 ， 而 是 将 
共享 链表 向 后 扩展 ， 形 成 未 决 链表 (仍然 是 分 布 的 ); 也 就 是 说 ， 节 点 B 确实 物理 地 附加 到 
链表 的 头 部 ， 但 处 于 未 决 状 态 ， 等 待 真正 成 为 表 头 。 如 果 另 一 个 节点 C 现在 向 宿主 发 送 请 
求 ， 它 会 被 转 给 节点 B， 也 加 入 到 未 决 链表 中 (现在 宿主 指向 C， 这 样 后 续 的 请 求 将 被 引 向 
那里 ， 以 此 类 推 )。 在 任何 时 候 , 我 们 把 “真正 的 头 ”( 这 里 是 A) 简称 为 共享 链表 的 头 ， 把 
真正 的 头 之 前 的 链表 部 分 叫做 未 决 的 链表 ， 把 最 近 加 入 未 决 链表 的 节点 (这 里 是 C) 叫做 未 
决 链表 的 头 〈 见 图 8-27)。 当 4 完成 它 的 操作 脱离 未 决 状态 时 ， 它 把 真正 的 头 的 状态 传 给 
8，8B 在 完成 其 请 求 时 , H “REWL” RERA C。 还 要 注意 ， 与 Origin 不 同 ， 自 录 中 没 
有 未 决 或 忙 状 态 ， 只 是 简单 的 采取 原子 操作 来 改变 状态 和 头 指针 ， 并 把 前 一 个 状态 /指针 信 
息 返 回 给 请 求 者 。 当 讨论 正确 性 问题 时 ， 我 们 会 讨论 这 一 点 。 
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挂 起 头 部 挂 起 头 部 头 部 共享 列表 


图 8-27 ”SCI 协议 中 的 未 决 链表 。 未 决 链表 是 常规 共享 链表 的 延续 (以 相反 方 
向 )。 真 正 的 头 节点 〈 叫 做 头 ) 和 未 决 链表 中 的 节点 都 处 于 未 决 状态 
4. 写 请 求 的 处 理 

我 们 总 是 假设 共享 表 的 头 节点 拥有 块 的 最 新 副本 (除非 头 节点 是 处 于 未 决 状 态 )。 所 以 ， 
只 允许 头 节 点 对 块 写 ， 发 出 作废 。 当 一 个 节点 发 生 写 扑 空 时 ， 可 能 有 三 种 情况 。 第 一 种 情 
况 ， 写 人 者 已 经 在 链表 的 头 部 ， 但 它 不 是 拥有 惟一 的 被 修改 副本 (可 能 有 其 他 共享 者 )。 它 
首先 确保 自己 处 于 适当 的 状态 ， 如 果 有 必要 ， 要 与 宿主 通信 (在 这 个 过 程 中 确保 宿主 的 块 已 
经 处 于 过 时 状态 或 向 GONE 状态 转换 )。 然 后 它 在 本 地 修改 数据 ， 并 将 共享 链表 的 其 他 节点 
作废 。( 下 面 两 段 将 细 化 这 种 情况 。) 第 二 种 情况 是 ， 写 人 者 根本 不 在 共享 链表 中 ， 写 信者 必 
须 首先 分 配 需要 的 空间 并 得 到 该 块 的 副本 ， 然 后 使 用 链表 构造 操作 把 自己 加 到 链表 的 头 部 ， 
然后 执行 上 述 步骤 来 完成 写 。 第 三 种 情况 是 ， 写 人 者 在 共享 链表 中 ， 但 不 是 在 头 部 。 在 这 种 
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情况 下 ， 它 必须 将 自己 从 链表 中 移 走 ( 转 出 )， 然 后 把 自己 加 到 头 部 链表 构造 )， 最 后 执行 
上 述 的 步骤 。 我 们 会 结合 替换 更 进一步 讨论 转 出 操作 ， 而 已 经 看 到 过 链表 构造 。 现 在 把 注意 
力 集 中 在 写 人 节点 已 经 在 头 部 的 情况 。 

如 果 块 在 写 人 者 的 高 速 缓存 中 处 于 HEAD DIRTY 状态 ， 可 以 直接 对 它 修改 (因为 目录 
状态 必然 已 经 处 于 GONE 状态 ) ， 然 后 发 出 写 的 节点 删除 共享 链表 的 其 余部 分 。 删 除 操作 是 
以 串 行 的 请 求 - 响应 方式 完成 的 ;: 向 共享 链表 的 下 一 个 节点 发 送 作废 请 求 ， 此 节点 将 自己 从 
链表 中 转 出 ， 再 向 表 头 送 回 指向 链表 中 下 一 个 节点 的 指针 。 表 头 再 向 那个 节点 发 送 类 似 的 请 
求 ， 直 到 所 有 的 项 都 被 删除 为 止 〈 即 直到 对 表 头 的 啊 应 包含 一 个 空 指针 为 止 ， 见 图 8-28) 。 
写 人 者 或 头 节 点 ， 在 删除 进行 过 程 中 处 于 未 决 状 态 。 在 这 段 时 间 内 ， 试 图 加 入 共享 链表 的 新 
的 请 求 会 等 待 在 未 决 表 中 。 删 除 共享 链表 的 时 延 包 括 几 次 串 行 的 往返 (作废 请 求 、 确 认 和 转 
出 事务 ) 加 上 对 每 个 共享 链表 项 的 相关 动作 ， 所 以 重要 的 是 ,不 要 在 写 人 时 经 常 碰 到 很 长 的 
共享 链表 。 通 过 让 每 个 节点 把 作废 请 求 传递 给 下 一 个 节点 ， 向 写 人 者 发 回 确认 以 前 的 节点 而 
不 是 返回 指向 下 一 个 节点 的 指针 ， 有 可 能 降低 关键 路 径 中 网 络 事务 的 数量 。 这 不 是 SCI 标准 
的 一 部 分 ， 因 为 它 分布 了 作废 推进 的 状态 ， 从 而 使 差错 恢复 的 协议 层 复 杂 化 。 但 是 ， 实 际 的 
系统 可 能 利用 这 种 捷径 ， 尤 其 在 共享 链表 很 长 的 时 候 。 








共享 1 共享 2 共享 1 


写 
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DIRTY | _ VALID VALID N 


a) 初始 配置 加 上 第 一 次 往返 


写 RFI 共享 2 “A 
b) 初始 配置 加 上 第 一 次 往返 


c) 最 后 配置 





图 8-28 SCI 协议 中 从 一 个 HEAD_ DIRTY 节点 删除 共享 链表 。 连 接 链 表 节 点 的 实 
线 箭头 是 链表 指针 ， 虚 线 箭 头 表 示 了 实现 向 下 一 个 组 态 转移 的 网 络 事务 
如 果 写 人 者 是 共享 链表 的 头 ， 但 它 的 块 处 于 HEAD FRESH 状态 ， 那 么 在 它 修改 该 块 并 
删除 其 他 节点 项 之 前 ， 一 定 要 变 为 HEAD_ DIRTY 状态 。 写 信者 进入 未 决 状态 ， 向 宿主 发 出 
请 求 ， 宿 主 状态 从 FRESH 变 为 GONG 并 应 答 该 消息 ， 然 后 ， 写 人 者 进入 一 个 不 同 的 未 决 状态 
并 删除 其 余部 分 。 当 请 求 到 达 宿 主 时 ， 宿 主 可 能 已 经 不 再 处 于 FRESH 状态 了 ， 但 它 指向 在 
此 期 间 最 新 进入 队列 的 节点 ， 该 新 节点 已 经 指向 写 人 者 。 当 宿主 查找 自己 的 状态 时 ， 发 现 这 
种 状况 ， 就 向 写 人 者 发 出 一 个 类 似 NACK 的 响应 。 当 写 人 者 收 到 这 个 响应 时 ， 它 根据 自己 的 
本 地 状态 把 自己 从 共享 链表 中 删除 (如 何 做 到 ， 将 在 下 一 节 讨 论 ) ， 通 过 发 给 宿主 节点 适当 
的 新 请 求 ， 试 图 使 自己 重新 成 为 处 于 HEAD DIRTY 或 ONLY. DIRTY 状态 的 表 头 。 这 不 是 重 
试 ， 因 为 写 人 者 重复 的 不 是 相同 的 请 求 ， 而 是 适当 改变 了 的 请 求 ， 反 映 了 自身 和 宿主 的 新 状 
AS 类似 于 第 6 章 所 讨论 的 由 非 原 子 状态 转移 引起 的 竞争 情况 下 ， 对 排他 读 升 级 的 修改 )， 
头 节点 写 和 的 最 后 一 个 情况 是 如 果 写 人 者 的 块 处 于 ONLY_DIRTY 状态 ， 这 时 ， 它 可 以 直接 
修改 该 块 ， 不 产生 任何 网 络 事务 。 
5. 回 写 和 替换 请 求 的 处 理 
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一 个 块 的 共享 链表 中 的 节点 可 能 需要 删除 自己 ， 或 者 是 因为 要 执行 写 操作 必须 成 为 表 
k, 或 者 是 由 于 容量 或 冲突 原因 ， 它 必须 在 它 的 远程 高 速 缓存 中 将 换 掉 该 块 ， 或 者 是 该 块 正 
被 作废 。 在 替换 情况 下 ， 即 使 块 是 处 于 共享 状态 ， 不 需要 把 数据 写 回 ， 它 在 高 速 缓存 中 的 空 
H (及 指针 ) 也 会 被 另 一 个 块 及 其 指针 使 用 ， 所 以 为 了 保持 正确 的 表示 ， 必 须 把 被 替换 的 块 
从 它 的 共享 链表 中 删除 。 这 些 替 换 和 链表 的 删除 使 用 了 转 出 操作 。 

考虑 试图 从 共享 链表 中 间 转 出 节点 的 通用 情况 。 节 点 先 把 自己 置 为 未 决 状态 ， 然 后 向 它 的 
上 游 和 下 游 相 邻 节点 分 别 发 送 一 个 请 求 ， 要 求 它们 分 别 更 新 其 前 向 和 后 向 指针 ， 以 跳 过 要 转 出 
的 节点 。 未 决 状态 是 需要 的 ， 因 为 没有 什么 方法 可 以 保证 共享 链表 中 两 个 相 邻 节点 不 会 试图 同 
时 转 出 自己 ， 如 果 这 样 ， 就 会 引起 指针 更 新 的 竞争 。 即 使 是 置 成 未 决 状态 ， 如 果 两 个 相 邻 的 节 
点 的 确 试图 同时 离开 链表 ， 它 们 会 同时 将 自己 设置 为 未 决 状态 ， 并 相互 发 送 消 息 。 这 会 引起 死 
锁 ， 因 为 当 处 于 未 决 状 态 时 ， 谁 都 无 法 响应 。 使 用 了 一 个 简单 的 优先 级 系统 来 避免 这 样 的 死 
Bi: 作为 约定 ， 靠 近 链表 尾部 的 节点 优先 转 出 。 当 两 个 相 邻 节点 都 已 应 答 ， 就 把 要 转 出 的 高 速 
缓存 项 的 状态 置 为 无 效 ， 结 束 转 出 操作 。 被 转 出 节点 的 邻居 不 一 定 要 改变 它们 的 状态 ， 除 非 被 
转 出 的 节点 是 只 有 两 个 节点 的 链表 中 的 第 二 个 ; 在 这 种 情况 下 ， 链 表 的 头 节点 会 将 它 的 状态 适 
当地 从 HEAD_ DIRTY 或 HEAD_ FRESH 改变 为 ONLY_ DIRTY 或 ONLY FRESH 。 

如 果 需 要 转 出 的 项 是 链表 的 头 ， 那 么 该 项 可 能 处 于 及 状态 ( 回 写 ) 或 新 鲜 状 态 (替换 )。 
这 两 种 情况 使 用 同一 组 事务 。 头 把 自己 置 于 未 决 状态 ， 向 它 的 下 游 邻居 发 出 一 个 事务 。 使 后 
者 把 自己 的 后 向 指针 指向 宿主 存储 器 ， 并 适当 地 改变 自己 的 状态 (例如 ， 从 TAIL VALID 
或 MID VALID 到 HEAD_DIRTY ,或 从 MID FRESH 到 HEAD FRESH )。 当 被 替换 的 (Gk) 
节点 接 到 响应 时 ， 它 向 宿主 发 送 一 个 事务 ， 宿 主 更 新 它 的 指针 ， 指 向 新 的 头 部 ， 但 不 改变 它 
的 状态 。 和 宿主 向 替换 者 发 送 一 个 响应 ， 现 在 替换 者 已 经 不 在 共享 链表 中 了 ， 并 将 其 状态 置 为 
INVaALID。 当 然 ， 如 果 替 换 者 是 链表 中 的 惟一 节点 ， 它 只 需要 与 存储 器 通信 ， 存 储 器 会 把 它 
的 状态 置 为 HOME 。 

头 节点 转 出 的 情形 提供 了 在 请 求 到 达 时 请 求 接收 者 的 状态 同 请 求 不 兼容 的 另 一 个 例子 。 
在 来 自 替 换 者 的 消息 到 达 宿 主 之 前 ， 宿 主 可 能 已 经 把 它 的 头 指针 指向 了 一 个 不 同 的 节点 X, 
从 工 节 点 宿主 已 经 接收 到 对 该 块 的 请 求 。 通 常 ， 当 一 个 事务 到 达 时 ， 接 收 者 查看 它 的 本 地 
状态 和 到 来 的 请 求 的 类 型 ， 如 果 发 现 不 匹配 ， 协 议 通常 采用 的 策略 像 在 前 面 看 到 的 对 处 于 
HEAD-FRESH 状态 的 块 写 人 的 例子 那样 : 接收 者 不 执行 请 求 者 请 求 的 操作 ， 而 是 发 出 一 个 很 
类 似 于 NACK 的 响应 。 请 求 者 将 再 次 检查 自己 的 状态 ， 采 取 适 当 的 动作 。 在 这 种 特殊 情况 
下 ， 宿 主 发 现 到 来 的 事务 类 型 要 求 请 求 者 是 当前 的 头 节点 ， 但 实际 不 是 这 样 ， 所 以 它 发 出 否 
定 回答 。 替 换 者 不 停 地 向 宿主 重 发 请 求 ， 又 不 停 地 被 否定 回答 。 在 某 个 时 候 ， 被 重 定位 到 替 
换 者 的 出 自卫 节 点 的 请 求 会 到 达 蔡 换 者 ， 要 求 加 入 链表 。 替 换 者 将 查看 它 的 (未 决 ) 状态 
并 对 请 求 者 发 出 一 个 响应 ， 告 诉 它 应 该 去 请 求 下 游 的 邻居 〈 即 真正 的 头 节点 ， 因 为 替换 者 正 
在 转 出 链表 )。 现 在 ， 替 换 者 从 链表 中 退出 ， 处 于 一 种 不 同 的 未 决 状态 ; 它 正 等 待 进入 IN- 
VALID 状态 ， 当 下 一 个 来 自 宿主 的 NACK 到 来 时 ， 它 会 变 为 无 效 状态 。 因 此 ，ScI 协议 中 的 
确 包括 NACK， 但 不 是 传统 意义 上 当 节 点 或 资源 忙 时 要 求 请 求 重 发 的 那 种 NACK。 这 里 NACK 
只 是 用 来 指出 不 适当 的 请 求 ， 有 助 于 请 求 者 状态 的 改变 。 区 别 在 于 ， 在 这 种 情况 下 ， 被 否定 
回答 的 请 求 永 不 会 以 它 原来 的 形式 成 功 ， 而 是 引起 一 种 新 类 型 的 请 求 的 产生 ， 后 者 会 成 功 。 

最 后 ， 当 因 扑 空 需 要 把 一 个 块 回 写 时 ， 一 个 重要 的 性 能 问题 是 应 该 先 满足 扑 空 ， 还 是 应 
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该 先 把 该 块 回 写 。 在 讨论 基于 总 线 的 协议 时 ， 我 们 看 到 大 多 数 情况 下 首先 服务 于 扑 空 ， 要 回 
写 的 块 放 在 一 个 回 写 缓冲 器 中 。 在 NUMA-Q 机 中 ， 简 化 的 策略 是 先 对 回 写 GEH) 服务 ， 然 
后 满足 扑 空 。 虽然 这 减 慢 了 扑 空 的 满足 ， 但 缓冲 的 方案 要 比 基 于 总 线 的 系统 复杂 的 多 (在 基 
于 总 线 的 系统 中 ， 可 以 简单 地 侦 听 回 写 缓冲 区 )。 另 外 ， 我 们 这 里 所 考虑 的 替换 和 回 写 是 对 
于 远程 高 速 缓存 的 ， 它 足够 大 (有 儿 十 兆 字 节 )， 所 以 替换 不 经 常 发 生 。 


8.6.2 关于 正确 性 问题 


SC 标准 的 一 个 重点 是 提供 一 个 良好 定义 的 、 一 致 的 机 制 来 保持 串 行 化 ， 解 决 竞争 ， 避 
免 死 锁 、 活 锁 和 饥饿 。 这 个 标准 在 解决 饥 猴 和 公平 性 方面 比 其 他 一 致 性 协议 要 更 强 。 在 前 面 
已 经 提 过 ,使 用 共享 者 的 分 布 链表 和 未 决 请 求 能 满足 大 多 数 的 正确 性 考虑 ， 让 我 们 详细 观察 
一 下 这 是 如 何 做 到 的 。 

对 给 定单 元 的 操作 的 串 行 化 

在 SCI 协 议 中 ， 宿 主 节 点 是 决定 对 某 个 块 的 高 速 缓存 扑 空 串 行 化 的 次 序 的 实体 。 但 是 ， 
与 Origin 协议 不 同 ， 这 里 的 次 序 是 请 求 第 一 次 到 达 宿 主 的 次 序 ， 用 于 保证 这 个 次 序 的 机 制 非 
常 不 同 。 在 宿主 中 没有 忙 状态 。 通 常 〈 除 非 前 面 提 到 的 某 些 竞争 条 件 下 )， 宿 主 接受 每 一 个 
到 来 的 请 求 ， 或 者 自己 满足 它 ， 或 者 把 它 交 给 共享 链表 的 当前 头 节点 〈 如 果 存 在 未 决 链表 的 
话 则 是 未 决 的 头 )。 在 把 请 求 交 给 另 一 个 节点 之 前 ， 它 先 更 新 它 的 头 节点 ， 使 其 指向 当前 的 
请 求 者 。 从 任何 其 他 节点 对 该 块 的 请 求 将 看 到 更 新 过 的 状态 和 指针 〈 即 指向 当前 请 求 者 )， 
虽然 对 应 于 当前 请 求 的 操作 从 全 局 上 看 还 没有 结束 。 这 保证 宿主 不 会 同时 把 对 一 个 块 的 两 个 
冲突 的 请 求 交 给 同一 个 节点 ， 避 免 竞争 条 件 。 正 如 我 们 已 经 看 到 的 ， 如 果 请 求 在 它 被 提交 的 
头 节点 不 能 满足 〈 即 如 果 那 个 节点 处 于 未 决 状态 ) ， 只 要 需要 ， 请 求 者 会 把 自己 加 入 到 那个 
块 的 未 决 链表 中 ， 等 待 轮 到 它 处 理 〈 见 图 8-27)。 注 意 ， 未 决 链表 对 块 的 访问 是 以 先进 先 出 
次 序 进 行 的 ， 保 证 它们 完成 的 次 序 确 实 和 它们 首次 到 达 宿 主 的 次 序 一 样 。 

尽管 在 碰 到 某 些 竞争 条 件 时 宿主 可 以 拒绝 请 求 ， 这 些 请 求 将 永远 不 会 以 它们 当前 的 形式 
成 功 ， 所 以 在 串 行 化 时 不 考虑 它们 。 它 们 可 能 会 被 修改 成 新 的 不 同 的 请 求 ， 那 些 请 求 将 会 成 
功 ， 在 那 种 情况 下 ， 将 按 新 请 求 首 次 到 达 宿 主 的 次 序 对 它们 串 行 化 。 

2. 存储 器 同一 性 模型 

SCI 标准 定义 了 一 致 性 协议 和 传输 层 ， 包 括 网 络 接口 的 设计 。 但 是 ， 它 没有 说 明 许多 其 
他 的 方面 ， 如 物理 实现 的 细节 和 存储 器 同一 性 模型 。 这 些 都 留 给 了 系统 的 实现 者 。NUMA-O 
不 满足 顺序 同一 性 ， 但 是 使 用 叫做 处 理 器 同一 性 (processor consistency) 的 更 为 松弛 的 存储 器 
同一 性 模型 ， 该 模型 我 们 将 在 9.1 节 讨 论 。 有 趣 的 是 ， 和 Origin 一 样 ， 系 统 选 择 的 同一 性 模 
型 正 是 底层 微 处 理 器 所 支持 的 。 

3. Teh, SA ARR 

事实 上 ， 用 一 个 分 布 的 未 决 链表 在 请 求 者 处 保存 正在 等 待 的 请 求 ， 而 不 是 在 宿主 节点 设 
置 硬件 的 队列 ， 由 所 有 被 分 配 到 宿主 的 块 所 共享 ， 这 意味 着 没有 输入 缓冲 满 的 危险 ， 因 此 在 
协议 一 级 没有 死 锁 问题 。 还 采用 了 一 个 严格 的 请 求 -应 答 协 议 。 因 为 没有 从 宿主 节点 否定 回 
答 请 求 米 缓解 阻塞 和 竞争 (只 在 请 求 必须 被 修改 的 特定 的 竞争 条 件 下 才 否 定 回答 )， 请 求 简 
单 地 加 入 未 决 链 表 并 总 是 能 够 向 前 推进 ， 所 以 活 锁 也 不 会 发 生 。 链 表 机 制 也 保证 以 请 求 初次 
到 达 宿 主 的 次 序 对 它们 进行 处 理 ， 所 以 避免 了 挨 俄 。 
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一 个 节点 能 够 加 入 的 未 决 链表 的 总 数 等 于 它 能 允许 的 未 决 请 求 的 数量 ， 用 于 未 决 链表 的 
存储 空间 已 经 存在 于 高 速 缓存 的 项 中 ， 所 以 在 协议 级 不 需要 额外 的 缓冲 (不 允许 替换 未 次 
项 ， 引 起 替换 的 存储 器 操作 暂停 ， 直 到 对 应 的 项 不 再 处 于 未 决 状态 。)。 尽 管 SCI 标准 没有 在 
较 低 的 传输 层 涉 及 排队 和 缓冲 ， 大 多 数 的 实现 ， 包 括 NAMA-Q， 在 每 个 进入 和 出 去 的 路 径 
上 ,使 用 独立 的 请 求 和 响应 队列 。 

4. 错误 处 理 

SCI 标准 在 典型 协议 中 提供 了 一 些 在 硬件 链 路 层 错误 恢复 的 可 选 功能 。NUMA-Q 并 没有 
实现 这 些 功 能 ， 而 是 假定 硬件 链 路 是 可 靠 的 。 它 在 存储 器 和 网 络 链 路 上 提供 了 标准 的 ECC 
和 CRC 检测 ， 发 现 并 从 硬件 错误 中 恢复 。 在 协议 级 对 错误 的 健壮 性 通常 要 带 来 性 能 的 损失 。 
例如 ，SCI 的 决策 是 让 写 人 者 依次 发 出 作废 ; FSB, RT RRR, AA 
者 知道 在 错误 发 生 时 已 经 完成 了 多 少 个 作废 ; 但 是 ， 它 策 牲 了 性 能 。 尽 管 NUMA-Q 保留 了 这 
个 特性 ， 其 他 的 系统 可 能 选择 不 这 样 做 。 


8.6.3 协议 扩展 


RE SCI 协议 是 公平 的 ， 并 且 对 错误 相当 健壮 ， 但 许多 类 型 的 操作 会 产生 几 种 串 行 化 的 
网 络 事务 ， 因 此 代价 相当 高 。 读 扑 空 要 求 宿主 有 两 次 网 络 事务 ， 如 果 存 在 头 节 点 ， 它 至 少 有 
两 次 网 络 事务 ;如 果 头 节点 处 于 未 决 状态 的 话 ， 它 可 能 有 更 多 次 的 网 络 事务 。 替 换 需 要 一 次 
转 出 ， 这 需要 与 它 的 两 个 邻居 通信 。 但是， 实质 上 ， 从 可 扩展 性 来 看 最 麻烦 的 操作 是 写 人 时 
发 生 的 作废 ， 因 为 作废 的 代价 以 一 个 相当 大 的 常数 系数 〈 大 于 一 次 往返 时 间 ) 随 共 享 链表 中 
的 节点 数 线性 增长 。 使 用 分 布 的 未 决 链表 也 会 增加 时 延 ， 一 般 来 说 ， 扑 空 的 时 延 比 基 于 存储 
涡 的 协议 大 。 已 经 对 SC 协议 提出 一 些 扩展 ， 以 便 通 过 硬件 和 协议 的 结合 来 应 付 广泛 共享 的 
数据 。 例 如 ，SCI 标准 可 以 不 采用 单个 大 环 互 连 ， 而 是 设想 通过 网 桥 或 交换 机 把 大 量 较 小 的 
环 层次 式 地 连接 在 一 起 ， 构 造 大 的 系统 。 在 这 种 层次 结构 中 ， 可 以 利用 组 合 的 事务 。 有 些 扩 
展 需要 改变 基本 协议 和 硬件 结构 ， 而 另外 一 些 则 与 基本 SCI 协议 兼容 ， 只 需要 网 桥 的 新 的 实 
现 。 扩 展 的 复杂 度 可 能 会 降低 低 水 平 共享 的 性 能 。 这 些 标 准 的 扩展 还 没有 最 后 完成 ， 也 超出 
了 我 们 的 讨论 范围 。 读 者 可 以 在 文献 (IEEE Cmomputer Society 1995; Kaxiras and Goodman 
1996; Kaxiras 1996) 中 找到 更 多 的 信息 。 标 准 已 经 包括 的 一 个 扩展 专门 处 理 只 有 两 个 节点 共 
享 一 个 高 速 缓存 块 的 情况 ， 这 两 个 节点 反复 地 对 该 块 写 人 ， 从 而 使 拥有 权 在 它们 之 间 不 断 转 
移 。SCI 协议 文档 (IEEE Computer Society 1993) 中 描述 了 这 种 情形 。 NUMA-Q 包括 了 另 一 个 
扩展 ， 这 是 一 个 特殊 的 协议 操作 ， 使 处 理 器 获得 一 个 块 的 副本 ， 即 使 它 正在 作废 该 块 的 源 
GETE). 

与 Origin 不 同 ，NUMA-Q 并 没有 对 动态 页 面 迁移 提供 硬件 或 操作 系统 的 支持 。 因 为 有 一 
个 非常 大 的 远程 高 速 缓存 ， 处 理 器 高 速 缓存 内 对 于 远程 分 配 的 数据 的 容量 型 扑 空 几乎 总 是 可 
以 在 本 地 节点 的 远程 高 速 缓 存 中 得 到 满足 。 但 是 ， 在 处 理 器 对 数据 写 和 而 必须 得 到 它 的 拥有 
权时 ， 合 适 的 页 面 分 布 仍然 是 有 用 的 。 如 果 没 有 其 他 节点 拥有 一 个 副本 (例如 ， 在 方程 求解 
器 内 核 或 在 Ocean 中 一 个 处 理 器 分 区 的 内 部 )， 如 果 宿 主 是 本 地 的 ， 获 得 拥有 权 而 且 不 产生 
网 络 通信 ; 但是， 如果 宿 主 是 远程 的 ， 需 要 与 宿主 的 一 个 往返 来 查找 目录 状态 。NUMA-0 的 
策略 是 ， 主 存储 器 中 的 数据 迁移 是 用 户 级 软件 的 责任 。 一 个 例外 是 进程 的 迁移 ， 在 这 种 情况 
下 ,操作 系统 用 启发 式 的 算法 试探 性 地 将 那个 进程 的 工作 页 也 同时 迁移 ， 使 它们 在 新 的 位 置 
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成 为 本 地 的 。 设 计 者 认为 这 是 页 面 迁 移 的 重要 场景 。 类 似 地 ， 对 于 超出 像 test&set 这 样 简单 
的 原子 交换 原 语 的 同步 也 没有 提供 什么 硬件 支持 。 


8.6.4 NUMA-Q 硬件 一 览 


当前 已 经 使 用 的 NUMA-Q 系统 中 ， 一 个 4 处 理 器 节点 中 每 个 处 理 器 的 第 二 级 高 速 缓存 容 
量 为 512 KB 或 1 MB，4 路 组 相 联 ， 块 尺寸 为 32 字 节 。 节 点 总 线 是 532 MBps 的 拆 分 事务 按 序 
总 线 ， 具 有 两 级 一 致 性 方案 所 需要 的 有 限 的 乱 序 响 应 的 能 力 。( 即 使 SMP 节点 内 的 总 线 提供 
按 序 的 响应 ， 当 一 个 请 求 必须 发 往 一 个 远程 节点 时 ， 要求 它 的 响应 相对 于 本 地 节点 产生 的 响 
应 仍然 保持 次 序 是 不 合理 的 ,) 一 个 4 处 理 器 节点 包括 多 达 4 GB 的 全 局 可 访问 的 主 存 ， 两 个 
32 位 宽 的 133 MBps 的 外 围 部 件 接口 (PCI) 总 线 通 过 PCI 网 桥 连接 到 4 处 理 器 节点 总 线 ，IQ 
设备 、 存 储 器 和 诊断 控制 器 可 以 连接 到 PCI 总 线 上 ; VO 链 路 板 插 在 存储 器 总 线 上 ， 节 点 还 
包括 通信 辅助 部 件 和 网 络 接口 。 

除了 在 总 线 侧 和 网 络 侧 都 保持 用 于 本 地 分 配 的 数据 的 目录 信息 和 用 于 远程 分 配 但 在 本 地 
高 速 缓存 的 数据 的 标记 之 外 ，IQ 链 路 板 还 包含 如 图 8-29 所 示 的 4 个 主要 的 功能 部 件 ， 总 线 
接口 控制 器 、DataPump、SCI 链 路 接口 控制 器 和 RAM 阵列 。Orion 总 线 接口 控制 器 (Orion bus 
interface controller，OBIC〉 提 供 了 和 节点 共享 总 线 的 接口 ， 管 理 远 程 高 速 缓存 数据 阵列 和 总 
线 侦 听 与 请 求 逻辑 。 它 的 作用 噬 是 一 个 对 非 本 地 数据 侦 听 和 访问 翻译 的 伪 存 储 器 控制 器 ， 又 
是 一 个 把 从 网 络 到 达 的 事务 放 到 总 线 上 去 的 伪 处 理 器 。 DataPump 是 一 块 由 Vitesse Semicon- 
ductor Corporation X RIL BGR ir, ERE GE SCI 标准 的 链 路 和 数据 包 一 级 的 传输 协议 。 它 提 
供 对 环形 互 连 的 接口 ， 提 取 发 往 本 节点 的 数据 包 ， 而 让 其 他 的 数据 包 继续 传送 。SCI 链 路 接 
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4 处 理 器 总 线 


图 8-29 NUMA-Q 的 IQ 链 路 板 的 功能 框图 。 同步 DRAM (SDRAM) 实现 远程 高 速 
缓存 的 数据 存储 。 静 态 RAM (SRAM) 实现 了 总 线 侧 的 标记 和 目录 ， 
为 对 网 络 侧 的 标记 和 目录 的 访问 可 以 较 慢 ， 所 以 它们 用 SDRAM 实现 
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口 控制 器 (SCLIC) 与 DataPump、0BIC、 中 断 控 制 咒 以 及 目录 标记 接口 。 它 的 主要 功能 是 管 
理 SCI 一 致 性 协议 。RAM 阵列 实现 远程 高 速 缓存 的 数据 和 不 同 标记 的 存储 。 在 8.6.6 节 讨 论 
1Q 链 路 板 的 实现 时 ， 将 对 这 些 部 件 做 进一步 的 描述 。 

对 于 4 处 理 器 节点 间 的 互 连 ，SCI 标准 定义 了 传输 层 和 高 速 缓存 一 致 性 协议 。 传 输 层 定 
义 了 节点 对 网 络 接口 的 功能 规范 和 由 点 对 点 链 路 构成 的 环 这 样 的 网 络 拓 扑 。 特 别 地 ， 它 定义 
了 一 个 1 GBps 的 环 状 互 连 以 及 能 在 它 上 面 产生 的 事务 。NUMA-Q 系统 起 初 采 用 连接 多 达 8 个 
4 处 理 需 节点 的 单 环 拓扑 结构 ， 如 图 8-24 所 示 。 来 自 节 点 的 电缆 连接 到 包含 在 一 个 盒子 里 的 
环 路 端口 ， 这 个 盒子 叫做 1Q-Plus。 较 大 的 系统 包含 由 局 域 网 连接 的 多 个 8 个 4 处 理 器 节点 的 
系统 。 前 面 已 经 提 到 ， 由 于 长 环 的 高 时 延 ，SCI 标准 设想 较 大 的 系统 一 般 将 由 交换 机 互 连 的 
多 个 环 构成 。 每 个 节点 只 有 少量 的 未 决 请 求 ， 长 环 的 时 延 会 严重 限制 节点 到 网 络 的 带宽 ( 见 
第 11 章 )。SCI 的 传输 层 将 在 第 10 章 进一步 讨论 。 

因为 机 器 的 目标 是 用 于 数据 库 和 事务 处 理工 作 负 载 ，1/O 是 NUMA-Q 设计 的 重点 。 和 
Origin 一 样 ，IO 可 全 局 寻 址 ， 所 以 任何 处 理 器 可 以 直接 读 写 任 何 1/0 设备 ， 而 不 只 限于 那些 
挂 接 在 局 部 4 处 理 器 节点 上 的 IO 设备 。 非 本 地 的 处 理 器 并 不 非 要 向 挂 接 设备 的 4 处 理 器 节 
点 发 出 显 式 的 消息 进而 让 该 4 节点 的 处 理 器 发 出 访问 。 这 对 于 商业 应 用 是 十 分 便利 的 ， 因 为 
这 些 应 用 经 常 不 是 结构 化 的 ， 因 此 处 理 器 只 需 访 问 它 本 地 的 磁盘 就 可 以 。1/0 设备 连接 到 两 
条 PCI 总 线 上 ，PCI 总 线 通过 PCL 网 桥 连 接 到 4 处 理 器 节点 总 线 。 每 条 PCL 总 线 的 时 钟 频率 
和 其 宽度 是 存储 器 总 线 速 度 的 一 半 ， 所 以 带宽 大 约 是 存储 器 总 线 的 4。 物 理 上 ， 处 理 器 有 
两 种 方法 访问 其 他 节点 上 的 WO 设备 ， 其 一 是 经 由 SCI 环 ， 可 以 通过 高 速 缓存 一 致 性 协议 ， 
也 可 以 通过 不 经 高 速 缓存 的 写 ， 就 像 Origin 通过 Hub 和 网 络 所 做 的 那样 。 但 是 ， 环 网 上 的 带 
宽 是 一 个 珍贵 的 资源 。I0 传输 会 占用 相当 大 的 带宽 ， 打 扰 存储 器 的 访问 。 因 此 ，NUMA-Q 
为 节点 间 的 VO 传输 提供 了 一 条 经 由 PCI 总 线 的 独立 通信 通路 ， 它 是 缺 省 的 1/0 路 径 。- 一 条 
FiberChannel 链 路 连接 到 每 个 节点 上 的 PCL 总 线 。 这 些 链 路 通过 点 对 点 连接 、 仲 裁 FiberChan- 
ne] 环 或 者 FiberChannel 交换 机 连接 到 系统 所 有 的 共享 磁盘 ; 采用 何 种 方式 ， 取 决 于 处 理 和 
IO 系统 的 规模 〈 见 图 8-30)。 
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图 8-30 Sequent 的 NUMA-Q 机 的 VO FA. VO 可 全 局 寻 址 ， 节 点 闻 的 VO 数据 伟 
输 可 以 通过 经 由 PCI 总 线 的 FiberChannel 或 通过 用 于 存储 器 操作 的 SCI 环 
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FiberChannel 通过 一 个 将 FiberChannel 数据 格式 转换 成 磁盘 接受 的 SCSI 格式 的 网 桥 ， 以 
50 MBps 以 上 的 持续 速率 访问 磁盘 。 对 系统 中 任何 磁盘 的 VO 通常 通过 经 由 本 地 PCI 总 线 和 和 
FiberChannel 交换 机 的 路 径 ; 但 是 ， 如 果 这 条 路 径 由 于 某 种 原因 失效 ， 操 作 系 统 使 VO 传输 经 
过 SCI 环 到 达 其 他 节点 ， 再 经 由 那个 节点 的 PCI 总 线 和 FiberChannel $438 SGA BERK. Fiber- 
Channel 也 可 以 以 松散 耦合 的 方式 连接 多 个 NUMA-Q 系统 ， 让 多 个 系统 共享 磁盘 。 最 后 ， 每 
个 节点 的 PCT 总 线 都 连接 一 个 管理 和 诊断 控制 器 ; 这 些 控 制 器 通过 一 个 专用 的 局 域 网 如 Eth- 
emet 相互 连接 ， 并 和 系统 的 控制 台 连 接 ， 便 于 系统 维护 和 诊断 。 


8.6.5 协议 和 SMP 节点 的 交互 


关于 SCI 协议 的 上 述 讨论 忽略 了 4 处 理 器 节点 的 多 处 理 器 性 质 以 及 节点 内 的 基于 总 线 的 
协议 。 现 在 ， 我 们 已 经 理解 了 节点 和 IQ 链 路 的 硬件 结构 ， 下 面 考察 一 下 这 两 个 协议 间 的 交 
互 ， 相 互 作用 的 协议 对 4 处 理 器 节点 和 IQ 链 路 的 要 求 ， 以 及 用 市 售 的 SM 作为 节点 产生 的 
一 些 特殊 问题 。 

读 请 求 说 明了 某 些 交互 。 在 处 理 器 第 二 级 高 速 缓存 中 的 读 扑 空 首先 出 现在 节点 总 线 上 。 
除了 被 其 他 处 理 器 高 速 缓存 侦 听 外 ， 它 还 被 IQ 链 路 板 上 的 OBIC 总 线 控制 器 侦 听 。OBIC 查 
找 远 程 高 速 缓存 以 及 本 地 分 配 块 的 目录 状态 位 ， 判 断 读 是 能 在 本 地 4 处 理 器 节点 上 满足 ， 还 
是 必须 要 传 出 该 节点 。 如 果 是 前 一 种 情况 ， 主 存 或 其 他 高 速 缓存 之 一 能 满足 这 个 读 ， 发 生 适 
当 的 MESI 状态 变化 。( 在 固定 数量 (4 个 ) 的 总 线 周期 之 后 ， 按 序 报告 侦 昕 结果 ; 如 果 控 制 
器 不 能 在 此 时 间 内 完成 侦 听 ， 它 发 出 一 个 暂停 信号 ， 申 请 另外 两 个 总 线 周 期 ， 在 此 之 后 ， 在 
储 器 再 次 检查 侦 听 结果 。 这 个 过 程 继续 直到 得 到 所 有 的 侦 听 结果 为 止 。) 节点 的 总 线 实 现 了 
对 请 求 的 按 序 响 应 。 但 是 ， 如 果 OBC 检测 到 请 求 必须 传 出 节点 ， 它 就 必须 干预 。OBIC 发 出 
一 个 推迟 响应 信号 ， 告 诉 总 线 可 以 违反 按 序 响应 的 性 质 ， 继 续 其 他 的 事务 ，OBIC 将 负责 响 
应 这 个 请 求 。 甚 实 如 果 总 线 实现 乱 序 响应 ， 就 不 必要 这 样 做 了 。OBIC 把 请 求 传 给 SCLIC 以 
完成 目录 协议 。 当 响应 返回 时 ， 从 SCLIC 传 回 OBIC，OBIC 把 它 放 到 总 线 上 ， 结 束 推迟 了 的 
事务 。 注 意 ， 当 把 任何 基于 总 线 的 系统 当 作 更 大 的 高 速 缓存 一 致 的 机 器 节点 使 用 时 ， 总 线 必 
须 是 支持 拆 分 事务 的 ， 这 不 仅 是 为 了 性 能 ,也 是 为 了 简化 正确 性 。 否 则 ， 在 整个 远程 事务 持 
续 期 间 总 线 会 被 占用 ， 甚 至 不 允许 完成 本 地 的 扑 空 ， 也 不 允许 处 理 器 高 速 缓存 处 理 到 达 的 网 
络 事务 。 

写 操作 进出 4 处 理 器 节点 的 路 径 与 读 操 作 的 类 似 。 远 程 高 速 缓存 中 块 的 状态 被 OBIC 监 
听 ， 指 明 该 块 是 由 本 地 节点 拥有 ， 还 是 必须 由 SCLIC 发 送 到 其 宿主 节点 。 如 果 需 要 ，SCLIC 
负责 把 节点 放 到 共享 链表 的 表 头 并 作废 其 他 节点 。 当 SCLIC 完成 时 ， 它 把 应 答 放 到 4 处 理 器 
总 线 上 (经 由 OBC), ARRE. HF 4 处 理 器 节点 本 身 的 限制 出 现 了 一 种 有 趣 的 情况 。 考 
虑 对 一 个 本 地 分 配 的 块 的 读 扑 空 和 写 扑 空 ， 该 块 在 远 地 高 速 缓存 ， 状 态 是 被 修改 。 当 响应 返 
回 并 作为 推迟 的 响应 出 现在 总 线 上 时 ， 它 应 该 更 新 主 存 。 但 是 ，4 处 理 器 节点 存储 器 的 实现 
无 法 处 理 推迟 的 请 求 和 响应 ， 在 看 到 推迟 的 响应 时 也 不 会 更 新 自己 。 因 此 ， 当 推迟 的 响应 经 
由 OBIC 传 到 总 线 时 ，OBIC 也 必须 保证 在 它 释 放 总 线 之 前 ， 通 过 特殊 的 动作 更 新 存储 器 。 另 
一 个 限制 来 自 OBIC 使 用 4 处理 器 节点 总 线 协议 的 方式 。 如 果 4 处 理 器 节点 内 的 两 个 处 理 器 
背靠背 发 出 排他 读 ， 第 一 个 处 理 顺 传 到 SCLIC， 我 们 希望 第 二 个 处 理 嚣 会 被 缓冲 ， 以 适当 的 
状态 接受 来 自 第 一 个 处 理 器 的 响应 。 但 是 ， 具 体 的 实现 是 拒绝 第 二 个 处 理 器 请 求 ， 在 第 一 个 
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最 后 ， 考 虑 串 行 化 。 因 为 SCI 协议 级 的 串 行 化 是 在 宿主 节点 进行 的 ， 到 达 宿 主 的 事务 不 
仅 相互 之 间 要 串 行 化 ， 而 且 要 相对 于 宿主 4 处 理 器 节点 中 处 理 器 的 访问 串 行 化 。 例 如 ， 假 定 
一 个 块 在 宿主 处 于 HOME 状态 。 在 SCI 协议 级 ， 这 意味 着 系统 中 其 他 远程 高 速 缓存 ( 它 必须 
在 其 他 节点 上 ) 没有 该 块 的 有 效 副 本 。 但 是 ， 和 Origin 协议 中 的 未 拥有 状态 不 一 样 ， 这 并 不 
意味 着 宿主 节点 的 处 理 器 高 速 缓存 中 没有 该 块 的 副本 。 事 实 上， 即使 宿主 节点 某 个 处 理 器 的 
高 速 缓存 中 有 该 块 的 脏 副 本 ， 具 录 也 会 是 HOME 状态 。 甚 至 为 了 得 到 正确 的 值 ， 对 于 在 宿主 
节点 本 地 分 配 的 块 的 请 求 也 必须 在 4 处 理 器 节点 总 线 上 广播 ， 而 不 能 完全 由 OBIC 和 SCLIC 
处 理 。 类 似 地 ， 使 目录 从 HOME 或 FRESH 变 为 GONE 状态 的 请 求 必 须 被 放 到 节点 总 线 上 ， 这 
样 处 理 器 高 速 缓存 中 的 副本 才能 被 作废 。 因 为 到 来 的 请 求 和 宿主 内 数据 的 本 地 扑 空 都 出 现在 
节点 总 线 上 ， 所 以 让 总 线 成 为 宿主 节点 上 实现 串 行 化 的 部 件 就 是 很 自然 的 。 

类 似 地 ， 串 行 化 的 问题 在 访问 远程 分 配 的 块 的 请 求 4 处 理 器 节点 中 也 需要 解决 。4 处 理 
器 节点 中 和 远程 分 配 的 块 相关 的 动作 在 本 地 SCLIC 而 不 是 在 本 地 总 线 上 串 行 化 。 因 此 ， 本 地 
处 理 器 对 远程 高 速 缓存 块 的 请 求 和 来 自 SCI 互连网 络 对 同一 块 的 请 求 都 是 在 本 地 SCLC H E 
行 化 的 。 类 似 地 ，SCLIC 也 负责 请 求 者 的 未 决 作废 和 进入 节点 的 请 求 之 间 的 本 地 串 行 化 。 和 
节点 协议 间 的 其 他 交互 在 考虑 IQ 链 路 板 部 件 的 实现 时 讨论 。 


8.6.6 IQ REXHA 


与 Origin 中 单 片 的 Hub 不 同 ，SCLIC 目录 控制 器 、OBIC 总 线 接口 控制 器 和 DataPump 是 
1Q 链 路 板 上 独立 的 芯片 ， 丽 链 路 板 上 还 包含 某 些 用 于 标记 、 状 态 和 远程 高 速 缓存 数据 存储 
的 SRAM 和 SDRAM ( 见 图 8-29)。 

OBIC 可 以 直接 访问 远程 高 速 缓存 中 的 数据 。 使 用 两 组 标记 来 减少 SCLIC 和 OBIC 之 间 的 
通信 : SCLIC 访问 的 网 络 侧 标记 和 OBIC 访问 的 总 线 侧 标记 。 旧 录 状 态 和 本 地 分 配 的 块 也 是 
这 样 。 总 线 侧 的 标记 和 目录 状态 仅 包 含 总 线 侦 听 所 需 的 信息 ， 用 SRAM 实现 ， 所 以 能 以 总 线 
的 速度 查找 。 网 络 侧 的 标记 和 状态 需要 更 多 的 信息 ， 可 以 慢 一 些 ， 所 以 用 同步 DRAM 
(SDRAM) 实现 。 总 线 侧 的 本 地 目录 SRAM 为 每 个 64 字 节 的 块 只 设 两 位 的 目录 状态 (以 区 分 
HOME. FRESH 和 GONE 状态 )， 而 网 络 侧 的 目录 还 包含 6 位 的 SCI 头 指针 。 总 线 侧 远程 高 速 
缓存 标记 只 有 4 位 的 状态 ， 并 且 不 包括 SCI 前 向 和 后 向 链表 指针 。 它 记录 14 种 状态 ， 某 些 
是 过 渡 状 态 〈 例 如 ， 记 录 正 在 转 出 的 块 ， 以 及 记录 在 总 线 上 有 未 完成 的 重 试 的 特殊 总 线 代 
理 ， 它 必须 获得 该 块 的 优先 权 )。 网 络 侧 的 远程 高 速 缓存 标记 是 目录 协议 的 一 部 分 ， 每 个 块 
除 包 含 7 位 的 协议 状态 外 ， 还 有 两 个 6 位 的 链表 指针 (以 及 13 位 的 高 速 缓存 标记 本 身 )。 

与 Origin 中 的 硬 接线 协议 表 不 同 ，NUMA-Q 中 的 SCLIC 一 致 性 协议 控制 器 是 可 编程 的 。 
这 意味 着 协议 可 以 由 软件 或 男 件 实现 ， 而 不 是 由 硬 接线 的 有 限 状态 机 实现 。 每 个 来 自 本 地 处 
理 器 的 协议 调用 操作 ， 以 及 每 个 来 自 网 络 的 事务 调用 在 协议 引擎 上 运行 的 软件 “处 理 例 程 ” 
或 任务 。 这 些 用 微 码 编写 的 软件 处 理 程序 管理 协议 状态 ， 在 节点 总 线 上 产生 和 干涉， 生成 网 络 
事务 。SCLIC 引擎 有 多 组 寄存 器 ， 并 行 支持 12 个 读 / 写 /作废 事务 和 一 个 中 断 事务 。 为 了 支持 
4 处 理 器 节点 间 的 中 断 ，SCLIC 提供 了 为 标准 的 4 处 理 器 节点 间 中 断 提供 路 由 的 网 桥 和 额外 
儿 个 位 ， 以 便 在 生成 中 断 时 包含 目标 4 处理 器 节点 号 。 

一 个 可 编程 的 协议 引擎 有 几 个 基本 的 优点 。 它 允许 软件 调试 协议 ， 通 过 简单 地 下 载 新 的 
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协议 代码 而 修正 错误 。 它 提供 了 在 机 器 建造 好 之 后 或 发 现 新 的 瓶颈 时 ， 试 验 和 修改 协议 的 灵 
活性 ， 并 允许 机 器 支持 多 个 协议 。 它 允许 为 了 性 能 调试 ， 在 处 理 程 序 中 插 和 代码， 监视 选 定 
的 事件 ， 这 对 于 理解 隐 式 的 通信 和 共享 地 址 空间 中 人 为 通信 的 影响 ， 特 别 有 价 值 。 其 缺点 在 
于 ， 每 个 事务 对 可 编程 协议 引擎 的 占用 要 比 对 硬 接线 引擎 的 占用 时 间 长 ， 因 此 要 付出 性 能 代 
价 。NUMA-Q 的 SCLIC 试图 降低 这 种 性 能 影响 。 协 议 处 理 器 有 三 级 流水 线 ， 每 个 周期 发 送 最 
多 两 条 指令 (一 条 转移 ， 一 条 其 他 指令 )。 用 高 速 缓存 暂 存 最 近 用 过 的 目录 状态 和 标记 信息 ， 
而 不 是 每 次 都 访问 目录 RAM。 最 后 ， 它 支持 目录 协议 需要 的 位 处 理 操作 以 及 加 快 处 理 例 程 
分 支 和 管理 的 有 用 的 指令 ， 比 如 ,“ 当 缓冲 满 时 入 队 ” 和 “ 当 队 列 空 间 可 用 时 分 支 ” 等 指 今 。 
Stanford 的 FLASH 多 处 理 器 (Kuskin et al. 1994) 使 用 了 一 个 略 有 不 同 的 可 编程 协议 引擎 ， 它 
是 硬 连 线 Stanford 的 DASH 机 的 后 继 。 

每 个 Pentium Pro 处 理 器 可 以 有 多 达 4 个 未 完成 的 请 求 。 节 点 总 线 同 时 可 以 有 8 个 未 决 请 
求 ， 并 且 保 证 侦 听 和 数据 响应 的 次 序 (除非 使 用 了 前 面 提 到 的 推迟 响应 )。OBIC 可 以 有 4 个 
外 部 的 对 SCLIC 的 未 决 请 求 ， 并 能 同时 缓冲 两 个 进入 4 处 理 器 节点 总 线 的 事务 。 如 果 来 自 4 
外 理 器 节点 总 线 的 第 五 个 请 求 需要 传 出 节点 ，OBIC 会 和 否定 回答 它 ， 直 到 缓冲 项 腾 出 ， 但 它 
不 会 使 4 处 理 器 节点 总 线 暂 停 处 理 本 地 操作 。SCLIC 最 多 可 以 有 8 个 未 决 请 求 ， 能 够 同时 组 


. 冲 4 个 进入 的 请 求 。SCLIC 的 一 个 简化 的 说 明 如 图 8-31 所 示 。 最 后 ，DataPump 的 请 求 和 响应 


缓冲 的 深度 是 : 发 往外 部 网 络 为 两 项 ， 从 网 络 向 内 为 4 项 。 不 管 是 进入 还 是 送出 ， 所 有 的 请 
求 和 响应 缓冲 在 物理 实现 上 是 分 离 的 。 


到 /来 自 DataPump 


iy he 

co 
一 wel 缓冲 区 

图 8-31 SCLC 艺 片 的 简化 框图 。 它 包括 一 个 可 编程 

链接 到 OBIC 协议 处 理 器 、 一 个 目录 信息 高 速 缓存 和 对 


OBIC (总 线 ) 和 DataPump( 网 络 ) 的 接口 缓冲 







除了 以 软件 提供 修改 协议 处 理 例 程 的 能 力 ，IQ 链 路 板 上 的 所 有 三 个 部 件 都 提供 了 性 能 
计数 器 ， 人 允许 各 种 事件 和 统计 的 非 打扰 测量 。 在 SCLC 中 有 三 个 40 比特 的 存储 器 映射 的 计 
Bak, TE OBIC 中 有 四 个 。 每 个 计数 器 都 能 用 软件 设置 ， 统 计 任 何 大 量 的 事件 ， 如 协议 引擎 
利用 率 、 存 储 器 和 总 线 利用 度 、 队 列 占用 率 、 出 现 的 SCI 命令 类 型 和 出 现 的 总 线 事务 类 型 。 
在 任何 时 候 ， 计 数 器 都 可 以 用 主 处 理 器 上 的 软件 读 出 或 被 编程 ， 使 得 在 超过 预定 阅 值 时 产生 
“PI. Pentium Pro 处 理 器 模块 本 身 提供 了 许多 性 能 计数 器 ， 统 计 一 级 和 二 级 高 速 缓存 扑 空 、 
请 求 类 型 的 频率 、 内 部 资源 的 占用 率 等 特性 。 和 可 编程 的 处 理 例 程 一 起 ， 这 些 计数 器 在 运行 
工作 负荷 时 提供 了 机 器 行为 的 有 用 信息 。 


8.6.7 性 能 特征 


节 扣 总 线 的 峰值 带宽 是 532 MBps, SCI 环形 互 连 的 节点 到 网 络 接口 每 个 方向 传输 速率 是 
500 MBps. 1Q 链 路 板 在 这 两 者 之 问 每 个 方向 的 数据 传输 率 是 30 MBps (注意 ， 只 有 少数 出 现 
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在 节点 总 线 或 SC[ 环 上 的 事务 与 其 他 的 互 连 有 关 )。 在 主 存 (或 远程 高 速 缓存 ) 满足 的 本 地 
读 扑 空 的 时 延 在 理想 条 件 下 平均 约 为 250 ns。 在 两 个 节点 的 系统 中 ， 在 远程 存储 器 满足 的 读 
时 延 大 约 是 2.5 hs， 比例 大 约 是 10 比 1。 但 是 ,由 于 有 了 远程 访问 高 速 缓存 ， 附 加 通信 的 几 
率 非常 低 。 事 务 的 前 18 个 比特 通过 DataPump 网 络 接口 的 时 延 是 16 ns， 然后 ， 每 传输 18 个 
比特 花 2 ns。 就 网 络 本 身 而 言 ， 第 一 个 比特 从 4 处理 器 节点 的 DataPump 输出 进入 实现 环 的 
IQ-Plus 盒 ， 然 后 沿 环 回 到 下 一 个 节点 的 DataPump， 需 要 26 nso 

NUMA-Q 的 设计 者 用 微 基准 测试 程序 和 数据 库 及 事务 处 理工 作 负 载 对 机 器 进行 了 一 些 试 
验 。 为 了 了 解 机 器 对 微 基准 测试 程序 的 性 能 能 力 、 时 延 随 负载 的 变化 以 及 工作 负载 的 特征 ， 
让 我 们 看 一 下 结果 。 对 于 4 个 处 理 器 同时 以 最 快 的 速度 产生 高 速 缓 存 扑 空 的 单 4 处 理 器 节点 
系统 ， 每 个 背靠背 的 读 扑 空 花费 600 ns， 对 处 理 器 的 综合 带宽 是 290 MBps。 在 相似 的 条 件 
下 ， 产 生 读 后 跟 一 个 回 写 的 背靠背 的 写 扑 空 要 花费 585 ns， 可 持续 带宽 是 195 MBps。 对 于 在 
每 条 PCI IO 总 线 上 有 多 个 IO 控制 器 的 单 节点 系统 ， 尽 可 能 快 地 产生 VO 设备 对 本 地 存储 器 
的 写 人 ， 每 个 高 速 缓存 块 传输 需要 360 ns， 可 持续 带宽 为 111 MBps. 

表 8-3 给 出 了 在 多 个 4 处 理 器 节点 系统 中 运行 各 种 工作 负载 得 到 的 时 延 和 特征 。 前 两 行 
对 应 从 微 基准 测试 程序 得 到 的 数据 ， 这 些微 基准 测试 程序 使 所 有 4 处 理 器 节点 同时 发 出 读 扑 
空 ， 并 在 远程 存储 器 中 满足 。 第 三 行 对 应 Transaction Processing Council 的 在 线 事 务 处 理 基 准 
测试 程序 TPC-B ( 见 附录 )。 最 后 一 行 对 应 TPC-D 基准 测试 程序 集 的 Query 9， 代 表决 策 支 持 
应 用 。 时 延 通过 内 内 在 OBIC 和 SCLC 中 的 性 能 计数 器 测量 ， 其 测量 的 不 是 从 处 理 器 ， 而 是 
从 总 线 请 求 到 第 一 个 数据 响应 。 所 有 的 工作 负载 都 运行 在 4 个 节点 (16 个 处 理 器 ) 的 系统 
上 ， 决 策 支 持 工 作 负荷 是 个 例外 ， 它 在 8 个 节点 上 运行 。 对 本 地 分 配 数据 的 写 扑 空 包含 在 最 
后 一 列 ， 它 引起 远程 发 送 的 作废 ， 数 量 很 少 。 


表 83 在 8 节点 NUMA-Q 机 上 运行 微 基准 测试 程序 和 工作 负载 的 特征 











L 扑 空 的 时 延 L 扑 空 满足 以 下 情况 的 百分比 
所 有 amen 0 “ae Rane “in 远程 节点 
远程 读 扑 空 020m 8 300 ns 95% 1.5% 0% 2% 96.5% 
远程 写 扑 空 9 350 ns 9 625 ns 95% 1% 0% 2% 97% 
TPC-B-like 630 ns 4 300 ns 54% 80% 2% 11.5% 6.5% 
TPC-D (Q9) 580 ns 3 950 ns 40% 85% 5.5% 4% 5.5% 


远程 数据 访问 的 时 延 远 比 无 负载 时 延 高 得 多 。 通 常 ，SCI 环 和 协议 具有 比 更 为 分 布 的 网 
络 和 基于 存储 器 的 协议 更 高 的 时 延 。 但 是 ， 至 少 在 事务 处 理 和 决策 支持 工作 负荷 中 ， 远 程 访 
问 的 许多 时 间 都 花 在 巩 链 路 板 本 身 ,而 不 是 花 在 总 线 或 环 上 。 图 8-32 把 4 到 8 个 节点 的 系 
统 上 两 个 工作 负载 的 平均 远程 时 延 划分 成 三 种 成 分 。 在 有 负载 和 无 负载 情况 下 改善 远程 访问 
性 能 的 途径 是 使 Q 链 路 板 效率 更 高 。 设 计 者 考虑 了 许多 可 能 性 ， 包 括 重新 设计 SCLC (或 
许 在 可 编程 SCLIC 中 使 用 两 个 而 不 是 一 个 指令 部 件 ) ， 优 化 OBIC， 和 希望 下 一 代 机 器 把 重 载 下 
的 远程 访问 时 延 降低 到 2 ps 左右 。 远 程 高 速 缓存 对 于 使 容量 扑 空 本 地 化 很 有 用 。TPC-D 
(Q9) 工作 负荷 对 SCLIC 的 利用 率 比 TPC-B 工作 负荷 小 ， 因 为 它 产生 较 少 的 作废 。 
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SCI 网 络 时 间 SCI 网络 时 间 


总 线 时 间 
总 线 时 间 





l IQ- 链 路 板 时 间 
IQ- 链 路 板 时 间 


a) TPC-B, 4 处 理 器 b) TPC-D8 处 理 器 


8-32 在 一 个 8 个 4 处 理 器 节点 的 NUMA-Q 上 两 种 工作 负载 下 的 平均 远程 扑 空 时 延 的 成 
分 。 在 两 种 情况 下 ， 大 部 分 的 时 间 花 费 在 IQ 链 路 板 上 ， 包 括 在 SCLIC 和 DataPump 
或 SCLIC 和 OBIC 之 间 的 数据 传输 。 图 中 OBIC 芯片 本 身 的 时 间 包 含 在 总 线 时 间 内 


8.6.8 对 比 案例 分 析 : HAL S1 多 处 理 器 


HAL Computer System 的 S1 多 处 理 器 是 NUMA-Q 和 Origin2000 一 些 特性 的 有 趣 组 合 。 和 
NUMA-Q 一 样 ，S1 采用 Pentium Pro 4 处 理 器 作为 处 理 节 点 ; 但 是 ， 它 在 节点 间 采 用 Ori- 
gin2000 那样 的 基于 存储 器 的 目录 协议 ， 而 不 是 基于 高 速 缓存 的 SCI 协议 。 另 外 ， 为 了 降低 
时 延 和 通信 辅助 部 件 的 占用 ， 它 把 一 致 性 机 构 与 节点 更 紧密 地 集成 ， 这 方面 更 接近 Origin. 
它 的 目录 协议 控制 器 (SCLIC)、 总 线 接口 控制 器 (OBIC) 和 网 络 接口 (DataPump) 不 是 用 独 
立 的 芯片 实现 ，S1 把 整个 通信 辅助 部 件 和 网 络 接口 集成 在 一 块 叫做 网 格 一 致 性 单元 (MCU) 
的 芯片 上 ， 而 存储 使 用 单独 的 芯片 。 另 一 方面 ， 高 速 缓存 一 致 性 设计 只 能 扩展 到 4 个 4 处 理 
器 节点 ， 没 有 可 编程 控制 器 的 灵活 性 ， 也 没有 包含 降低 容量 扑 空 的 远程 访问 高 速 缓存 。 

因为 基于 存储 器 的 协议 不 需要 使 用 每 个 高 速 缓存 表 项 的 前 向 和 后 向 指针 ， 所 以 不 需要 节 
点 级 的 远程 数据 高 速 缓存 来 提供 这 个 功能 〈 处 理 器 高 速 缓 存 也 不 提供 ); 在 基于 存储 器 的 协 
议 里 ,远程 高 速 缓存 只 对 降低 容量 扑 空 有 用 ，S1 不 用 它们 。 目 录 信 息 在 独立 的 SRAM 芯片 
中 保存 ， 但 是 不 保存 所 有 存储 器 块 的 目录 信息 ， 而 是 只 保存 远程 高 速 缓存 块 的 目录 信息 ， 把 
目录 本 身 组 织 成 高 速 缓存 (在 8.10.1 节 中 讨论 )， 可 以 大 大 降低 所 需要 的 目录 存储 容量 。 
MCU 还 包含 一 个 支持 显 式 消息 传递 和 在 高 速 缓 存 一 致 的 共享 空间 中 块 传输 的 DMA 设备 ( 见 
第 11 章 )。 消 息 传递 或 显 式 数据 传输 可 以 通过 DMA 引擎 实现 (对 较 大 的 消息 有 利 )， 也 可 以 
通过 高 速 缓存 块 的 传输 机 制 实现 ( 对 较 小 的 消息 有 利 )。MCU 是 硬 接线 的 而 不 是 可 编程 的 ， 
这 降低 了 协议 处 理 对 它 的 占用 ， 改 善 了 它 的 性 能 。MCU 也 对 性 能 监测 提供 了 相当 多 的 硬件 
支持 。 除 了 MCU， 惟 一 的 专用 芯片 是 网 络 路 由 器 ， 它 是 一 个 6 端口 的 交叉 开关 ， 包 含 190 万 
个 晶体 管 ， 为 提高 速度 而 做 了 优化 。 网 络 时钟 是 200 MHz。 通 过 单个 路 由 器 的 时 延 是 42 ns, 
每 个 方向 可 用 的 单 链 路 带宽 是 1.6 GBps， 两 者 都 类 似 于 Origin 2000 的 网 络 。S1 的 内 部 互 连 的 
实现 可 以 扩展 到 32 个 节点 (128 个 处 理 器 )。 

在 Sl 中 ,把 所 有 辅助 部 件 功能 集成 到 一 个 芯片 上 的 主要 目标 是 降低 远程 访问 时 延 ， 提 
高 远程 带宽 。 从 设计 者 的 模拟 测量 可 知 ， 在 本 地 存储 器 满足 的 读 扑 空 的 最 好 无 负载 时 延 是 
240 ns， 对 于 在 远程 宿主 的 干净 的 块 读 扑 空 是 1 065 ns， 对 于 附近 的 第 三 方 节点 中 的 脏 块 的 读 
扑 空 是 1 365 ns。 远 程 到 本 地 时 延 的 比例 在 4 到 5 之 间 (包括 竞争 )。 比 SGI 的 Origin 2000 稍 
差 , (BE NUMA-Q 要 好 。 但 是 ， 微 基准 测试 程序 时 延 的 比较 对 于 预测 工作 负载 的 整体 性 能 不 
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是 很 有 意义 ， 因 为 它们 忽略 了 重要 的 因素 ,例如 远程 高 速 缓存 和 能 显著 影响 通信 频率 的 灵 
活性 。 

HAL S1 在 复制 单个 4 KB 的 页 面 时 实现 的 带宽 是 有 指导 意义 的 。 通 过 处 理 器 的 读 写 ， 本 
地 存储 器 之 间 实 现 的 带宽 是 105 MBps (主要 受到 4 处 理 器 节点 存储 器 控制 器 的 限制 ， 它 必须 
处 理 存储 器 的 读 和 写 ); 当 采 用 处 理 器 的 读 写 实现 时 ， 本 地 存储 器 和 远程 存储 器 间 每 个 方向 
的 带宽 约 为 70 MBps， 在 通过 MCU 中 的 DMA 引擎 时 ， 本 地 存储 器 和 远程 存储 器 每 个 方向 的 
带宽 约 为 270 MBps。 通 过 处 理 器 读 写 的 远程 传输 主要 受 限于 发 自 处 理 器 的 未 完成 的 存储 器 操 
作 的 数量 ， 在 DMA 情况 下 没有 这 个 问题 。DMA 有 额外 的 优势 ， 它 在 每 一 个 存储 器 块 的 访问 
发 出 端 只 需要 一 次 总 线 事务 ， 而 不 是 像 处 理 器 读 写 时 那样 两 个 分 裂 的 事务 对 (一 个 为 读 ， 一 
个 为 写 )。 至 少 在 不 存在 传输 间 的 竞争 情况 下 ， 节 点 本 地 4 处 理 器 节点 总 线 远 在 互连网 络 之 
前 就 成 为 带宽 瓶颈 。 

现在 ， 对 于 基于 存储 器 和 基于 高 速 缓冲 协议 两 种 情况 ， 在 一 定 深度 上 理解 了 实现 一 致 共 
享 地 址 空间 编程 模型 的 协议 层 。 让 我 们 简要 地 考察 一 下 ， 在 决定 应 用 的 性 能 时 ， 协 议和 通信 
体系 结构 基本 性 能 参数 之 间 的 相互 作用 。 


8.7 性 能 参数 和 协议 性 能 


回忆 一 下 ， 通 信 体 系 结构 有 4 个 主要 的 性 能 参数 : 主 处 理 器 的 额外 开销 、 通 信 辅 助 部 件 

的 占用 、 网 络 传输 延迟 和 网 络 带宽 。 处 理 器 的 额外 开销 在 高 速 缓存 一 致 的 机 器 上 通常 很 小 
(不 像 在 消息 传递 型 系统 中 那样 占 主导 地 位 )， 并 且 完 全 由 底层 节点 决定 。 在 最 好 的 情形 下 ， 
不 能 通过 重要 对 处 理 器 隐藏 的 处 理 器 额外 开销 是 发 出 存储 器 操作 的 代价 。 在 最 坏 的 情形 下 ， 
它 是 穿 过 处 理 器 高 速 缓 存 层次 结构 到 达 通 信和 辅助 部 件 的 代价 (可 能 相当 大 )。 所 有 其 他 的 协 
议 处 理 动作 不 在 通信 辅助 部 件 上 (如 Hub 或 IQ 链 路 )。 对 大 多 数 高 性 能 多 处 理 器 网 络 上 的 应 
用 而 言 ， 网 络 链 路 带宽 通常 是 足够 的 〈Hol et al. 1995), ATLA, 通信 体系 结构 控制 下 更 关键 
的 问题 是 网 络 延 迟 和 辅助 部 件 的 占用 。 
”正如 我 们 已 经 看 到 的 ， 通 信和 辅助 部 件 在 协议 处 理 中 扮演 了 许多 角色 ， 包 括 产生 请 求 ， 
查找 目录 状态 ， 为 响应 而 访问 数据 ， 以 及 发 出 作废 和 接收 确认 。 事 务 处 理 对 辅助 部 件 的 占用 
不 仅 影响 非 竞争 时 延 ， 也 引起 辅助 部 件 的 竞争 ， 增 加 其 他 事务 的 代价 。 在 高 速 缓存 一 致 的 机 
带 上 特别 是 如 此 ， 因 为 存在 大 量 的 小 事务 ， 如 携带 数据 的 事务 和 请 求 、 作 废 和 确认 等 其 他 事 
务 ， 这 意味 着 占用 频繁 发 生 ， 不 能 很 好 地 分 摊 。 在 不 采用 高 速 缓存 一 致 的 共享 地 址 空间 的 机 
部 中 情况 会 好 一 些 ， 在 这 些 机 器 上 ， 事 务 只 传输 访问 的 字 而 不 是 整个 高 速 缓存 块 ， 因 为 复制 
和 一 致 性 是 由 程序 员 管 理 的 〈 见 3.6 节 )， 但 是 分 摊 仍 然 很 小 。 实 际 上 ， 辅 助 部 件 占用 经 党 
主导 了 节点 到 网 络 接口 的 数据 传输 带宽 ， 成 为 端点 的 吞吐 量 的 关键 瓶颈 (Holt et al. 1995), 
所 以 保持 低 的 辅助 部 件 占用 率 是 重要 的 。 在 协议 级 ， 重 要 的 是 既 要 保证 辅助 部 件 不 被 待 完成 
的 事务 占有 ， 而 使 它 不 能 处 理 其 他 不 相关 的 事务 ， 也 要 降低 每 个 事务 需要 辅助 部 件 处 理 的 工 
作 量 。 例 如 ， 如 果 宿 主 把 一 个 请 求 转交 给 脏 节 点 ， 宿 主 的 辅助 部 件 不 应 该 被 占用 直到 脏 节点 
返回 响应 ， 这 样 做 的 话 会 大 大 增加 辅助 部 件 的 占用 ， 应 该 做 是 为 了 转 去 为 下 一 个 事务 服务 ， 
在 以 后 响应 到 来 时 再 处 理 它 。 在 硬件 设计 级 ， 使 辅助 部 件 专门 化 ， 并 与 节点 的 存储 器 系统 紧 
密集 成 是 重要 的 ， 这样， 每 个 事务 对 它 的 有 效 占用 度 就 低 。 集 成 得 越 紧 密 ， 专 门 化 程度 越 
高 ， 设 计 越 不 面向 市 售 部 件 ， 占 用 度 就 越 低 。 
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1. 网 络 延迟 和 辅助 部 件 占用 度 的 影响 

图 8-33 显示 了 辅助 部 件 占用 度 和 网 络 时 延 和 对 性 能 的 影响 ， 假 定 类 似 SGI 的 Origin 2000 
的 有 效 的 基于 存储 器 的 目录 协议 。 在 没有 竞争 的 情况 下 ， 辅 助 部 件 占用 的 行为 和 事务 路 径 中 
的 网 络 传输 延迟 和 任何 其 他 时 延 成 分 一 样 : 增加 d 个 周期 的 占用 度 与 保持 占用 度 不 变 但 增 
加 4a 个 周期 的 网 络 延 迟 影响 一 样 。 因 为 x 轴 是 远程 读 扑 空 的 总 的 非 竞争 往返 时 延 (包括 网 络 
延迟 和 辅助 部 件 占用 度 的 代价 ) ， 如 果 增 加 占用 度 不 引起 竞争 ， 那 么 不 同 占用 度 值 的 所 有 曲 
线 都 相同 。 事 实 上 ， 是 有 竞争 的 ， 所 以 曲线 的 分 离 表 示 了 增加 辅助 部 件 占用 度 所 引起 的 竞争 
的 影响 。 

在 图 中 占用 度 (0) 的 最 小 值 代表 一 个 积极 的 硬 连 线 的 辅助 部 件 ， 它 和 Origin2000 使 用 
的 类 似 ， 与 高 速 缓存 或 存储 器 控制 器 紧密 地 集成 。 最 一 般 的 方案 是 在 存储 器 总 线 上 放置 一 个 
慢 速 的 通用 处 理 器 ， 扮 演 通信 辅助 部 件 的 角色 。 最 富 进取 的 网 络 延迟 代表 现代 高 端 处 理 器 内 
部 的 互 连 ， 最 一 般 的 网 络 延迟 接近 于 使 用 商品 化 的 系统 域 网 络 如 异步 传输 模式 (ATM) 。 我 
们 看 到 ， 对 于 最 进取 性 方案 的 占用 ， 时 延 曲线 取 1/1 的 形状 。 辅 助 部 件 占用 度 导致 的 竞争 对 
强调 通信 带宽 的 应 用 的 性 能 有 显著 的 影响 特别 是 那些 产生 突 发 通信 的 应 用 )， 特 别 对 多 处 
理 器 内 使 用 的 低 延 迟 网 络 而 言 。 所 以 在 曲线 的 左 端 ， 较 高 占用 度 的 曲线 离 其 他 曲线 较 远 。 对 
于 合理 的 占用 度 ， 曲 线 在 较 大 网 络 延 迟 处 相互 接近 ， 因 为 事务 在 网 络 中 花 的 时 间 更 多 ， 使 畏 
助 部 件 不 忙碌 ， 从 而 辅助 部 件 的 竞争 减少 。 对 于 较 高 的 占用 度 ， 曲 线 几 乎 是 平 的 ， 至 少 对 较 
低 的 网 络 延迟 来 说 ， 表 示 辅 助 部 件 已 经 饱和 。 对 于 像 排 序 和 FFT 这 样 具 有 突 发 通信 的 应 用 ， 
问题 特别 严重 ， 因 为 在 通信 阶段 ， 通 信 相 对 于 计算 的 比率 并 不 怎么 随 问题 的 规模 而 改变 ， 所 





a) FFT b) Ocean 


图 8-33 ”辅助 部 件 占用 度 和 网 络 延迟 对 基于 存储 器 的 高 速 缓存 一 致 性 协议 的 影响 。y 轴 是 并 行 效率 ， 
它 是 对 串 行 执行 的 加 速 比 被 所 使 用 的 处 理 器 数 去 除 O 是 理想 值 )。x 轴 是 在 宿主 节点 主 存 
满足 的 读 扑 空 的 非 竞争 往返 时 延 ， 包 括 所 有 代价 成 分 (占用 度 、 传 输 时 延 、 在 缓冲 内 的 时 
间 、 网 络 带宽 )。 每 个 曲线 对 应 一 个 不 同 的 辅助 部 件 占用 度 Co) 值 ， 而 沿 曲线 惟一 变化 的 
参数 是 网 络 的 传输 延迟 《〈1)。 最 低 的 占用 假定 是 7 个 处 理 器 周期 ， 用 0, 表示 。0, 对 应 于 两 
售 的 占用 度 (14 个 处 理 器 周期 )， 以 此 类 推 。 所 有 的 其 他 的 代价 ， 例 如 传 过 高 速 缓 存 层次 和 
通过 缓冲 的 时 间 和 节点 到 网 络 的 带宽 ， 都 保持 不 变 。 该 图 是 模拟 64 个 处 理 器 执行 产生 的 。 主 
要 的 结论 是 辅助 部 件 占用 度 引起 的 竞争 对 于 性 能 是 十 分 重要 的 ， 特 别 是 对 低 时 延 的 网 络 而 言 
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以 较 大 的 问题 规模 没有 缓解 该 阶段 的 竞争 。 辅 助 部 件 占用 度 问 题 对 于 这 样 的 事务 不 是 很 严 
重 ， 即 通信 事件 被 大 量 的 计算 隔 开 ， 对 通信 带宽 的 要 求 不 高 〈 例 如 ，Bames-Hut)。 当 使 用 时 
延 包容 技术 (第 11 章 讨 论 ) 时 ， 对 带宽 的 要 求 更 高 ， 因 此 辅助 部 件 占用 度 的 影响 就 更 大 ， 
即使 是 在 较 高 的 传输 时 延 情况 下 也 是 如 此 ， 最 高 占用 度 的 曲线 对 于 FFT 和 排序 几乎 完全 是 平 
FY (Holt et al. 1995)。 这 个 数据 表明 在 以 高 速 缓存 块 这 样 的 细 粒 度 进 行 通信 和 保持 一 致 性 的 
机 器 中 ， 降 低 辅助 部 件 的 占用 度 是 重要 的 。 辅 助 部 件 占用 度 引 起 的 竞争 的 影响 将 会 随 解 题 的 
处 理 器 数量 的 增加 而 增加 ， 因 为 通信 对 计算 的 比率 会 增加 。 

2. 辅助 部 件 占用 度 对 协议 折 中 的 效果 

辅助 部 件 占用 度 不 仅 对 给 定 协议 的 性 能 有 影响 ， 而 且 对 于 协议 间 的 折 中 也 有 影响 。 我 们 
已 经 看 到 ， 基 于 高 速 缓存 协议 的 写 操 作 时 的 时 延 比 基 于 存储 器 的 协议 要 大 ， 因 为 作废 共享 者 
的 事务 是 串 行 的 。SCI 的 基于 高 速 缓存 的 协议 存储 器 操作 比 基 于 存储 器 的 协议 有 更 多 的 协议 
处 理工 作 要 做 ， 所 以 辅助 部 件 的 实际 占用 度 要 高 得 多 ， 特 别 是 若 辅助 部 件 是 可 编程 的 而 不 是 
硬 接 线 的 。 与 写 操 作 的 较 高 的 时 延 结 合 起 来 ， 这 似乎 意味 着 基于 存储 器 的 协议 的 性 能 更 好 
些 。 当 辅助 部 件 占用 度 以 及 它 的 性 能 影响 增加 时 ， 不 同 协议 的 性 能 差别 会 变 得 更 大 。 另 一 方 
面 ，SCI 协议 中 给 定 的 存储 器 操作 〈 例 如 一 个 写 信 ) 的 协议 处 理 占 用 度 分 布 在 更 多 的 节点 和 
辅助 部 件 上 ， 所 以 ， 依 赖 于 应 用 的 通信 模式 ， 一 个 给 定 的 辅助 部 件 所 经 历 的 竞争 可 能 更 少 。 
例如 ， 当 基于 存储 器 的 协议 中 不 规则 突 发 通信 引起 的 热点 成 为 问题 时 (如 Radix HERE), SCI 
可 能 在 某 种 程度 上 缓解 它 。 实 际 的 折 中 依赖 真实 程序 和 机 器 的 特征 ， 尽 管 在 总 体 上 ， 我 们 可 
能 期 望 优化 实现 的 基于 存储 器 的 协议 性 能 更 好 。 

3. 以 硬件 改善 性 能 参数 

使 用 更 强 的 专门 硬件 改善 性 能 特征 如 延迟 、 占 用 度 和 带宽 的 方法 很 多 ， 下 面 是 一 些 值得 
注意 的 技术 。 首 先 ，SRAM 目录 高 速 缓 存 可 以 更 靠近 辅助 部 件 ， 以 降低 目录 查找 的 代价 ， 就 
像 NUMA-Q 和 Stanford 的 FLASH 多 处 理 器 所 做 的 那样 (Kuskin et al. 1994)。 其 次 ， 可 以 在 宿 
主 为 每 个 存储 器 块 维护 SRAM 的 一 个 位 ， 记 录 该 块 在 本 地 存储 器 中 是 否 处 于 清洁 状态 。 如 果 
是 ， 那 么 对 本 地 分 配 块 的 读 扑 空 就 没 必要 进一步 调用 辅助 部 件 。 第 三 ， 如 果 辅 助 部 件 占用 率 
高 ， 可 以 在 协议 处 理 中 分 级 流水 ， 就 像 NUMA-Q 和 Stanford FLASH 那样 (例如 ， 对 请 求解 
H, RREAK, EWY), RER GAEM EIFE. MRF IURE TE 
争 ， 但 是 设 有 降低 一 次 存储 器 操作 的 非 竞 争 时 延 ， 让 辅助 部 件 在 做 完 所 有 必要 的 工作 之 前 ， 
生成 并 送出 响应 或 转发 的 请 求 可 以 得 到 相反 的 (或 互补 的 ) 结果 。 


8.8 同步 


可 扩展 非 高 速 缓 存 一 致 的 共享 地 址 空间 系统 中 的 软件 同步 算法 在 7.9 节 中 已 经 讨论 过 
了 ， 采 用 的 是 原子 交换 指令 或 者 LL-SC 指令 。 回 顾 一 下 ， 与 基于 总 线 的 机 器 的 同步 算法 相 
比 ， 这 些 同 步 算法 致力 于 充分 利用 互 连 中 的 独立 路 径 的 并 行 性 ， 保 证 处 理 器 绕 局 部 而 不 是 非 
局 部 变量 自 旋 。 同 样 的 算法 也 适用 于 可 扩展 的 高 速 缓存 一 致 的 机 器 。 但 是 ， 有 两 点 不 同 。 首 
先 ， 绕 远程 分 配 的 变量 自 旋 的 性 能 影响 不 很 显著 ， 因 为 处 理 器 会 高 速 缓存 该 变量 ， 然 后 在 其 
作废 之 前 一 直 绕 其 做 本 地 自 旋 。 让 处 理 器 踏步 等 待 不 同 的 变量 当然 比 踏 步 等 待 同 一 个 变量 要 
好 ， 因 为 它 可 以 在 写 并 作废 变量 时 ， 防 止 所 有 的 处 理 器 都 涌 向 同一 个 宿主 存储 器 ， 从 而 减少 
了 竞争 。 同 步 变量 的 良好 放置 能 够 把 作废 后 发 生 的 扑 空 从 三 跳 扑 空转 变 成 两 跳 扑 空 。 但 是 ， 
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处 理 器 绕 本 地 分 配 的 变量 自 旋 只 在 一 个 不 太 可 能 发 生 的 场景 下 对 性 能 非常 重要 : 如 果 高 速 组 
存 所 有 层次 是 统一 的 和 直接 映射 的 ， 而 自 旋 循环 的 指令 与 变量 本 身 冲突 ， 在 这 个 情况 下 ， 冲 
突 型 扑 空 能 够 在 本 地 满足 。 其 次 ， 尽 管 同步 算法 的 这 些 性 能 方面 不 再 是 关键 的 ， 当 它 和 一 致 
性 协议 相互 作用 时 实现 原子 的 原 语 和 LL-SC 却 更 令 人 感 兴趣 。 本 节 考 察 性 能 和 实现 的 侧面 ， 
首先 比较 第 5、7 章 中 介绍 的 SGI Origin2000 上 锁 的 不 同 同步 算法 的 性 能 ， 接 着 讨论 超出 了 第 
6 章 中 讨论 过 的 基于 总 线 机 器 范围 的 原子 原 语 的 几 个 新 的 实现 问题 。 


8.8.1 几 种 同步 算法 的 性 能 
这 里 用 来 说 明 同 步 性 能 的 试验 与 5.5 节 中 对 基于 总 线 的 SGI Challenge 所 使 用 的 一 样 ， 我 


们 再 次 使 用 LL-SC 作为 构造 原子 操作 的 原 语 。 所 用 的 延迟 也 是 以 处 理 器 的 时 钟 周期 表示 ， 所 
以 和 实际 的 微 秘 数 不 同 。 第 5、7 章 中 所 描述 的 加 锁 算法 的 结果 如 图 8-34 所 示 ， 这 里 处 理 器 
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图 8-34 在 SGI AY Origin2000 上 3 种 不 同情 况 下 锁 的 性 能 
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数 为 16。 同 样 ， 这 里 的 时 延 也 有 三 组 不 同 的 值 ， 对 应 于 处 理 器 反复 竞争 的 临界 区 之 内 和 临 
界 区 之 后 的 延迟 。 

同样 ， 如 果 不 在 临界 区 之 间 使 用 延迟 ， 这 种 简单 的 锁 是 不 公平 的 并 且 产 生 较 高 的 吞吐 
量 。 在 空 临界 区 场合 下 ， 指 数 延 迟 有 助 于 简单 的 LL-SC 锁 ， 因 为 这 是 需要 缓解 竞争 的 情况 。 
标签 锁 在 这 种 情况 下 与 总 线 型 机 器 上 一 样 ， 扩 展 性 还 是 很 差 ， 但 是 当 使 用 了 比例 回 退 后 扩展 
性 却 很 好 。 基 于 阵列 锁 的 扩展 性 也 很 好 。 有 了 一 致 的 高 速 缓存 ， 通 过 软件 排队 锁 使 锁 变 量 在 
主 存 中 更 好 地 分 布 没有 太 大 的 用 处 。 如 果 我 们 强迫 这 些 简 单 锁具 有 公平 性 ， 其 表现 就 跟 没 有 
比例 回 退 的 标签 锁 差不多 。 

如 有 果 在 锁 访 问 之 闻 使 用 一 个 非 空 的 临界 区 和 一 个 延迟 就 可 使 所 有 的 锁具 有 公平 性 (如 图 
8-34c 所 示 )。 此 时 ， 简 单 的 LL-SC 锁 没 有 了 它 的 优点 ， 却 表现 出 在 扩展 性 方面 的 缺点 。 基 于 
数组 的 锁 、 排 队 锁 和 带 比例 回 退 的 票 号 锁 都 有 很 好 的 可 扩展 性 〈 至 少 对 这 样 少量 的 处 理 器 而 
言 )。 排 队 锁 的 优化 数据 分 布 没 有 什么 作用 ， 但 是 竞争 也 没有 变 得 更 坏 。 只 有 两 个 处 理 器 时 
排队 锁 的 性 能 很 差 ， 这 是 由 构造 软件 队列 时 的 特殊 交互 所 造成 的 (Mellor Crummey 和 Scott 
1991)。 尽 管 还 要 在 大 型 机 上 进行 试验 ， 但 平坦 的 曲线 表明 ， 总 体 上 ， 数 组 锁 和 票 号 锁 对 于 
可 扩展 的 高 速 缓存 一 致 的 机 器 性 能 相当 好 ， 也 很 可 靠 ， 至 少 用 LL-SC 实现 时 是 这 样 的 。 对 带 
指数 回 退 的 简单 LL-SC 锁 而 言 ， 如 果 由 于 处 理 器 在 其 本 身 的 高 速 缓存 中 非 公 平地 连续 访问 
锁 ， 使 得 锁 在 被 释放 和 下 一 次 加 锁 之 间 没 有 延迟 ， 它 的 性 能 最 好 。 复 杂 的 排队 锁 并 不 必要 ， 
但 在 解锁 和 加 锁 之 间 有 延迟 时 也 表现 得 很 好 。 

研究 人 员 已 经 建议 了 对 锁 的 更 强 的 硬件 支持 。 最 突出 的 例子 是 硬件 版 的 排队 锁 ， 其 名 称 
为 QOLB (在 锁 位 排队 )。 由 硬件 管理 正在 等 待 锁 的 节点 构成 的 分 布 链表 ， 锁 的 释放 者 把 锁 
交 给 第 一 个 等 待 的 节点 而 不 影响 其 他 的 节点 (Kägi, Bueger, and Goodman 1997)。 因 为 SCI tih 
议 已 经 有 硬件 支持 的 等 待 节点 的 分 布 链 表 ( 即 未 决 链 标 )，QOLB 锁 很 适合 于 SCI。 硬 件 支持 
可 以 减少 锁 的 传输 上 时间， 也 可 以 减少 锁 流 量 对 数据 访问 和 一 致 性 操作 流量 的 打扰 ， 但 是 ， 它 
并 不 能 改变 锁 的 微 基 准 程序 的 扩展 性 ， 和 系统 所 有 的 特性 一 样 ， 它 对 性 能 的 真正 价值 要 由 真 
实 的 应 用 和 工作 负荷 来 评价 。 

在 7.9 节 我 们 讨论 了 栅 障 的 算法 及 硬件 支持 。 由 于 多 个 节点 同时 到 达 栅 障 导 致 了 读 - 修 
改 - 写 式 访 问 共享 计数 器 的 竞争 ， 从 而 引发 了 许多 令 人 感 兴趣 的 问题 : 在 存储 器 中 访问 的 计 
数 器 变量 可 缓存 还 是 不 可 缓存 ? 能 和 否 开发 一 种 机 制 ， 人 允许 处 理 器 在 自己 的 高 速 缓存 中 踏步 等 
待 ， 要 么 在 释放 时 更 新 ， 要 人 么 从 存储 器 而 不 是 从 释放 者 的 高 速 缓存 中 读 取 释 放 值 ?On- 
gin2000 这 样 的 机 器 提供 的 对 存储 器 Feteh&op 操作 的 硬件 支持 是 否 特别 有 价值 ? 


8.8.2 实现 原子 性 原 语 


考虑 对 存储 器 单元 执行 的 test&set 这 样 的 原子 性 交换 ( 读 - 修改 - 写 ) 原 语 的 实现 。 为 
了 确保 其 原子 性 ， 要 求 另外 一 个 处 理 器 对 该 存储 单元 的 冲突 写 要 么 在 读 - 修 改 - 写 操作 的 读 部 
分 之 前 进行 ， 要 么 在 其 写 部 分 结束 之 后 进行 。 与 第 5 章 5.5.3 节 关于 总 线 型 机 器 的 讨论 一 
样 ， 只 要 确保 读 结束 之 前 没有 实施 对 该 块 的 作废 ， 则 一 旦 写 操作 部 分 已 经 相对 于 其 他 写 操 作 
被 串 行 化 ， 就 允许 读 操作 部 分 结束 。 如 果 读 -修改 - 写 在 处 理 器 上 实现 〈 使 用 可 高 速 缓 存 原 
诸 )， 这 就 意味 着 一 旦 写 获得 了 所 有 权 就 可 以 结束 其 读 操 作 ， 甚 至 在 作废 确认 返回 之 前 。 原 
子 操作 也 可 以 在 存储 器 实现 ， 但 是 如 果 我 们 不 允许 任何 处 理 器 对 处 于 脏 态 的 块 高 速 缓存 ， 就 
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更 容易 实现 它 。 这 样 所 有 的 写 都 针对 存储 器 ， 读 -修改 - 写 一 旦 到 达 存 储 器 ， 就 相对 其 他 的 
写 被 串 行 化 。 存 储 器 可 以 并 行 地 发 出 对 于 读 部 分 的 响应 和 对 应 于 写 部 分 的 作废 。 

实现 LL-SC 时 为 避免 活 锁 的 所 有 考虑 都 与 总 线 型 机 器 的 情况 一 样 ， 只 是 更 复杂 一 点 。 回 
顾 一 下 ， 如 果 条 件 存储 失败 ， 不 应 该 发 出 作废 或 更 新 ， 否 则 ， 两 个 处 理 器 就 会 一 直 相互 作 废 
或 相互 更 新 ， 从 而 失败 ， 这 就 产生 了 活 锁 。 为 了 探测 出 条 件 存储 的 失败 ， 发 出 请 求 的 处 理 器 
需要 确定 在 条 件 存储 之 前 ， 其 他 处 理 器 对 该 存储 块 的 写 哥 作 是 否 被 串 行 化 。 在 基于 总 线 的 系 
统 中 ， 通 过 针对 条 件 存储 检测 高 速 缓存 中 是 否 不 再 有 该 块 的 有 效 副 本 ， 或 者 对 已 经 出 现在 总 
线 上 的 块 是 否 有 作废 或 更 新 ， 高 速 缓存 控制 器 可 以 做 到 这 一 点 。 在 具有 分 布 互连网 络 的 系统 
里 ， 高 速 缓存 控制 器 无 法 在 本 地 完成 对 串 行 化 次 序 的 检测 ， 因 此 需要 不 同 的 机 制 。 在 基于 作 
废 的 协议 中 ， 如 果 一 个 存储 块 在 高 速 缓存 中 还 处 于 有 效 状 态 ， 那 么 对 应 于 条 件 存储 的 排他 读 
请 求 会 被 发 往 宿主 节点 的 目录 。 在 那里 检查 请 求 者 是 否 还 在 共享 链表 中 。 如 果 不 在 ， 表 明 条 
件 存储 之 前 已 经 有 男 一 个 冲突 的 写 ， 因 此 不 用 发 出 对 应 于 该 条 件 存储 的 作废 ， 条 件 存储 失 
败 。 否 则 的 话 ， 条 件 存 储 就 成 功 。 在 基于 更 新 的 协议 中 ， 实 现 起 来 更 困难 ， 因 为 即使 另外 一 
个 冲突 写 已 经 串 行 地 排 在 条 件 存储 之 前 ， 条 件 存 储 的 请 求 者 还 是 仍然 在 共享 链表 中 。 一 个 解 
决 办 法 (Gharachorloo 1995) 像 对 更 新 提供 写 的 原子 性 一 样 ， 再 次 使 用 一 个 两 阶段 的 协议 。 
当 条 件 存 储 到 达 目录 时 ， 它 锁定 对 应 块 的 目录 项 ， 使 得 其 他 的 请 求 无 法 访问 它 。 然 后 ， 目 录 
向 条 件 存 储 的 请 求 者 发 回 一 个 消息 ， 请 求 者 接 到 后 进行 检查 ， 看 看 对 LL-SC 的 锁 标 志 是 否 已 
经 被 清除 〈 清 除 是 由 在 当前 时 刻 和 条 件 存储 请 求 发 出 时 刻 之 间 到 达 的 更 新 所 实施 的 )。 如 果 
标志 已 被 清除 ， 条 件 存储 已 经 失败 ， 向 目录 发 回 一 个 失败 消息 (并 将 目录 项 解锁 )。 如 果 未 
清除 ， 只 要 网 络 保证 点 对 点 的 次 序 ， 我 们 就 可 以 断定 没有 冲突 写 在 目录 处 影响 了 该 条 件 存 
储 ， 该 条 件 存储 必然 成 功 。 请 求 者 向 目录 发 回 一 个 确认 ， 把 目录 项 解锁 ， 并 发 出 对 应 条 件 存 
储 的 更 新 ， 条 件 存储 成 功 。 


8.9 对 并 行 软件 的 影响 


现在 让 我 们 从 比 同步 更 一 般 的 角度 来 考虑 对 并 行 软件 的 影响 。 本 章 描述 的 一 致 的 共享 地 
址 空间 系统 和 第 5、6 章 所 描述 的 系统 的 区 别 在 于 ， 这 里 讨论 的 系统 有 物理 上 分 布 的 主 存储 
器 ， 而 不 是 集中 式 的 主 存储 器 。 分 布 式 存储 器 是 通过 数据 局 部 性 改善 性 能 和 扩展 性 的 一 个 机 
会 ,但 对 发 据 这 种 局 部 性 的 软件 来 说 又 是 个 负担 。 就 像 我 们 在 第 3 章 中 所 看 到 的 ， 对 于 具有 
物理 分 布 的 存储 器 的 高 速 缓存 一 致 的 体系 结构 (或 CC-NUMA 机 )， 比 如 本 章 所 讨论 的 那些 
体系 结构 ， 并 行程 序 应 该 意识 到 物理 上 分 布 的 存储 器 的 存在 ， 尤 其 当 它 们 的 重要 的 工作 集 不 
能 容纳 于 高 速 缓存 之 中 时 。 如 果 数 据 没 有 在 对 该 数据 发 生 容量 型 、 冲 突 型 或 冷 启动 型 扑 空 
节点 的 存储 器 中 分 配 ， 就 会 出 现 人 为 的 通信 。 这 种 情况 其 至 在 数据 能 容纳 于 高 速 缓 存 时 也 会 
导致 附加 的 通信 ， 因 为 写 扑 空 时 查 目录 (包括 更 新 ) 会 产生 网 络 流量 和 冲突 。 最 后 考虑 一 个 
多 道 程序 的 工作 负载 ， 为 了 负载 均衡 ， 应 用 进程 在 节点 间 迁 移 。 迁 移 一 个 进程 会 将 本 地 扑 空 
变 成 远程 扑 空 ， 除 非 系 统 把 被 迁移 进程 的 全 部 数据 也 搬 到 新 节点 的 主 存储 器 中 。 由 于 以 上 种 
种 原因 ， 将 数据 在 分 布 存储 器 中 适当 地 分 配 是 很 重要 的 。 

在 本 章 讨论 的 CC-NUMA 机 中 ， 主 存 的 管理 一 般 采 取 相 当 大 的 页 面 粒度 。 大 粒度 不 利于 
适当 分 布 共享 的 数据 结构 ， 因 为 本 该 分 配 到 两 个 不 同 节点 的 数据 可 能 会 ga ne 
面 上 。 操 作 系 统 可 能 会 依据 硬件 计数 器 得 到 的 信息 ， 透 明 地 把 页 面 迁 移 到 高 速 缓 存 扑 空 
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最 频繁 的 节点 上 去 ; 或 者 程序 设计 语言 的 运行 时 系统 会 根据 用 户 提供 的 提示 或 编译 器 的 分 析 
来 迁移 页 面 。( 我 们 知道 Origin2000 提供 了 高 效 迁 移 的 协议 支持 。) 现在 更 为 一 般 的 做 法 是 由 
程序 员 指导 操作 系统 ， 把 页 面 放 到 最 靠近 特定 进程 的 存储 器 中 去 。 这 和 向 系统 提供 “把 这 个 
虚拟 地 址 范围 内 的 页 面 放 到 进程 在 的 本 地 存储 器 中 去 ”这 样 的 指示 一 样 简单 ; 或 者 ， 它 可 
以 额外 包含 对 页 边界 填充 和 对 齐 的 数据 结构 ， 以 便 适 当地 布置 它们 ， 它 甚至 可 以 要 求 按 不 同 
的 方式 组 织 数据 结构 ， 以 允许 按 页 粒度 的 放置 。 需 要 上 述 所 有 三 种 方法 的 例子 可 以 在 方程 求 
fae AAA Ocean 中 找到 ， 它 们 使 用 的 是 四 维 数组 而 不 是 二 维 数组 。 像 这 样 简单 而 规整 的 情 
议 也 可 以 由 复杂 的 编译 器 处 理 。 但 男 一 方面 ， 在 Bames-Hut 中 ， 适 当 的 数据 布局 却 要求 对 数 
据 结 构 以 及 代码 重新 组 织 。 不 再 采用 单个 线性 数组 来 存放 所 有 的 粒子 (单元 )， 每 个 进程 在 
它 的 本 地 存储 器 中 为 分 配给 它 的 粒子 安排 一 个 属于 自己 的 数组 或 链表 ， 在 时 间 步 之 间 ， 将 重 
新 分 配 的 粒子 从 一 个 数组 或 链表 搬 到 另外 一 个 当中 去 。 但 是 ， 我 们 已 经 看 到 ， 数 据 布 局 对 这 
个 应 用 没有 太 大 的 作用 ， 这 是 因为 小 的 工作 集 和 低 的 容量 型 扑 空 s 率 ， 而 且 它 的 高 代价 其 至 会 
影响 性 能 。 在 使 用 数据 迁移 之 前 理解 其 代价 和 潜在 的 好 处 是 重要 的 。 软 件 控制 的 数据 复制 而 
不 是 迁移 也 存在 类 似 的 问题 ， 下 一 章 将 讨论 在 主 存 中 的 一 致 复制 和 迁移 的 其 他 方法 。 

在 一 致 的 共享 地 址 空间 中 程序 员 最 难处 理 的 问题 是 竞争 。 不 仅 隐 式 的 无 法 预料 的 数据 通 
信 会 引起 竞争 ,“ 不 可 见 ” 的 协议 事务 也 会 引起 竞争 ， 如 所 有 权 请 求 、 作 废 和 确认 等 ， 程 序 
员 根 本 不 会 去 考虑 这 些 通信 ， 而 且 这 些 通信 是 点 对 点 的 ， 不 能 用 广播 介质 来 分 挫 。 所 有 这 些 
类 型 的 事务 占用 通信 辅助 部 件 的 协议 处 理 部 分 ， 因 此 保持 每 个 事务 对 辅助 部 件 非常 低 的 占用 
度 ， 以 包容 端点 的 竞争 就 变 得 重要 了 。 不 可 见 的 协议 消息 和 竞争 要 求 程序 员 避 免 擅 共 享 这 样 
的 性 能 问题 ， 特 别 是 当 大 量 的 协议 事务 都 发 向 同一 个 节点 的 时 候 更 为 重要 。 因 此 ， 尽 管用 于 
国有 通信 及 用 于 空间 局 部 性 和 高 速 缓存 块 粒度 的 伪 共享 的 软件 技术 与 总 线 型 机 器 上 的 一 样 ， 
但 它们 对 性 能 的 潜在 影响 却 不 一 样 。 例 如 ， 我 们 一 般 会 构造 某 种 类 型 的 数据 ， 如 数组 ， 使 得 
每 个 进程 对 应 一 个 数组 单元 。 如 果 数 组 单元 比 页 小 ， 那 么 就 会 有 几 个 单元 落 到 同一 页 中 。 如 
有 果 这 些 数 组 单元 没有 经 过 填充 以 避免 伪 共 享 ， 或 者 如 果 它 们 导致 了 高 速 缓存 中 的 冲突 扑 空 
所 有 的 扑 空 和 通信 都 会 指向 该 页 的 宿主 ， 引 起 显著 的 竞争 。 在 具有 分 布 式 存储 器 的 机 器 中 ， 
构造 一 个 记录 数组 而 不 是 多 个 标量 数组 (我们 在 第 5 章 为 避免 伪 共 享 就 这 样 做 了 )， 填 充 记 
录 使 其 与 页 对 齐 ， 并 把 页 面 放 到 适当 的 本 地 存储 器 中 去 ， 都 是 有 好 处 的 。 

高 性 能 的 并 行 FET 给 出 了 一 个 有 趣 的 例子 ， 说 明 竞争 是 如 何 导致 消息 传递 型 系统 和 共享 
地 址 空间 型 系统 使 用 不 同 的 调度 策略 的 。 从 概念 上 来 讲 ， 该 计算 是 分 阶段 的 ， 局 部 的 计算 阶 
段 被 通信 阶段 所 分 隔 ， 通 信 阶 段 涉及 矩阵 的 转 置 。 一 个 进程 从 源 矩 阵 读 取 一 列 ， 把 它 写 人 目 
标 矩 阵 指定 的 行 ， 然 后 对 目标 和 抢 阵 中 分 配给 它 的 行 执行 局 部 计算 。 在 消息 传递 型 系统 中 ， 把 
数据 拼接 成 大 的 消息 很 重要 ， 为 了 性 能 有 必要 对 通信 也 这 样 做 〈 作 为 独立 于 计算 的 阶段 ) 
但 是 ， 在 高 速 缓存 一 致 的 共享 地 址 空间 有 两 点 不 同 。 首 先 ， 传 输 总 是 以 高 速 缓存 块 的 粒度 进 
行 的 。 其 次 ， 每 个 细 粒 度 传输 都 涉及 作废 和 确认 (进程 写 人 的 每 个 本 地 块 可 能 在 另 一 个 处 理 
句 的 高 速 缓存 中 处 于 共享 状态 ， 所 以 必须 被 作废 ) ， 导 致 了 对 一 致 性 控制 器 的 竞争 。 所 以 ， 
在 计算 正在 进行 的 时 候 按 需要 以 细 粒 度 执行 通信 ， 而 不 是 在 独立 的 转 置 阶段 一 起 进行 ， 效 果 
也 许 更 好 一 些 ; 这 样 做 错开 了 通信 ， 缓 解 了 控制 器 上 的 竞争 ， 一 个 本 来 要 在 转 置 后 使 用 目标 
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字 ， 在 这 个 过 程 中 进行 转 置 。 哪 种 方法 更 好 则 取决 于 其 体系 结构 。 
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最 后 应 指出 的 是 ， 可 扩展 系统 中 的 同步 代价 可 能 很 高 ， 因 此 在 程序 上 必须 做 出 特别 的 努 
力 ， 降 低 高 竞争 锁 或 者 全 局 栅 障 同步 的 频率 。 


8.10 高 级 论题 
在 对 本 章 进行 总 结 之 前 ， 我 们 介绍 两 个 额外 的 论题 。 第 一 个 是 关于 减少 扁平 的 、 基 于 存 


储 器 的 目录 方案 的 目录 存储 开销 的 实际 技术 ; 第 二 个 是 层次 式 一 致 性 的 技术 ， 包 括 侦 听 的 和 
基于 目录 的 技术 。 


8.10.1 减少 目录 存储 的 开销 


在 8.2.3 节 我 们 讨论 了 扁平 的 、 基 于 存储 器 的 目录 ， 提 到 过 可 以 使 用 有 限 数量 的 指针 而 
不 是 全 位 向 量 来 降低 目录 的 大 小 或 宽度 ， 这 样 做 要 求 在 块 副本 数 超过 可 用 指针 数 的 时 候 有 某 
种 溢出 机 制 。 根 据 共享 模式 的 经 验 数据 ,在 有 限 指针 目录 中 提供 的 硬件 指针 的 数量 一 般 很 
小 ， 溢出 机 制 的 效率 非常 重要 。 本 节 首 先 讨论 某 些 可 能 的 溢出 方法 。 然 后 考察 通过 将 目录 组 
织 成 高 速 缓存 ， 而 不 是 系统 中 每 个 存储 块 对 应 一 个 目录 项 ， 从 而 减少 目录 项 数 或 降低 目录 
“高 度 ” 的 技术 。 具 有 i 个 指针 的 有 限 指针 方案 被 命名 为 Dir ， 后 跟 溢出 方法 的 缩写 。 溢 出 
方法 包括 广播 、 非 广播 、 粗 粒度 向 量 、 软 件 溢出 和 动态 指针 。 

1. 降低 目录 宽度 的 溢出 方法 

广播 或 Dir,B 方案 (Agarwal et al. 1988) 中 的 溢出 策略 是 当 可 用 指针 i 用 完 时 ， 在 目录 
项 中 设置 一 个 广播 位 。 当 对 该 块 再 次 写 人 时 ， 向 系统 所 有 节点 发 出 作废 消息 ， 不 管 它们 是 否 
高 速 缓存 了 该 块 。 向 未 高 速 缓存 该 块 的 处 理 器 发 出 作废 消息 在 语义 上 没有 错误 ; 但是， 这 可 
能 会 浪费 网 络 带 宽 ， 如 果 执 行 写 操作 的 处 理 器 ， 在 继续 之 前 必须 等 待 确认 ， 时 延 会 上 升 。 广 
播 法 的 优点 在 于 其 简单 性 。 

非 广播 或 Dir; NB 方案 (Agarwal et al. 1988) 从 不 允许 块 的 有 效 副本 的 数量 超过 i、 从 而 
避免 了 广播 。 无 论 何 时 ， 如 果 共 享 者 的 数量 达到 ;， 而 另 一 个 节点 又 请 求 该 块 的 一 个 共享 副 
本 ， 协 议会 把 现存 的 一 个 共享 者 的 副本 作废 掉 ， 为 新 的 请 求 者 释放 目录 项 中 的 那个 指针 。 这 
个 方案 的 主要 的 缺点 是 它 没有 考虑 在 一 段 时 间 内 被 许多 处 理 器 频繁 访问 的 数据 〈 比 如 ， 预 计 
算 的 值 表 或 者 甚至 是 程序 代码 ) ， 由 于 这 些 副 本 会 被 不 必要 地 作废 ， 结 果 导 致 一 连 串 的 扑 空 。 
虽然 可 以 对 包含 代码 的 块 采取 特殊 措施 (例如 ， 可 以 用 软件 而 不 是 硬件 来 管理 其 同一 性 )， 
但 是 如 何 用 该 方案 处 理 广泛 共享 的 只 读数 据 还 不 清楚 。 

粗 粒 度 向 量 或 Dir,CV, 方案 (Gupta, Weber, and Mowry 1990) 在 它 的 初始 表示 中 也 使 用 
i 个 指针 ,但 是 溢出 时 ， 其 表示 变 为 一 个 粗 粒度 的 位 向 量 ， 类 似 于 Origin2000 用 于 大 配置 机 
句 的 表示 方法 。 在 这 种 表示 方法 中 ， 目 录 项 的 每 一 个 位 表示 的 不 是 一 个 节点 ， 而 是 系统 中 一 
个 节点 组 (Dir;CV, 中 的 下 标 r 表示 组 中 的 节点 数 )， 一旦 组 内 的 一 个 节点 高 速 缓存 了 该 块 ， 
就 把 对 应 位 置 位 (如 图 8-35 所 示 )。 当 一 个 处 理 器 对 该 块 写 人 ， 要 向 对 应 位 被 置 位 的 所 有 组 
中 的 所 有 节点 发 出 一 个 作废 ， 不 管 它们 是 否 确实 访问 过 或 高 速 缓存 了 该 块 。 作 为 一 个 例子 ， 
考虑 一 台 256 个 节点 的 机 器 ， 我们 在 目录 项 中 为 其 存储 了 8 个 指针 。 由 于 每 个 指针 的 宽度 为 
3 位 ， 溢 出 时 粗 粒 度 向 量 有 64 位 。 这 样 ， 我 们 可 以 实现 一 个 Dir,CV, 方案 ， 每 个 粗 向 量 位 指 
和 疝 一 个 256/64 即 4 个 节点 的 组 。 每 个 目录 项 另外 加 一 位 ， 指 示 当 前 的 表示 是 正常 的 有 限 指 针 
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还 是 粗 向 量 。 如 图 8-36 Prax, —M& Dir, CV, 这 样 的 方案 优 于 Dir,B 和 Dir, NB 方案 之 处 ,在 


于 它 对 不 同 的 共享 模式 表现 得 更 为 健壮 。 





a) 没有 溢出 


Be Ar 8 位 粗 粒度 向 量 
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图 8-35 溢出 时 从 有 限 指针 表示 变 为 粗 向 量 表示 。 出 现 溢出 时 ， 两 个 4 位 的 指针 OE 16 个 节点 
的 系统 ) 被 看 作 一 个 8 位 的 粗 向 量 ， 每 位 对 应 两 个 节点 的 组 。 由 于 也 设置 了 溢出 位 ， 所 以 
可 以 很 容易 地 判断 出 其 表示 方式 。b) 图 中 的 虚线 表示 粗 向 量 位 与 节点 组 之 间 的 对 应 关系 


正常 化 的 作废 











Cholesky  Barnes-Hut 


图 8-36 粗 向 量 溢出 方法 与 广播 和 非 广播 溢出 方法 的 健壮 性 比较 。 图 中 给 出 Din B、Dir BN 和 Dir, CV, 三 种 
方案 所 引起 的 作废 流量 的 比较 ， 流 量 相对 于 全 位 向 量 方案 进行 了 规格 化 (全 位 向 量 方案 表示 为 
100 个 作废 )， 结 果 取 自 于 (Weber 1993) ， 因 此 其 模拟 参数 与 书 中 用 的 不 同 。 处 理 器 数量 为 64 (每 
节点 一 个 处 理 器 )。 布 线路 由 应 用 LocusRoute 具有 被 频繁 写 人 并 被 许多 节点 读 出 的 数据 ， 它 的 实验 
数据 显示 了 Dir,B 方 案 的 潜在 缺点 。Cholesky 和 Bames-Hut 具有 被 大 量 处 理 器 读 共享 的 数据 《例如 ，Bar- 
nes-Hut 中 靠近 树 根 的 节点 )， 结 果 显 示 Dir, NB 方案 的 潜在 缺点 。 可 以 发 现 ，Din CY 方案 是 相当 健壮 的 


软件 溢出 或 Dir,SW 方案 与 前 面 所 讲 的 几 种 方案 不 同 ， 发 生 溢出 时 它 并 不 丢弃 块 的 精确 
的 高 速 缓存 状态 。 而 是 把 当前 的 i 个 指针 和 指向 新 的 共享 者 的 指针 用 软件 存 人 该 节点 本 地 主 


存 的 特殊 地 方 。 腾 出 空间 用 于 新 的 指针 ， 这 样 ， 在 必须 再 次 调用 软件 将 指针 存 人 存储 器 之 
前 ， 硬 件 可 以 处 理 i 个 新 的 共享 者 。 滋 出 导致 一 个 硬件 溢出 位 的 置 位 。 该 位 保证 在 碰 到 后 续 
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的 写 操作 时 ,已 经 存 人 存储 器 的 指针 将 被 读 出 ， 并 且 也 会 向 那些 节点 发 送 作废 消息 。 在 没有 
非常 复杂 的 (可 编程 的 ) 通信 和 辅助 部 件 情况 下 ， 淤 出 现场 (指针 必须 被 写 和 人 存储 髓 和 指针 
必须 从 存储 器 中 读 出 并 且 发 送 作废 消息 ) 由 运行 在 主 处 理 器 上 的 软件 处 理 ; 因此 ， 当 这 些 
事务 发 生 时 ， 处 理 器 必须 被 中 有 断 ， 或 必须 产生 一 个 陷阱 。 这 个 方案 的 优点 在 于 即使 发 生 了 溢 
出 ， 也 保存 共享 者 的 精确 信息 ， 与 全 位 向 量 (或 无 限 指针 ) 方案 比较 ， 并 没有 产生 额外 的 作 
废 流量 ， 溢 出 处 理 的 复杂 性 由 软件 管理 。 主 要 的 额外 开销 是 中 断 和 软件 处 理 的 代价 。 其 缺点 
表现 为 三 种 形式 : 1) 块 的 宿主 节点 的 处 理 器 把 时 间 用 于 中 断 的 处 理 而 不 是 执行 用 户 的 计算 ; 
2) 中 断 和 中 断 请求 处 理 的 额外 开销 大 ， 会 成 为 潜在 的 竞争 瓶颈 ， 并 减 慢 其 他 的 请 求 ; 3) 发 
出 请 求 的 处 理 器 暂停 的 时 间 较 长 ， 因 为 能 引起 中 断 的 请 求 的 时 延 较 大 ， 也 因为 竞争 的 
增加 。? 

MIT 的 Alewife 研究 原型 (Agarwal et al. 1995) 使 用 了 有 限 指针 目录 的 软件 溢出 方案 ， 称 
之 为 LimitLESS 方案 (Agarwal et al. 1991), Alewife 机 的 设计 允许 它 扩展 到 512 个 处 理 器 ， 每 
个 节点 上 一 个 处 理 器 。 每 个 目录 项 宽度 为 64 位 。 它 包含 5 个 9 位 的 指针 ， 记 录 高 速 缓存 了 
该 块 的 远程 节点 ,一 个 专用 的 位 表示 本 地 节点 是 否 也 高 速 缓存 了 该 块 (如 果 高 速 缓存 了 则 省 
了 8 位 )。 溢 出 指针 存放 在 主 存储 器 中 的 一 个 散 列表 里 。Alewife 的 主 处 理 器 具有 对 多 线程 的 
硬件 支持 〈 见 第 11 章 )， 支 持 溢出 时 自 陷 的 快速 处 理 。 在 16 个 处 理 器 的 系统 上 ， 虽 然 引 起 5 
个 作废 并 能 以 硬件 处 理 的 请 求 的 时 延 仅 仅 是 84 个 时 钟 周期 , 但是， 引起 6 个 作废 从 而 需要 
软件 干预 的 请 求 却 要 花费 707 个 时 钟 周期 。 

动态 指针 或 Dir,DP 方案 (Simoni and Horowitz 1991) 是 Dir,SW 方案 的 一 个 变种 。 除 了 有 i 
个 硬件 指针 外 ， 该 方案 中 每 个 目录 项 含有 一 个 指向 本 地 节点 主 存 的 一 个 特殊 部 分 的 硬件 指 
针 。 这 个 特殊 的 存储 器 带 有 一 个 自由 链表 ,需要 时 可 以 从 中 动态 地 将 指针 结构 分 配给 处 理 
Ao AIRS Dir, SW 关键 的 不 同 之 处 在 于 其 所 有 的 链表 操作 都 是 由 一 专用 协议 处 理 器 的 硬 
件 完 成 ， 而 不 是 交 给 本 地 节点 的 通用 处 理 器 处 理 。 结 果 是 不 需要 中 断 ， 操 纵 链 表 的 额外 开销 
也 很 小 。 因 为 它 也 包含 一 个 指向 存储 器 的 硬件 指针 ， 所 以 该 方案 使 用 的 硬件 指针 数 i 一 般 很 
小 。Dir DP 方案 是 Stanford 的 FLASH 多 处 理 器 (Kuskin et al. 1994) 的 缺 省 目录 组 织 。 因 为 动 
态 指 针 池 是 有 限 的 ， 而 且 在 作废 时 需要 对 表 遍 历 ， 该 方案 一 般 还 伴随 使 用 替换 提示 。 

所 有 这 些 在 基于 存储 器 的 协议 中 维护 目录 信息 的 方案 当中 ， 显 然 Dir,B 和 Dir, NB 方案 对 
不 同 的 共享 模式 不 是 很 健壮 。 但 是 ， 对 于 大 型 机 上 的 实际 应 用 而 言 ， 人 们 还 没有 能 很 好 地 理 
解 这 些 方案 的 实际 性 能 (或 者 说 性 价 比 ) 权衡 。 一 般 的 看 法 是 : 全 位 向 量 对 于 包含 中 等 数量 
对 目录 协议 可 见 的 处 理 节 点 的 机 器 是 合适 的 。 硬 件 滋 出 的 最 佳 候选 方案 应 该 是 粗 向 量 和 动态 
指针 ; 前 者 的 缺点 在 于 溢出 时 精度 不 够 ， 后 者 的 缺点 则 是 由 于 硬件 链表 处 理 和 自由 链表 管 
理 ， 处 理 开 销 较 大 。 

2. 减少 目录 的 高 度 

除了 降低 目录 宽度 以 外 ， 另 一 个 与 其 正 交 的 降低 目录 存储 器 开销 的 方法 是 降低 目录 项 的 
总 数 ， 做 法 是 不 再 让 每 个 存储 器 块 都 对 应 一 个 目录 项 (Gupta, Weber, and Mowry 1990; 
O'Krafka and Newton 1990); 也 就 是 说 ， 从 目录 存储 器 开销 的 表达 式 Px M PAM UA, 








O ”实际 上 在 处 理 自 陷 之 前 响应 请 求 者 是 可 能 的 ， 因 此 不 会 影响 请 求 者 所 看 到 的 时 延 。 但 是 ， 这 意味 着 对 该 节点 的 
下 一 个 处 理 器 请 求 被 延迟 了 ， 处 理 器 会 经 历 一 个 暂停 。 
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因为 这 两 种 降低 额外 开销 的 方法 是 正 交 的 ， 那 么 就 可 以 在 两 者 之 间 进 行 折 中 : 减少 项 的 数量 
允许 我 们 在 不 增加 成 本 的 情况 下 提高 项 的 宽度 (使 用 更 多 的 硬件 指针 ); 反之 亦 然 。 

启发 我 们 使 用 更 少 的 目录 项 的 事实 是 ， 高 速 缓存 的 总 量 比 机 器 主 存储 器 的 总 量 小 得 多 。 
这 意味 着 在 给 定时 刻 只 有 很 小 一 部 分 存储 块 在 高 速 缓存 中 。 例 如 ， 每 个 处 理 节 点 可 以 有 
1 MB 的 高 速 缓 存 和 64 MB 的 主 存储 器 。 如 果 每 个 存储 块 有 一 个 目录 项 ， 那 么 在 整个 机 器 中 ， 
将 有 63/64( 即 98.5%) 的 目录 项 将 对 应 于 未 在 机 器 任何 地 方 高 速 缓存 的 存储 块 。 这 样 大 量 
的 目录 项 被 闲置 ， 没 有 任何 位 被 置 位 〈 特 别 是 当 使 用 了 替换 提示 时 )。 将 目录 按 高 速 缓 存 组 
织 ， 像 对 包含 程序 数据 的 存储 器 块 分 配 高 速 缓存 行 那样 ， 动 态 地 为 目录 项 分 配 高 速 缓存 ， 可 
以 避免 存储 器 的 浪费 。 事 实 上 ， 如 果 这 个 目录 高 速 缓存 的 项 数 足 够 的 小 ， 我 们 可 以 用 快速 的 
SRAM 而 不 是 较 慢 的 DRAM 来 实现 目录 ， 从 而 降低 了 目录 的 访问 时 间 。 我 们 知道 ， 对 于 许多 
类 型 的 存储 器 访问 来 说 ， 这 个 访问 时 间 是 在 决定 处 理 器 可 见 的 时 延 的 关键 路 径 中 。 这 种 目录 
结构 被 称 为 稀 芍 目录 (sparse directory)。( 在 8.6.8 节 中 介绍 的 HAL SI 系统 使 用 这 种 方法 )。 

虽然 稀疏 目录 的 操作 与 正规 的 处 理 器 高 速 缓存 很 相似 ， 但 也 存在 一 些 显著 的 区 别 。 首 
先 ， 这 个 高 速 缓存 不 需要 一 个 后 备 存储 器 : 当 一 个 项 被 从 中 替换 的 时 候 ， 如 果 其 中 任何 的 节 
点 位 〈 或 者 指针 ) 已 被 置 位 ， 我 们 就 简单 地 向 这 些 节点 发 送 作废 或 腾空 消息 。 其 次 ， 这 个 高 
速 缓 存 中 ,每 个 存储 块 只 有 惟一 的 一 个 目录 项 ， 因 此 不 存在 空间 局 部 性 。 第 三 ， 稀 疏 目 录 处 
理 来 自 所 有 处 理 器 的 访问 ， 而 处 理 器 的 高 速 缓存 只 能 被 与 之 相连 的 处 理 器 访问 。 最 后 ， 稀 朴 
目录 看 到 的 访问 流 是 经 过 过 滤 的 ， 仅 包含 不 能 在 处 理 器 高 速 缓存 中 满足 的 访问 。 为 了 让 稀疏 
日 录 不 成 为 新 颇 ， 重 要 的 是 它 要 足够 的 大 ， 并 具有 足够 的 相关 度 ， 这 样 对 正在 访问 的 块 不 会 
发 生 太 多 的 昔 换 。 研 究 稀疏 目录 规模 的 某 些 试验 和 分 析 可 以 在 (Weber 1993) 中 找到 。 


8.10.2 层次 式 的 一 致 性 


本 章 开头 提 到 了 建造 可 扩展 的 一 致 性 机 器 的 一 种 方法 ， 就 是 层次 式 地 扩展 第 5、6 章 讨 
论 的 基于 总 线 或 者 环 的 侦 听 一 致 协议 。 本 章 还 介绍 了 层次 式 的 目录 方案 。 这 一 节 我 们 进一步 
介绍 层次 一 致 性 方案 。 昌 然 一 些 商 用 系统 (如 KSR1 [Frank, Burkhardt, and Rothnie 1993]) 
和 研究 原型 (如 Toronto 大 学 的 Hector 系统 [ Vranesic et al. 1991; Farkas, Vranesic, and Stumm 
1992]) 中 采用 了 基于 环 的 层次 侦 听 方案 ,学 术 界 也 研究 了 层次 目录 ,但 是 这 些 研 究 并 没有 
取得 多 大 的 进展 。 尽 管 如 此 ， 层 次 式 地 以 较 小 的 系统 构造 大 型 系统 仍然 是 一 种 有 吸引 力 的 抽 
象 ， 对 于 理解 基础 技术 也 很 有 用 处 。 

1、 层 次 式 侦 听 

基于 总 线 和 基于 环 的 层次 式 侦 听 的 问题 类 似 ， 因 此 我 们 主要 通过 前 者 来 研究 。 总 线 层 次 
结构 是 一 棵 总 线 的 树 。 叶 节点 是 基于 总 线 的 多 处 理 器 ， 其 中 包含 处 理 器 。 构 成 树 的 内 部 节点 
的 总 线 不 包含 处 理 器 , 但 是 用 于 互 连 和 一 致 性 控制 : 它们 允许 事务 被 侦 听 ， 在 必要 时 向 上 层 
和 下 层 传递 。 层 次 式 的 机 器 可 以 将 主 存储 器 集中 在 根 节点 ， 也 可 以 将 它 分 布 在 叶 节点 的 多 处 
理 器 中 《〈 如 图 8-37 所 示 )。 尽 管 集中 式 存 储 器 可 以 简化 程序 设计 ， 但 如 果 能 发 掘 局 部 性 ， 分 
布 式 存储 器 则 有 带宽 和 性 能 上 的 优势 。( 但 是 注意 ， 如 果 数 据 的 分 布 无 法 使 大 多 数 高 速 缓存 
扑 空 在 本 地 得 到 满足 ， 在 最 坏 的 情况 下 ， 远 程 数 据 实际 上 会 比 系统 的 根 节点 还 远 ， 因 此 可 能 
导致 更 糟糕 的 性 能 。) 此 外 ， 使 用 分 布 式 存储 器 ， 层 次 中 的 时 节点 是 一 个 基于 总 线 的 完整 的 
多 处 理 器 ， 它 已 经 是 市 场 上 的 产品 ， 具 有 成 本 优势 。 下 面 我 们 将 集中 研究 具有 分 布 式 存储 器 
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的 层次 结构 ， 集 中 式 存储 器 的 层次 结构 将 留 作 练习 。 





b) 分 布 式 存储 器 


图 8-37 ”基于 总 线 的 层次 式 多 处 理 器 ， 显 示 两 级 层次 结构 。 主 存储 器 可 以 集中 在 
根 节 点 ， 也 可 以 是 物理 上 分 布 的 ， 一 致 性 监测 器 连接 父 总 线 和 子 总 线 

时 节点 《多 处 理 器 ) 内 的 处 理 器 高 速 缓存 可 以 通过 第 5 章 所 讨论 的 任何 侦 听 协议 保持 一 
致 。 在 一 个 简单 的 二 级 层次 结构 中 ， 我 们 用 另外 一 条 总 线 (B) 将 几 个 这 样 的 基于 总 线 的 系 
统 连 接 到 一 起 。( 向 多 级 层次 结构 的 扩展 是 简单 的 ) 我 们 需要 的 是 在 每 一 条 B 总 线 上 附带 一 
个 一 致 性 监测 器 ， 它 监视 〈 侦 听 ) 两 条 总 线 上 的 事务 ， 决 定 B, 总 线 上 的 哪 一 个 事务 应 该 转 
BEB 总 线 上 ，B 总 线 上 出 现 的 哪 一 个 事物 应 该 转发 到 它 的 B, 总 线 上 。 该 装置 就 好 像 一 个 
过 滤器 ， 只 是 在 两 个 方向 上 转发 需要 的 事务 ， 因 此 降低 对 总 线 的 带宽 要 求 。 

在 具有 分 布 式 存储 器 的 系统 中 ， 节 点 的 一 致 性 监测 器 必须 关心 两 种 类 型 的 数据 ， 其 事务 
可 以 出 现在 B, E B, 总 线 上 : 在 远程 存储 器 中 分 配 但 是 被 本 地 节点 的 某 些 处 理 器 高 速 缓存 了 
的 数据 ， 在 本 地 分 配 但 是 被 远程 高 速 缓存 的 数据 。 为 了 监视 前 一 种 数据 ， 可 以 像 Sequent 的 
NUMA-Q 那样 为 每 个 节点 设置 一 个 远程 访问 高 速 缓存 或 称 远程 高 速 缓存 。 该 高 速 缓存 维护 与 
该 节点 任何 处 理 器 高 速 缓存 中 缓存 的 远 地 数据 的 包容 性 〈 见 第 6 章 6.3.1 节 )， 每 个 块 包含 
一 个 “ 脏 但 陈旧 ”位 ， 指 示 该 节点 的 一 个 处 理 器 高 速 缓存 中 该 块 为 脏 〈 即 分 配 在 本 地 存储 器 
中 但 是 没有 进入 远程 高 速 缓存 的 数据 )。 这 提供 了 足够 的 信息 以 判断 出 每 个 方向 上 哪些 事务 
相关 ， 并 转发 它们 。 

对 于 本 地 分 配 的 数据 ， 总 线 事务 可 完全 由 本 地 存储 器 或 者 高 速 缓存 处 理 ， 除 非 该 数据 被 
其 他 (远程) 节点 的 处 理 器 所 缓存 。 对 于 后 一 种 数据 ， 没 有 必要 将 数据 本 身 保存 在 这 个 一 至 
性 监测 器 中 ， 因 为 有 效 数据 要 么 已 经 存在 于 本 地 ， 要 么 在 远 地 处 于 被 修改 状态 ; PXE, R 
们 不 想 在 那儿 保存 它 ， 因 为 数据 量 可 能 和 本 地 存储 器 -- 样 大 。 但 是 ， 监 测 器 保存 了 该 数据 的 
状态 信息 ， 并 且 侦 听 本 地 B 总 线 ， 这 样 与 此 数据 相关 的 事务 在 需要 时 可 以 转发 到 B 总 线 
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上 。 我 们 把 一 致 性 监测 器 的 这 一 部 分 叫做 本 地 状态 监测 器 。 最 后 ， 一 致 性 监测 器 也 监视 B 
总 线 上 指向 其 本 地 地 址 的 事务 ， 并 将 它们 传递 到 本 地 总 线 B 上 ， 除 非 本 地 状态 监视 器 发 现 
它们 在 远 地 以 被 修改 状态 缓存 。 对 于 B, MB, 总 线 事 务 ， 远 程 高 速 缓存 和 本 地 状态 监测 器 都 
要 被 查找 。 

考虑 8.1 节 中 概述 的 一 致 性 协议 的 三 个 功能 : 1) 在 本 地 节点 的 一 致 性 监测 器 〈 远 程 高 
速 缓存 和 本 地 状态 监测 器 ) 中 隐 式 地 保存 关于 层次 结构 中 其 他 节点 的 状态 的 足够 信息 ， 以 决 
定 采 取 什 么 行动 ; 2) 如 果 该 信息 指示 需要 在 本 地 节点 之 外 寻找 其 他 的 副本 ， 向 下 一 级 总 线 
(在 层次 结构 中 更深 的 一 层 ) 广播 请 求 和 搜索 ， 其 他 相关 的 监测 器 会 响应 ; 3) 作为 通过 总 线 
上 的 层次 式 广播 发 现 副本 的 动作 的 一 部 分 ， 与 其 他 副本 的 通信 可 同时 进行 。 

让 我 们 进一步 考察 一 下 读 扑 空 的 路 径 ， 假 设 共享 的 物理 地 址 空间 。 本 地 总 线 B 上 出 现 
一 个 BusRd 请 求 。 如 果 远 程 访问 高 速 缓存 、 本 地 存储 器 或 另 一 个 本 地 处 理 器 高 速 缓存 中 有 该 
块 的 有 效 副本 ， 它 们 就 会 提供 这 个 数据 。 否 则 ， 远 程 高 速 缓存 或 者 本 地 状态 监测 器 就 会 知道 
要 把 请 求 传 到 B, 总 线 上 。 当 这 个 请 求 出 现在 B 上 时 ， 其 他 节点 的 一 致 性 监测 器 将 侦 听 到 
它 。 如 果 一 个 节点 的 本 地 状态 监测 器 判定 本 节点 有 这 个 数据 的 有 效 副本 ， 它 会 把 请 求 传 到 它 
的 B 总 线 上 去 ， 等 待 响应 ， 然 后 把 响应 放 回 到 B 总 线 上 去 。 如 果 一 个 节点 的 远程 高 速 缓存 
中 含有 这 个 数据 ， 而 数据 处 于 共享 状态 ， 它 会 简单 地 把 应 答 放 到 B, 总 线 上 ; 如 果 数 据 处 于 
及 状态 ， 它 会 应 答 并 且 在 其 B, 总 线 上 广播 一 个 读 请 求 ， 使 处 于 胜 的 处 理 器 高 速 缓存 把 块 的 
状态 降级 为 共享 ; 如果 状态 是 脏 但 陈旧 ， 它 会 简单 地 在 其 B, 总 线 上 广播 一 个 读 请 求 ， 然 后 
用 读 回 的 结果 作为 应 答 。 对 于 最 后 一 种 人 情况， 有 脏 数 据 的 处 理 器 高 速 缓存 会 将 其 状态 由 脏 改 
为 共享 ， 并 且 把 数据 放 到 B, 总 线 上 。 远 程 高 速 缓存 将 从 B, 总 线 上 接收 数据 应 答 ， 把 它 的 状 
态 从 及 但 陈旧 改 为 共享 ， 并 且 把 应 答 传递 到 B, 总 线 上 。 当 数据 应 答 出 现在 B, 总 线 上 ， 请 求 
者 的 一 致 性 监视 器 得 到 它 ， 如 果 合 适 ， 在 它 的 远程 高 速 缓存 中 将 它 就 位 ， 修 改 状态 ， 并 把 它 
放 到 它 的 本 地 总 线 B 上 。( 如 果 该 块 必须 放置 在 远程 高 速 缓存 中 ， 它 可 能 蔡 换 掉 某 个 其 他 的 
Kh, 这 会 触发 B 总 线 上 的 一 个 清空 /作废 请 求 ， 以 保证 包容 性 的 性 质 。) 最 后 ， 请 求 的 高 速 
缓存 从 B, 总 线 得 到 对 它 的 BusRd 请 求 的 响应 ， 以 共享 状态 存储 它 。 

对 于 写 人 ， 考 虑 如 图 8-37b 所 示 的 特殊 情况 。 左 边 的 节点 中 的 P, 对 位 置 4 发 出 一 个 写 ， 
4 分 配 在 第 三 个 节点 (图 中 没有 显示 ) H. AAP, 自己 的 高 速 缓存 只 有 处 于 共享 状态 的 数 
据 ， 因 此 在 本 地 的 B 上 发 出 一 个 所 有 权 请 求 (BusUpgr)。 结 果 ，P, 的 高 速 缓存 中 的 4 的 副 
本 被 作废 。 因 为 远程 高 速 缓存 中 没有 处 于 脏 但 陈旧 状态 的 对 应 块 〈 这 很 可 能 是 错误 的 ， 因 为 
EEP 中 的 状态 为 共享 )， 监 测 器 把 BusUpgr 请 求 传 到 总 线 B 上 ， 以 作废 系统 中 该 块 的 任何 
其 他 副本 ， 同 时 把 远程 高 速 缓存 中 该 块 的 状态 更 新 为 脏 但 陈旧 。 在 另 一 个 节点 上 ，P M P, 
的 高 速 缓存 中 该 块 的 状态 为 共享 。 由 于 包含 性 质 ， 该 块 在 这 两 个 节点 的 远程 高 速 缓存 中 也 一 
定 处 于 共享 状态 。 因 此 这 个 远程 高 速 缓存 将 该 BusUpgr 请 求 从 B, 传 到 它 的 本 地 总 线 B  ， 作 
废 自己 的 副本 。 当 请 求 出 现在 总 线 B 上 时 ，P, 和 P, 的 高 速 缓存 中 4 的 副本 被 作废 。 如 果 
By 总 线 上 的 一 个 节点 的 处 理 器 没有 缓存 含有 4 的 块 ， 升 级 请 求 BusUpgr 就 不 会 传 到 它 的 B, 
总 线 上 。 现 在 假设 左边 节点 中 的 另外 一 个 处 理 器 P, 发 出 对 位 置 有 的 存储 请 求 。 这 个 请 求 在 
本 地 节点 就 可 以 满足 ， 由 Po 的 高 速 缓存 提供 该 数据 ， 远 程 高 速 缓存 保持 脏 但 陈 伯 状 态 ， 没 
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有 事务 会 被 传递 到 B, BALE. 

这 里 对 处 理 器 高 速 缓存 和 高 速 缓存 控制 器 的 实现 要 求 与 第 6 章 中 讨论 的 一 样 。 但 是 对 远 
程 访问 高 速 缓存 有 一 些 约束 。 它 应 该 比 处 理 器 高 速 缓存 的 总 和 大 一 些 ， 为 了 维持 包容 性 而 不 
引起 过 多 的 替换 ， 应 该 有 相当 大 的 相关 度 。 它 还 应 该 是 免 锁 定 (lockup-free) 的 ， 就 是 说 ， 
在 某 些 请 求 仍然 是 待 完成 时 ， 能 够 同时 处 理 来 自 本 地 节点 处 理 器 的 多 个 请 求 ( 详 见 第 11 
章 )。 最 后 ， 无 论 何 时 从 远程 高 速 缓 存 中 替换 掉 一 个 块 ， 根 据 被 替换 的 块 的 状态 .( 共 享 或 脏 
但 陈旧 )， 必 须 将 一 个 作 夏 或 腾空 请 求 发 送 到 总 线 B, 上 。 减 少 远程 高 速 缓存 的 访问 时 间 没 有 
增加 其 命中 率 那么 关键 ， 由 于 它 不 在 影响 处 理 器 时 钟 频率 的 关键 路 径 上 。 所 以 远程 高 速 缓存 
一 般 用 DRAM 而 不 是 SRAM 来 构造 。 远 程 高 速 缓存 控制 器 也 必须 处 理 第 6 章 所 讨论 的 请 求 和 
获得 总 线 中 的 非 原 子 性 问题 。 

最 后 ， 考 虑 写 串 行 化 和 判定 存储 结束 。 根 据 第 6 章 中 讨论 过 的 在 单 总 线 上 的 实现 方式 ， 
两 个 请 求 的 串 行 化 显然 应 该 由 它们 在 离 根 最 近 的 总 线 上 出 现 的 次 序 来 决定 。 对 于 在 同一 个 叶 
节点 中 完全 得 到 满足 的 写 ， 它 们 被 其 他 的 处 理 器 (在 或 不 在 这 个 叶 节 点 内 ) 看 到 的 次 序 是 本 
地 总 线 B 提供 的 它们 的 串 行 化 次 序 。 类 似 地 ， 对 于 完全 在 同一 个 子 树 中 满足 的 写 ， 它 们 被 
其 他 的 处 理 器 〈 在 或 不 在 该 子 树 中 ) 看 到 的 次 序 是 该 子 树 的 根 总 线 所 决定 的 串 行 化 次 序 。 如 
果 将 挂 在 一 条 公共 总 线 上 的 每 条 总 线 看 作 一 个 处 理 器 ， 递 归 地 使 用 第 5、6 章 中 对 单 总 线 所 
使 用 的 同样 的 推理 ,我 们 比较 容易 理解 这 一 点 。 类 似 地 ， 顺 序 同一 性 需要 判定 存储 的 结束 ， 
处 理 器 不 能 假定 它 的 存储 操作 已 经 被 提交 ， 直 到 该 操作 出 现在 它 将 要 到 达 的 离 根 最 近 的 总 线 
Eo Ba (现在 可 能 必须 是 一 个 显 式 的 总 线 事务 ) 一 直 要 到 这 个 时 刻 才 能 产生 ， 其 至 直到 那 
时 ,都 必须 保持 该 确认 在 返回 请 求 处 理 器 的 途中 和 其 他 事务 之 间 的 正确 次 序 (见习 题 
8.26)。 一旦 从 总 线 上 发 回 了 确认 ， 向 下 传 给 处 理 器 高 速 缓 存 的 作废 请 求 本 身 不 需要 确认 ， 
只 要 沿路 径 保持 正确 的 次 序 就 可 以 了 (和 第 6 章 的 多 级 高 速 缓 存 层次 结构 一 样 )。 

一 种 最 早 采用 这 种 层次 式 侦 听 总 线 的 分 布 存储 型 机 器 是 Encore Corporation 公司 的 Gigamax 
(Wilson 1987; Woodburdy et al. 1989) 。 系 统 包含 最 多 8 台 Encore Multimax 机 (各 是 一 台 常 规 
的 基于 侦 听 总 线 的 多 处 理 器 ) ， 由 光纤 链 路 连接 到 另外 一 条 (第 9 条) 全 局 总 线 上 ， 形 成 二 
级 层次 结构 。 其 框图 如 图 8-38 所 示 。 每 个 节点 扩充 了 一 块 统一 互 连 卡 《UIC) 和 一 个 统一 簇 
(节点 ) 高 速 缓存 (UCC) 卡 。UCC 是 远程 访问 高 速 缓存 ， 而 UIC 是 本 地 状态 监测 器 。 由 于 
Gigamax 的 特殊 组 织 结构 ， 它 的 全 局 总 线 监 测 的 实现 有 些 不 同 。 节 点 通过 光纤 链 路 连接 到 全 
局 总 线 上 ， 所 以 当 节 点 的 远程 访问 高 速 缓存 (UCC) 缓存 远程 数据 时 ， 它 就 不 直接 侦 听 全 局 
总 线 。 每 个 节点 在 全 局 总 线 上 都 有 一 个 辅助 UIC， 它 监测 针对 已 被 缓存 在 本 地 节点 的 远程 存 
储 块 的 全 局 总 线 事务 。 一 旦 监测 到 ， 将 相关 的 请 求 传递 到 本 地 总 线 上 。 如 果 UCC 也 直接 挂 
在 全 局 总 线 上 ， 就 不 需要 全 局 总 线 上 的 UIC 了 。Gigamax 使 用 光纤 链 路 ， 每 个 节点 也 不 是 只 
使 用 单个 路 在 本 地 和 全 局 总 线 上 的 UIC, 其 原因 是 高 速 总 线 通常 都 很 短 ; Encore Multimax 和 
Gigamax 中 用 的 纳 总 线 (Nanobus) 长 度 仅 为 1 英尺 〈 光 在 1 纳 秒 内 走 1 英尺 ， 总 线 因此 而 得 
名 )。 因 为 节点 至 少 1 英尺 宽 ， 而 全 局 总 线 也 1 英尺 宽 ， 需 要 柔性 的 缆 线 才能 把 它们 连 到 一 
起 。 使 用 光纤 ， 可 以 让 链 路 相当 长 而 不 影响 其 传输 性 能 。 

将 侦 听 式 的 高 速 缓存 一 致 性 扩展 到 环 的 层次 结构 ， 非 常 类 似 于 将 其 扩展 到 具有 分 布 存储 器 的 
总 线 层次 结构 。 图 8-39 显示 了 其 结构 框图 。 局 部 环 和 相连 的 处 理 器 构成 节点 ， 节 点 由 一 个 或 多 个 
全 局 环 连接 。 一 致 性 监测 器 是 环 间 的 接口 ， 其 角色 和 总 线 层次 结构 中 的 一 致 性 监测 器 -- 样 。 
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Motorola 88 及 处 理 器 








8 路 交叉 存储 器 






(64 比 特 数 据 , 32 比特 地址 ， 
拆 分 型 事物 80 ns 周期 ) 







光纤 链 路 
位 串 行 化 
每 80 ns 4 个 字 节 






于 远程 的 数据 全 局 示 远 
个 16 MB 存储 4 路 组 相 联 ) patenan 


全 局 Nanobus “64 比特 数据 ,32 比特 地 址 ， 
拆 分 型 事物 80 ns 周期 ) 


图 8-38 Encore Gigamax 多 处 理 器 的 块 图 表 。 使 用 两 级 的 总 线 层次 结构 ， 存 储 器 分 布 在 叶 节点 中 


处 理 器 到 环 接口 


图 8-39 基于 层次 环 的 多 处 理 器 的 结构 框图 。 在 图 中 所 示 的 二 级 层次 结构 中 ,每 
个 局 部 环 在 全 局 环 看 来 是 一 个 节点 ， 环 间接 口 在 两 者 之 间 传 递 相 关 事务 
2. 层次 式 目录 方案 
层次 式 目录 方案 使 用 点 对 点 的 网 络 事务 而 不 是 侦 听 。 但 是 ， 正 如 前 面 所 讨论 的 ， 与 扁平 
的 目录 方案 不 同 ， 层 次 式 目录 中 的 目录 信息 的 来 源 不 是 在 一 个 园 定 节点 上 得 到 的 。 副 本 的 位 [664 
置 既 不 是 在 固定 的 宿主 节点 中 找到 ， 也 不 是 通过 遍历 宿主 所 指向 的 分 布 链表 中 找到 的 ， 作废 
消息 也 不 是 直接 发 给 拥有 副本 的 节点 。 所 有 这 些 动作 都 是 通过 在 节点 构成 的 层次 结构 ( 树 ) 
向 上 或 向 下 发 送 消息 来 完成 的 ， 而 且 只 有 在 树 中 的 父子 节点 之 间 才 有 直接 的 通信 。 
初 看 上 去 ， 层 次 目录 的 组 织 结构 与 层次 侦 听 很 相似 。 考 虑 图 8-40 中 的 例子 。 处 理 节点 
位 于 树 的 叶子 ， 主 存储 器 在 处 理 节 点 中 分 布 。 每 个 块 所 在 的 存储 器 叫做 它 的 宿主 存储 器 《在 
时 节点 )， 但 是 这 并 不 意味 着 目录 信息 在 那里 维护 或 出 自 那 里 。 树 的 内 部 节点 不 是 处 理 节点 
而 只 是 保存 目录 信息 。 每 个 这 样 的 目录 节点 记录 了 甚 子 树 缓存 或 者 记录 的 所 有 存储 器 块 。 它 
为 每 个 数据 块 设置 一 个 存在 位 向 量 ， 指 示 它 的 哪些 子 树 有 该 块 的 副本 ， 另 外 用 一 位 来 表示 是 
否 副 本 之 一 为 脏 。 它 也 记录 被 其 子 树 之 外 的 处 理 节点 所 缓存 的 本 地 存储 器 块 〈 即 分 配 在 其 某 
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个 子 节点 的 本 地 存储 器 中 的 块 ) 的 信息 。 与 层次 侦 听 一 样 ， 用 这 个 信息 确定 什么 时 候 子 树 内 
发 出 的 请 求 应 该 被 上 传 到 更 上 一 级 目录 中 。 因 为 靠近 根部 的 目录 节点 中 维护 的 目录 信息 量 非 
常 大 ， 因 此 目录 信息 一 般 组 织 成 高 速 缓存 以 减少 其 尺寸 ， 保 持 与 其 子 节点 的 高 速 缓存 或 者 目 
录 的 包容 特性 。 这 就 要 求 在 树 的 某 一 层次 的 一 个 目录 高 速 缓存 进行 替换 时 ， 被 蔡 换 的 块 也 必 
须 从 树 中 其 所 有 的 子孙 目录 中 去 掉 。 类 似 地 ， 关 于 分 配 在 子 树 中 的 一 个 块 的 信息 被 蔡 换 时 ， 
要 求 作废 或 清空 存在 于 子 树 之 外 的 节点 所 保存 的 该 块 的 副本 。 这 些 操作 的 代价 可 能 很 高 。 
处 理 节点 

(里 录 跟踪 有 -个 内 存世 的 

拷贝 了 处 再 节点 。 它 也 哩 踪 在 


子 树 之 外 的 本 块 内 存 地 。 人 包括 
d LER 处 理 器 缓存 和 月 关 之 间 .) 










(La BRE (Ja 的 mt 
Fisk, Sere bel TL >n oh 
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AR.) 


图 8-40 层次 式 目录 的 组 织 结构 。 处 理 节 点 位 于 逻辑 树 的 叶子， 内 部 节点 只 包含 目录 信息 ， 
对 每 个 高 速 缓存 的 存储 块 有 一 棵 逻辑 树 。 逻 辑 树 可 以 嵌入 到 任意 的 物理 层次 结构 中 

来 自 节 点 的 读 扑 空 沿 着 层次 结构 向 上 走 ， 要 么 直至 到 达 一 个 目录 ， 指 出 其 子 树 中 具有 被 
请 求 块 的 一 个 副本 (无论 干净 或 脏 )， 要么 直到 请 求 到 达 作为 请 求 节点 和 该 块 的 宿主 节点 的 
第 一 个 公共 祖先 的 目录 ， 这 个 目录 表明 在 子 树 外 该 块 不 处 于 脏 状态 。 然 后 ， 请 求 沿 层次 结构 
向 下 走 ， 到 达 正 确 的 处 理 节点 ， 取 得 数据 。 应 答 数据 沿 着 同样 的 路 径 返 回 ， 沿 途 更 新 目录 。 
如 果 该 块 为 脏 ， 它 的 副本 也 要 被 送 到 其 宿主 节点 去 。 

对 高 速 缓存 的 写 扑 空 也 沿 着 层次 结构 向 上 走 ， 直 到 到 达 一 个 目录 ， 其 子 树 包含 被 请 求 的 
存储 器 块 的 当前 拥有 者 的 目录 。 如 果 块 是 干净 的 ， 拥 有 者 就 是 宿主 节点 ， 否 则 ， 拥 有 者 是 脏 
的 高 速 缓存 。 请 求 向 下 行进 到 拥有 者 ， 取 得 数据 ， 请 求 节点 成 为 块 的 新 的 拥有 者 。 如 果 该 块 
原来 处 于 干净 状态 ,还 要 通过 层次 结构 向 所 有 缓存 了 该 存储 器 块 的 节点 发 出 作废 命令 。 最 
后 ， 上 述 存储 器 操作 涉及 的 所 有 目录 都 被 更 新 ， 反 映 新 的 拥有 者 和 被 作废 的 副本 。 

在 层次 式 侦 听 方 案 中 ， 互 连 网 络 物理 上 是 层次 的 ， 允 许 侦 听 。 使 用 点 对 点 的 通信 ， 层 次 
式 目 录 不 需要 依赖 于 物理 上 的 层次 互 连 。 这 里 讨论 的 层次 结构 是 逻辑 的 层次 结构 或 层次 的 数 
据 结 构 。 它 可 以 在 物理 的 层次 式 网 络 〈 即 实际 的 树 状 网 络 ， 目 录 高 速 缓存 位 于 内 部 节点 ， 叶 
子 是 处 理 节 点 ) 上 实现 ， 或 建立 在 网 格 这 样 的 通用 非 层次 式 网 络 之 上 ， 层 次 式 目 录 相 人 通用 
的 网 络 之 中 。 事 实 上 ， 每 个 被 高 速 缓存 的 块 有 一 个 独立 的 层次 目录 结构 。 所 以 ， 通 用 网 络 中 
的 同一 个 物理 节点 对 菜 些 块 而 言 可 以 是 叶 处理) 节点 ， 而 对 其 他 块 而 言 却 可 以 是 内 部 (E 
录 ) 节点 ( 见 图 8-41)。 

最 后 ， 层 次 式 自 录 的 存储 额外 开销 有 着 吸引 人 的 可 扩展 性 。 它 是 每 一 级 目录 高 速 缓存 的 
代价 。 越 到 靠近 根部 的 上 层 ， 其 目录 中 的 项 数 越 多 (为 了 维护 包容 人 性， 不 产后 过 多 的 替换 )， 
但 是 目录 的 数量 越 小 。 其 结果 是 ， 任 何 一 层 的 所 有 目录 所 需 目录 存储 器 总 容量 差不多 都 一 
样 。 所 需要 的 目录 存储 容量 和 主 存储 器 的 大 小 不 成 比例 ， 而 是 和 处 理 节点 的 高 速 缓存 的 容量 
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成 比例 。 总 的 目录 存储 器 额外 开销 与 主 存储 器 的 比例 关系 是 


C x log,P 
MxB 


这 里 C 为 每 个 叶 处 理 节 点 的 高 速 缓 存 的 尺寸 ， 必 是 每 个 节点 的 主 存 储 器 的 大 小 ，B 是 以 比 
特 为 单位 的 存储 器 块 的 大 小 ， 是 层次 结构 的 分 支 因 子 ，P 是 处 于 叶子 位 置 的 处 理 节点 的 数 
量 (因此 logsP 是 树 的 层 数 )。 有 关 层 次 目录 方案 更 详细 的 信息 可 以 在 文献 (Scoot 1991; 
Wallach 1992; Hagersten 1992; Joe 1995) 中 找到 。 


作为 叶 的 处 理 器 节点 rT! 


` IF lp | ,Ys i 
‘ we f - À 1 J i 
f y7 PAA -eT pu 2 
作为 内 部 节点 eee @ @- © -0 
2 = - 
7 2 _- 对 于 Ps 的 目录 树 
Poi et oi ia --7 P,: 也 是 内 部 节点 
A P, 内 存 的 
ods | 目录 树 


SO © è 
Po P, 2 P, 4 P; Ps P, Ps Py 10 i Pi Pi Pig Pis 


在 这 个 长 方形 中 的 所 有 周期 
表示 一 个 处 理 器 节点 (P,} 


图 841 嵌入 在 任意 网 络 中 的 多 根 层 次 式 目 录 。 图 中 显示 了 具有 16 个 节点 的 层次 结构 。 对 位 
于 处 理 节点 的 主 存储 器 中 的 块 而 言 ， 节 点 本 身 是 (逻辑 ) 目录 树 的 根 ， 因 此 ， 有 P 
个 处 理 节点 ， 就 有 已 棵 目录 树 。 图 中 只 显示 了 其 中 的 两 棵 。 除 了 作为 其 本 地 存储 器 
的 目录 树 的 根 节点 外 ， 处 理 节 点 还 是 其 他 处 理 节点 的 目录 树 的 内 部 节点 。 存 储 器 块 
的 地 址 隐 含 地 说 明了 特定 的 目录 树 ， 并 引导 在 该 目录 树 中 父子 节点 之 间 的 实际 遍历 
3， 层 次 式 一 致 性 的 性 能 含义 
层次 式 协议 ， 不 管 是 侦 听 还 是 目录 式 的 ， 有 着 某 些 潜在 的 性 能 优势 ， 这 是 对 前 面 讨论 的 
二 级 协议 的 优点 的 延伸 。 其 一 是 ， 当 对 于 一 个 块 的 请 求 沿 层次 结构 上 下 移动 时 ， 可 以 将 它们 
合并 。 如 果 一 个 处 理 节 点 正在 等 待 一 个 存储 块 的 到 来 ， 另 一 个 请 求 同 一 块 的 处 理 节点 可 以 从 
它们 的 公共 祖先 目录 那里 得 知 该 块 已 经 被 请 求 。 那 么 它 就 可 以 在 这 个 中 间 目 录 处 等 待 ， 当 响 
应 返回 时 接收 它 ， 而 不 是 再 发 出 一 个 重复 的 请 求 。 这 种 组 合 的 事务 可 以 减少 流量 ， 从 而 减少 
竞争 。 作 上 废 命令 的 发 出 和 作废 确认 的 收集 也 可 以 通过 树 结构 分 层 地 进行 。 另 一 个 优点 是 当 发 
生 扑 空 时 ， 如 果 层 次 结构 中 的 一 个 邻近 节点 上 有 该 块 的 高 速 缓存 副本 ， 那 么 就 可 以 从 那个 信 
近 节 点 得 到 该 块 〈 高 速 缓存 到 高 速 缓存 的 共享 )， 而 不 必 到 宿主 节点 上 去 取 ， 宿 主 节点 在 网 
络 拓扑 上 可 能 相距 较 远 。 这 样 可 以 降低 传输 时 延 和 宿主 节点 上 的 竞争 。 当 然 ， 这 第 二 个 优点 
取决 于 层次 结构 的 局 部 性 与 底层 的 物理 网 络 的 局 部 性 之 间 是 否 有 良好 的 对 应 关系 ， 也 取决 于 
应 用 的 共享 模式 与 层次 结构 是 否 匹 配 。 
尽管 树 形 网 络 中 的 局 部 性 可 以 降低 链 路 中 的 传输 时 延 ， 尤 其 在 非常 大 型 的 机 器 上 ， 但 层 
次 方案 的 总 的 时 延 和 带宽 特征 通常 不 占 优势 。 首 先 考虑 层次 式 侦 听 。 对 于 总 线 ， 沿 途中 每 个 
总 线 上 都 有 一 个 总 线 事务 和 侦 听 的 时 延 。 对 于 环 ， 在 层次 结构 的 每 一 级 遍历 ， 环 进一步 把 时 
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延 提 高 到 非常 高 的 程度 。 例 如 ， 在 一 台 满 配置 的 Kendall Square Research 的 KSR1 机 (Frank, 
Burkhardt, and Rothnie 1993) 上 访问 远程 环 的 一 个 单元 的 无 竞争 时 延 超过 了 25 us (Saavedra, 
Gainies, and Carlton 1993) ， 因 此 采用 了 其 他 的 体系 结构 技术 (在 第 9 章 讨 论 ) 来 减少 远程 环 
的 容量 型 扑 空 。 使 用 层次 侦 听 的 商用 系统 趋向 于 采用 相当 浅 的 层次 结构 (最 大 的 KSR 机 采 
用 二 级 的 环 层次 结构 ， 每 个 环 上 最 多 32 个 节点 )。 一 个 节点 中 有 几 个 处 理 器 的 事实 意味 着 节 
点 与 它 的 父 节 点 和 子 节点 间 的 带宽 必须 高 ， 以 支持 它们 的 综合 需求 。 节 点 内 的 处 理 器 不 仅 竞 
争 总 线 或 链 路 的 带宽 ， 而 且 竞 争 侦 听 带宽 和 节点 对 网 络 接口 的 占用 度 、 缓 冲 和 请 求 记录 机 
制 。 为 了 缓解 靠近 层次 结构 根部 链 路 带宽 的 限制 ， 在 靠近 根 的 地 方 可 以 使 用 多 总 线 或 多 环 ; 
但 是 ， 实 际 的 层次 系统 中 带宽 的 扩展 性 仍然 是 相当 有 限 的 。 

对 层次 式 目录 而 言 ， 时 延 问题 在 于 为 了 满足 一 个 请 求 ， 在 层次 间 上 下 传递 的 网 络 事务 数 
比 扁平 的 、 基 于 存储 器 的 方案 要 大 。 即 使 这 些 事务 在 网 络 中 可 能 有 更 好 的 局 部 性 ， 但 是 每 个 
事务 都 是 完整 的 网 络 事务 ， 需 要 查询 或 者 修改 其 中 间或 目的 节点 的 目录 。 这 增加 了 沿 关键 路 
径 节点 上 的 额外 开销 ， 很 可 能 抵消 了 减少 所 经 过 的 网 络 跳 数 从 而 降低 网 络 延 迟 所 带 来 的 好 
处 ， 尤 其 是 对 现代 的 网 络 更 是 如 此 。 虽 然 在 实际 中 可 以 使 用 某 种 流水 线 技术 ， 例 如 ， 当 一 个 
目录 节点 正 被 更 新 时 ， 数 据 应 答 可 以 传递 给 请 求 节点 ， 但 与 没有 层次 结构 的 机 器 相 比 ， 其 时 
延 还 是 相当 大 的 〈Hagersten 1992; Joe 1995)。 具 有 大 分 支 因 子 的 层次 结构 能 缓解 时 延 问题 ， 
但 是 却 增 加 了 竞争 。 和 层次 式 债 听 一 样 ， 目 录 层 次 结构 的 根 可 能 成 为 带宽 瓶 天， 包括 链 路 带 
宽 和 目录 查找 带宽 。 可 以 在 靠近 根部 的 地 方 使 用 多 条 链 路 (特别 适合 于 物理 的 层次 式 网 络 
LLeiserson et al. 1996])， 有 目录 高 速 缓存 可 以 在 它们 之 中 交错 设置 。 另 外 ， 因为 每 一 块 都 有 一 - 
个 独立 的 逻辑 层次 结构 ， 因 此 可 将 一 个 多 根 的 目录 层次 结构 檬 入 到 非 层次 的 、 可 扩展 的 点 对 
点 的 互连网 络 中 去 (Scott 1991; Wallach 1992; Scott and Goodman 1993)。 图 8-41 显示 了 一 种 
可 能 的 组 织 结构 ; 但 是 ， 和 层次 式 目录 结构 一 样 ， 这 些 技术 仍然 处 于 探索 研究 阶段 。 


8.11 结论 


支持 一 致 的 共享 地 址 空间 的 可 扩展 系统 在 多 处 理 器 领域 中 越 来 越 重 要 ， 因 为 它们 综合 了 
一 致 共享 地 址 空间 编程 模型 的 容易 编程 和 分 布 式 存储 器 和 互连网 络 的 可 扩展 优势 。 为 技术 和 
商用 工作 负载 设计 的 现代 商品 化 多 处 理 器 机 器 越 来 越 流行 用 硬件 支持 高 速 缓存 一 致 性 。 这 些 
系统 中 的 大 部 分 都 采用 基于 目录 的 协议 ， 不 管 是 基于 存储 器 的 协议 还 是 基于 高 速 缓存 的 协 
议 。 至 少 对 目前 已 经 建造 的 中 等 规模 的 机 器 而 言 ， 它 们 的 性 能 都 不 错 ， 对 于 很 多 应 用 ， 这 些 
机 器 的 编程 比 显 式 的 消息 传递 型 机 器 要 容易 。 

基于 目录 的 高 速 缓存 一 致 性 协议 相当 的 复杂 ， 有 很 多 过 渡 状 态 和 “ 边 角 情 形 ” 需 要 处 
理 。 图 8-42 通过 Origin2000 和 NUMA-Q 协议 基本 上 完整 的 状态 转换 图 来 显示 这 种 复杂 性 。 

尽管 以 硬件 提供 对 高 速 缓存 一 致 性 的 支持 的 设计 成 本 相当 高 ， 但 是 ， 随 着 经 验 的 增加 、 
标准 的 出 现 以 及 微 处 理 器 本 身 提 供 高 速 缓存 一 致 性 支持 的 事实 ， 这 种 设计 成 本 会 下 降 。 一 日 
获得 微 处 理 器 一 致 性 协议 ， 设 计 者 就 可 以 在 处 理 器 推出 之 前 开发 多 处 理 器 协议 和 通信 体系 结 
构 ， 这 样 处 理 器 的 推出 和 系统 设计 完成 两 者 之 间 不 会 有 多 大 时 差 。 今 天 的 商用 的 多 处 理 器 -- 
般 都 使 用 系统 出 广 时 最 新 的 微 处 理 器 ， 减 少 了 多 道 程序 编程 人 员 对 追赶 处 理 器 技术 发 展 曲线 
(EUR 








8% ATARHSRBRA-KH 485 


X 





硬件 实现 一 致 性 的 共享 地 址 空间 系统 有 一 些 令 人 感 兴趣 的 未 解决 问题 ， 包 括 ; 实际 应 用 
当中 ， 其 性 能 能 否 扩 展 到 处 理 器 数量 很 大 的 情况 (要 做 到 这 一 点 ， 是 否 要 对 当前 的 协议 做 显 
车 的 修改 )? 可 扩展 系统 的 节点 应 该 是 小 规模 的 多 处 理 器 还 是 单 处 理 器 ? 市 场 上 商品 化 的 通 
信 体 系 结构 能 在 多 大 程度 上 成 功 地 支持 这 种 抽象 ”能 否 成 功 地 设计 通信 辅助 部 件 ， 使 其 支持 
面向 高 速 缓存 一 致 性 和 显 式 的 消息 传递 两 者 的 适当 的 机 制 ? 具有 一 致 的 共享 地 址 空间 的 系统 
的 某 些 关键 的 硬 / 软 件 折 中 将 在 下 一 章 讨论 。 


习题 


8.1 同 我 们 在 第 7 章 中 讲 的 机 器 相 比 ， 在 高 速 缓存 一 致 的 机 器 上 模拟 消息 传递 ， 哪 些 地 方 
效率 低 ? 哪些 地 方 效率 高 ? 
8.2 1) 对 于 本 书 用 到 的 并 行 应 用 案例 分 析 ， 你 认为 哪些 在 使 用 多 处 理 器 而 不 是 单 处 理 器 节 
点 时 具有 潜在 的 优势 (假设 处 理 器 的 总 数 相同 )” 那 些 可 能 有 劣势 ”在 什么 情况 下 ? 
2) 当 机 器 的 规模 扩大 时 ， 你 对 上 面 问题 的 回答 会 发 生 什么 样 的 变化 ?也 就 是 说 ， 当 机 
器 的 规模 扩展 到 刀 百 个 处 理 器 时 ， 你 认为 使 用 固定 大 小 的 多 处 理 器 节点 的 性 能 好 处 
何在 ? 
3) Illinois MESI 一 致 性 方案 对 采用 多 处 理 器 节点 的 组 成 结构 有 什么 特殊 的 好 处 ? 
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a) Origin2000 


图 8-42 本 章 案例 分 析 中 的 多 处 理 器 的 扩展 的 目录 状态 图 。 图 a) 是 SCI Origin2000 大 大 简化 的 状态 图 : 
它 只 显示 了 目录 的 忙 状态 , 但 是 忽略 了 LO 操作 、 毒 化 状态 和 几 种 竞争 情况 。 为 了 说 明 忙 状态 
的 使 用 ， 显 示 了 来 自 两 个 节点 A 和 B 的 访问 。 例 如 标记 了 “FExcl A” 的 状态 表示 目录 认为 块 在 
A 节点 处 于 排他 状态 ， 标 记 了 “RdEx B” 的 弧 线 表示 来 自 节点 B 的 排他 读 操 作 。 传 输 操 作 和 等 
待 状态 用 于 处 理 回 写 ， 正 如 文字 所 岳 述 的 那样 。b) 图 中 的 Sequent 的 NUMA-Q 的 状态 图 要 完整 得 
多 ,虽然 它 也 排除 了 几 种 边 角 情 况 。 图 中 的 缴 线 没有 标注 ， 几 个 状态 标记 也 没有 解释 ， 该 图 的 目 
的 不 是 为 了 给 出 完整 的 协议 ， 而 只 是 为 了 说 明 在 真实 的 系统 中 ， 完 整 的 状态 图 可 能 是 相当 复杂 的 
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8.3 


8.4 


8.5 


8.6 


8.7 


8.8 
8.9 


8.10 


8.12 


8.13 


给 定 一 个 512 个 处 理 器 的 系统 ， 每 个 目录 可 见 的 节点 有 8 个 处 理 器 和 1 GB 的 主 存储 器 ， 
高 速 缓存 块 的 大 小 为 4 字 节 ， 计 算 下 列 两 种 方案 的 目录 存储 器 开销 : 

1) 全 位 向 量 方案 ; 

2) Dir'B 方 案 ，i = 3。 

本 章 提供 了 一 个 图 ,说 明了 在 像 SGI 的 Origin 那样 的 扁平 的 、 基 于 存储 器 的 协议 中 ， 读 操 
作 的 严格 的 请 求 -响应 、 干 涉 转发 、 应 答 转发 等 网 络 事务 〈 见 图 8-12), ， 试 对 写 操作 做 同样 
的 工作 。 

Origin 的 协议 假设 对 作废 的 确认 在 请 求 者 处 收集 。 另 外 一 种 方法 是 把 所 有 的 确认 都 发 回 宿 
主 节 点 (作废 请 求 来 自 那 里 )， 并 由 宿主 节点 向 请 求 者 发 回 单个 确认 。Standford 的 FLASH 
多 处 理 器 使 用 这 种 解决 方案 。 这 两 种 选择 之 间 主 要 的 性 能 和 复杂 性 的 折 中 是 什么 ? 

请 对 Origin 协议 的 非 高 速 缓存 的 共享 读 、 非 高 速 缓存 的 独占 读 、 写 作废 请 求 画 出 网 络 事 
务 状态 图 (如 图 8-16 所 示 )， 并 各 给 出 一 个 使 用 例子 。 

可 以 不 使 用 SCI 协议 中 的 双向 链表 ， 而 使 用 一 个 单 向 链表 。 这 样 做 有 什么 优点 ? 请 叙述 
一 下 如 果 使 用 单 向 链表 ， 对 下 列 操作 需要 作 什 么 修改 : 

1) 替换 共享 链表 中 的 一 个 高 速 缓冲 块 。 

2) 对 共享 链表 中 的 一 个 高 速 缓冲 块 写 人 。 

定性 地 讨论 其 对 大 规模 多 处 理 器 性 能 的 影响 。 

怎样 可 以 减少 SCI 的 协议 中 引起 作废 的 写 的 时 延 ? 画 出 其 网 络 事务 ， 主 要 的 折 中 是 什么 ? 
一 个 变量 呈现 迁移 共享 的 时 候 ， 读 该 变量 的 处 理 器 就 是 下 一 个 要 对 它 写 人 的 处 理 器 。 你 
能 用 什么 协议 优化 在 这 种 情况 下 降低 流量 和 时 延 ? 如 何 动态 地 发 现 这 种 情况 ? 请 详细 说 
明 一 种 或 两 种 方案 。 

男 一 种 可 以 被 动态 检测 的 模式 是 生产 者 -消费 者 模式 ， 在 这 种 模式 中 一 个 处 理 器 反复 地 对 
一 个 变量 写 入 (生产 )， 另 一 个 处 理 器 反复 地 读 (消费 ) 这 个 变量 。 基 于 作废 的 标准 
MEST 协议 能 很 好 地 适应 这 种 情况 吗 ? 为 什么 ? 你 认为 什么 样 的 改进 或 协议 会 更 好 一 些 ? 
在 时 延 和 流量 方面 有 何 减 少 ” 你 如 何 动态 地 发 现 和 使 用 这 种 改进 ? 

在 基于 目录 的 系统 中 ， 为 什么 基于 更 新 的 协议 比 基 于 作废 的 协议 更 难 提供 写 原子 性 ”你 
如 何 解决 这 个 问题 ?在 基于 总 线 的 系统 中 存在 同样 的 困难 吗 ? 

考虑 如 下 的 程序 段 在 一 台 高 速 缓存 一 致 的 多 处 理 器 上 运行 ， 假 定 所 有 的 变量 初 值 均 为 0。 


只 有 & 是 共享 变量 : 假定 写 人 者 知道 高 速 缓存 副本 在 哪里 ， 并 直接 向 它们 发 出 更 新 而 无 
需 咨 询 目 录 节点 。 假 设 基于 更 新 的 协议 ， 请 构造 一 种 违反 写 原子 性 的 情况 。 

1) 请 说 明 结果 中 发 生 的 对 顺序 同一 性 的 破坏 。 

2) 你 能 否 生 成 一 种 一 致 性 也 遭 到 破坏 的 情况 ”你 怎么 解决 这 些 问题 呢 ? 

3) 你 能 在 基于 作废 的 协议 中 构造 同样 的 问题 吗 ? 

4) 你 能 在 基于 更 新 的 总 线 型 系统 中 构造 同样 的 问题 吗 ? 

在 Origin 协议 中 处 理 回 写 时 ， 我 们 提 到 ， 如 果 进 行 回 写 的 节点 接收 到 一 个 干涉 时 , 干涉 
被 忽略 。 给 定 一 个 不 保证 点 对 点 通信 次 序 的 网 络 ， 在 什么 情况 下 决定 忽略 干涉 必须 要 小 心 ? 





673 


488 开行 计算 机 体系 绍 欧 





我 们 如 何 检测 该 干涉 必须 被 丢弃 ? 如 果 网 络 保证 点 对 点 通信 的 次 序 ， 还 有 这 个 问题 吗 ? 
8.14 在 8.5.2 节 中 讨论 的 Ongin 的 串 行 化 问题 在 严格 的 请 求 -响应 协议 中 还 会 出 现 吗 ? 我们 
提 到 的 指导 方针 还 管用 吗 ?请 用 实例 说 明 ， 包 括 在 8.5.2 节 中 讨论 的 例子 。 
8.15 考虑 NUMA-Q 中 写 的 串 行 化 问题 ， 假 定 采 用 两 级 的 层次 式 一 致 性 协议 。 如 果 节 点 的 远 
程 高 速 缓存 中 一 个 块 为 脏 ， 来 自 其 他 节点 的 写 到 达 该 节点 时 ， 如 何 与 来 自 该 节点 的 处 
理 器 写实 现 串 行 化 ?为 了 保证 串 行 化 必须 产生 什么 事务 ? 
8.16 在 Origin 的 实现 中 ， 到 达 存 储 器 /目录 接口 的 请 求 消息 的 优先 级 比 到 达 的 响应 要 高 ， 除 
非 响应 有 挨 钱 的 可 能 才 不 这 样 做 。 你 认为 为 什么 要 给 请 求 更 高 的 优先 级 ?请 描述 一 上 
I attr ERAS ARRIR ee 
8.17 1) 当 进行 页 面 迁 移 或 复制 时 候 为 什么 需要 清空 
>) 对 于 有 软件 重 载 的 人 TB 的 CONUMA SIMRE EARE 要 迁移 ， 那 么 你 会 采 
用 下 列 哪 种 TLB 清空 方案 ”为 什么 ? 
i) 自前 只 有 页 项 的 TLB。 
i) 只 有 自 上 次 清空 后 又 重新 装载 过 页 项 的 TLB。 
ii) 系统 中 所 有 TLB 。 
[提示 : 选择 应 该 基于 以 下 两 个 标准 : 进行 TLB 实际 清空 的 代价 和 为 了 实现 方 
案 跟踪 所 需 信 息 的 难度 。] 
8.18 对 于 一 个 简单 的 两 处 理 器 的 CC-NUMA 系统 ， 来 自 两 个 处 理 器 P 和 P 的 对 三 个 虚 页 
X.Y, Z 的 高 速 缓存 扑 空 的 轨迹 显示 如 下 。 时 间 的 推移 从 左 到 右 。“R” 是 读 扑 空 
“W EEFE. Po ALP, 的 本 地 存储 器 分 别 是 M 和 M,。 本 地 扑 空 的 代价 为 一 个 时 间 
单元 ， 远程 扑 空 的 代价 为 4 个 时 间 单 元 。 假 定 读 扑 空 和 写 扑 空 的 代价 相同 。 
1) 假设 知道 全 部 轨迹 ， 你 在 哪个 本 地 存储 器 里 放置 页 面 XY、Y 和 2? 
2) 假设 三 个 页 面 初始 都 在 M,。 你 预先 知道 全 部 轨迹 。 在 轨迹 开始 处 ， 你 能 对 每 个 页 
面 做 一 次 迁移 或 一 次 复制 ,或 什么 也 不 做 ， 这些 操作 代价 为 零 。 你 将 对 各 个 页 面 
采取 什么 动作 ? . 


Po: RRRR RR RRRRR RRR 
PER RRRR RRRR RR 


Po: no accesses 
Py: RR WW RRRR RWRWRW WWWR 


页 Z: 
PoR W RW R R RRWRWRWRW 
P: WR RW RW W W R 


3) 如 果 页 面 迁移 或 复制 的 代价 为 10 个 时 间 单元 ， 回 答 问题 2) 。 此 外 ， 给 出 每 个 页 面 
最 终 的 存储 器 访问 代价 。 

4) 如 果 迁 移 或 复制 代价 为 60 个 单元 ， 回 答 问题 3)。 

5) 如 果 所 显示 的 高 速 缓存 扑 空 轨迹 重复 10 次 ， 回 答 问题 4) 。 (你 在 整个 轨迹 的 开始 
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仍然 只 能 做 一 次 迁移 或 复制 。) 

第 5 章 5.5 节 引入 的 满 - 空位 对 细 粒 度 的 同步 提供 了 硬件 支持 ， 已 经 被 建议 在 CC-NU- 

MA 机 中 使 用 。 满 - 空位 的 优点 和 缺点 是 什么 ? 为 什么 现代 的 系统 不 采用 这 种 技术 呢 ? 

对 于 基于 作废 的 协议 ， 锁 传输 所 用 的 网 络 事务 比 必要 的 要 多 。 另 一 种 办 法 是 不 对 锁 做 

高 速 缓存 ， 因 此 锁 变量 留 在 主 存储 器 中 ， 总 是 在 存储 器 中 对 它 进行 访问 。 

1) 试 写 出 采用 非 高 速 缓存 操作 的 简单 锁 和 标签 锁 的 伪 代 码 。 

2) 与 高 速 缓存 锁 相 比 ， 它 有 什么 优 缺 点 ? 在 实际 系统 中 你 会 部 署 哪 一 个 ? 

3) 你 能 描述 一 种 使 用 高 速 缓存 和 非 高 速 缓存 两 种 读 写 操作 的 方案 ,来 改善 锁 的 性 能 
吗 ? 你 的 方案 需要 什么 特殊 的 操作 ? 

因为 高 竞争 和 低 竞争 两 种 情况 最 好 由 不 同 的 加 锁 算 法 解决 ,因此 有 人 提议 ， 建 立 一 个 

同步 算法 库 ， 在 运行 时 根据 对 同步 变量 的 访问 模式 ， 用 硬件 支持 不 同 算法 间 的 切换 。 

1) 在 你 的 库 中 ， 你 会 提供 什么 锁 ? 

2) 假定 一 个 基于 存储 器 的 目录 协议 ， 请 设计 在 运行 时 在 锁 之 间 切 换 的 简单 硬件 支持 
和 策略 。 

3) 举 出 一 个 使 用 这 样 的 支持 特别 有 效 的 例子 。 

4) 其 潜在 的 缺点 是 什么 ? 

我 们 在 研究 体系 结构 的 时 候 使 用 了 4 种 实际 的 应 用 : Ocea, SR LU 因子 分 解 、 

FET 《执行 由 甜 阵 转 置 分 隔 的 行 局 部 计算 ) 和 Bames-Hut。 针 对 每 一 种 应 用 回答 下 面 的 

问题 (假设 CC-NUMA 系统 ): 

1) 为 了 保证 和 扩展 的 存储 器 层次 结构 之 间 的 良好 相互 作用 ， 需 要 对 数据 结构 和 数据 
分 布 做 什么 样 的 修改 和 增强 ? 

2) 和 高 速 缓存 大 小 、 分 配 粒 度 、 一 致 性 和 通信 之 间 有 什么 相互 作用 ? 

考虑 在 高 性 能 FFT 这样 的 计算 中 使 用 的 并 行 数据 转 置 的 例子 。 图 8-43 给 出 了 转 置 的 

图 示 。 每 个 进程 向 每 个 其 他 的 处 理 器 转 置 分 配给 它 的 行 的 碎片 ， 包 括 对 它 自 己 的 部 

分 。 在 转 置 前 ， 进 程 对 分 配给 它 的 转 置 的 源 矩 阵 进 行 读 和 写 ;， 转 置 之 后 ， 读 和 写 分 配 

给 它 的 目的 矩阵 中 的 行 。 分 配给 一 个 进程 的 同时 在 源 和 目的 矩阵 两 者 中 的 行 在 进程 的 

本 地 存储 器 中 分 配 空间 。 有 两 种 转 置 的 方法 ， 进程 可 以 从 源 矩 阵 中 它 自 己 的 行 读本 地 

元 素 ， 把 它们 写 到 和 且 的 矩阵 的 适当 的 元 素 中 去 ,不 管 它们 是 本 地 的 还 是 远程 的 ， 如 图 

8-43 所 示 〈 叫 做 发 送 者 启动 的 转 置 ); 另 一 种 方法 是 ， 进 程 能 对 目的 矩阵 的 本 地 行 写 人 ， 

从 源 矩 阵 读 出 适当 的 元 素 ， 不 管 它们 是 本 地 的 还 是 远程 的 〈 叫 做 接收 者 启动 的 转 置 )。 

1) 给 定 基 于 作废 的 目录 协议 ， 你 认为 哪个 方法 更 好 ? 为 什么 ? 

2) 如 果 假 定 基于 更 新 的 协议 ， 你 认为 对 1) 的 答案 如 何 变化 ? 

3) 考虑 以 下 矩阵 转 置 的 实现 ， 你 打算 在 一 台 8 处 理 器 的 机 器 上 运行 。 每 个 处 理 器 有 
一 个 8 KB 全 相 联 的 一 级 高 速 缓存 ， 每 行 128 字 节 。( 注 意 ，ar 和 不 是 同一 个 矩阵 。) 
Transpose (double **A, double **AT) 

{ 


int i,j.mynum; 
GETPID (mynum) ; 


for (i=mynum*nrows/p; i<((mynum+1)*(nrows/p)); i++) { 
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for (j=0; j<1024; j++) { 
AT{il(j] = A[j] (il; 


输入 数据 集 是 1024 x 1024 双 精 度 浮 点 数 的 矩阵 〈 即 ，nrows X 1024), 将 它 分 
区 ， 使 每 个 处 理 器 负责 生成 被 转 置 的 矩阵 AT 的 连续 行 的 块 〈 即 接收 者 启动 的 
转 置 )。 忽 略 有 所 有 处 理 器 先 访问 处 理 器 0 所 引起 的 竞争 ， 该 代码 的 主要 性 能 问 
题 是 什么 ?” 你 用 什么 技术 去 解决 它 ” 重新 安排 代码 来 尽 可 能 缓解 所 有 的 性 能 问 
题 。 写 出 重新 安排 的 完整 循环 。 


源 矩 阵 HEER 
a— DHR opk 


—a— 由 进程 ! 拥有 


一- Bee 3 拥有 








图 8-43 ”发 送 者 启动 的 矩阵 转 置 。 源 和 目的 矩阵 在 进程 之 间 划 分 成 连续 行 构成 的 组 。 每 个 进程 把 它 的 
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n/p 行 分 成 个 片 ， 片 尺寸 为 (n/p) x (n/p)。 以 进程 2 AA: 分 配给 它 的 一 个 片 成 为 分 配 
给 每 一 个 其 他 的 进程 的 行 的 集合 ， 在 这 个 情况 下 ， 它 在 本 地 转 置 一 个 片 (从 左边 起 第 三 个 ) 
考虑 一 个 基于 总 线 的 层次 式 系统 在 根部 有 集中 式 的 存储 器 ， 而 不 是 本 章 讨 论 的 分 布 存 

储 器 。 满 足 读 和 写 之 间 主 要 的 区 别 是 什么 ”简要 的 描述 一 下 读 和 写 的 路 径 。 

不 追求 一 个 节点 中 远程 访问 高 速 缓存 和 L 高 速 缓存 之 间 的 包含 特性 ， 你 能 否 构造 一 
个 带 集中 式 存储 器 的 基于 总 线 的 层次 式 系统 ? 如 果 可 以 ， 会 带 来 什么 样 的 复杂 性 ? 
为 了 保证 两 级 层次 式 总 线 设计 的 顺序 同一 性 ， 是 否 可 以 在 作废 请 求 到 达 B 总 线 时 返回 
一 个 确认 ? 如 果 可 以 ， 对 高 速 缓存 的 设计 和 实现 以 及 事务 间 保 持 的 次 序 有 什么 强制 性 
的 约束 ? 如 果 不 可 以 ， 请 说 出 理由 ? 如 果 层 次 超过 两 级 时 可 以 吗 ? 

假定 在 一 个 基于 总 线 的 层次 式 系统 中 ， 两 个 不 同 节点 上 的 两 个 处 理 器 同时 对 一 个 块 发 
出 了 升级 的 请 求 。 试 在 系统 中 跟踪 它们 的 轨迹 ,讨论 所 有 的 状态 变化 以 及 它们 何 时 必 
须发 生 ， 防 止 死 锁 和 防止 两 个 处 理 器 都 获得 所 有 权 的 措施 是 什么 ? 

在 具有 分 布 存储 器 的 基于 总 线 的 层次 式 系统 中 的 一 种 优化 是 高 速 缓存 到 高 速 缓存 的 共 
T: 如 果 本 地 总 线 上 的 另外 一 个 处 理 器 的 高 速 缓存 可 以 提供 需求 的 数据 ， 就 不 必 访 问 
全 局 总 线 和 远程 节点 了 。 在 基于 环 的 层次 式 系统 中 支持 这 样 的 优化 有 什么 折 中 ”? 

在 具有 层次 式 目录 的 机 器 中 ， 你 会 选择 什么 分 支 因子 ?9 说 明 主要 的 折 中 。 你 能 采用 什 
么 技术 来 缓解 性 能 权衡 ? 尽 可 能 具体 地 描述 。 

不 维持 目录 高 速 缓存 的 包含 性 能 实现 层次 式 目录 吗 ?设计 一 个 能 做 到 这 点 的 协议 ， 并 
讨论 其 优 缺 点 。 


第 9 章 硬件 /软件 功能 的 折 中 


本 章 论 述 第 8 章 所 讨论 的 基于 目录 的 高 速 缓存 一 致 性 系统 的 潜在 局 限 性 以 及 为 克服 这 些 
局 限 所 提出 的 硬件 /软件 的 折 中 措施 。 这 些 系统 的 主要 局 限 性 在 于 : | 

。 存储 器 操作 的 等 待 时 间 长 。 顺 序 同一 性 (SC) 是 面向 程序 员 的 存储 同一 性 模型 ， 到 
目前 为 止 ， 总 线 侦 听 式 和 基于 目录 两 种 系统 均 假定 采用 此 模型 。 为 了 满足 SC 的 充分 
条 件 ， 处 理 器 必须 等 待 前 面 的 存储 操作 完成 ， 才 能 产生 下 一 个 存储 操作 。 与 基于 总 
线 的 系统 的 性 能 影响 相 比 ， 这 一 限制 对 于 可 扩展 系统 的 性 能 影响 更 大 ， 因 为 后 者 的 
通信 延迟 更 长 ， 而 且 在 其 关键 路 径 上 会 存在 更 多 的 网 络 事务 处 理 。 更 糟糕 的 是 ， 这 
更 是 对 编译 器 的 限制 ， 如 果 程 序 员 假定 顺序 同一 性 的 话 ， 编 译 器 根本 无 法 改变 对 于 
共享 数据 的 存储 操作 的 次 序 。 

用 于 复制 的 容量 有 限 。 当 数据 交换 时 ， 它 自动 地 在 处 理 器 的 高 速 缓存 中 复制 ， 而 不 
是 在 本 地 主 存 中 复制 。 当 工作 集 大 且 包含 非 局 部 数据 或 者 当 冲 突 式 扑 空 很 多 时 ， 这 
可 能 导致 因 容量 不 足 造成 的 扑 空 和 附加 的 通信 。 

设计 和 实现 的 高 成 本 。 通 信和 辅助 部 件 包含 支持 高 速 缓 存 一 致 性 的 特殊 硬件 并 紧密 地 
集成 在 处 理 节点 之 中 。 协 议 是 复杂 的 ， 其 正确 的 硬件 实现 会 花费 相当 长 的 设计 时 间 。 
(所 谓 成 本 ， 在 这 里 我 们 是 指 硬 件 和 系统 设计 时 间 的 费用 。 但 是 ， 回 顾 第 3 章 所 述 ， 
优良 性 能 的 实现 同时 与 编程 的 成 本 相关 ， 降 低 系统 成 本 的 措施 往往 导致 编程 成 本 的 
急剧 上 升 。) 

本 章 将 集中 讨论 这 三 方面 的 局 限 性 。 尽 管 人 们 对 解决 这 些 问 题 的 方法 还 有 不 同 程度 的 争 
论 ， 但 这 些 方法 的 某 些 部 分 已 经 被 商品 化 的 并 行 机 的 设计 者 所 采纳 。 此 外 ， 我 们 还 常常 碰 到 
其 他 一 些 局 限 性 (包括 第 7 章 所 讨论 的 CRAY T3D 的 共享 物理 地 址 空间 的 寻 址 限制 ) 以 及 以 
硬 接 线 的 方式 在 机 器 中 实现 单一 协议 这 一 事实 。 然 而 ， 这 类 问题 的 解决 方案 经 常 与 那些 主要 
问题 的 解决 方案 相 结合 ， 它 们 将 被 作为 高 级 的 专题 而 讨论 。 

存储 器 操作 等 待 时间 过 长 的 问题 可 以 用 两 种 硬件 的 方法 解决 。 第 一 种 方法 ， 实 现 方案 
的 设计 可 以 不 必 满足 SC 的 充分 条 件 ， 而 仅 需 满足 SC 模型 本 身 ， 这 一 点 现代 的 非 阻塞 型 处 理 
器 已 经 这 样 做 了 。 即 处 理 器 无 须 等 待 前 一 存储 器 操作 结束 就 可 以 开始 下 一 操作 ; 但 是 系统 保 
证 这 些 操作 的 结束 或 对 外 界 的 效果 显现 仍 维持 原 有 的 次 序 。 第 8 章 所 讨论 的 SGI Origin2000 
系统 使 用 这 种 方法 。 第 二 种 方法 ,存储 器 同一 性 模型 本 身 可 以 被 放松 ， 程 序 的 次 序 无 须 严格 
地 保持 。 放 松 的 同一 性 模型 改变 了 共享 地 址 空间 的 语义 ,对 硬件 和 软件 两 者 均 有 影响 。 它 要 
求 程序 员 更 加 小 心 才能 编写 正确 的 程序 ， 但 它 允 许 硬件 在 更 大 程度 上 重 伙 和 改变 存储 器 操作 
的 次 序 。 重 要 的 是 ， 它 还 允许 在 将 存储 器 操作 提交 硬件 之 前 由 编译 器 对 它们 重新 排序 ， 这 正 
是 优化 编译 器 通常 所 做 的 。9.1 节 将 讨论 放松 的 存储 同一 性 模型 。 

复制 容量 有 限 的 问题 可 以 通过 自动 地 在 主 存 中 缓存 数据 (不 是 仅仅 在 处 理 器 的 高 速 缓存 
中 缓存 数据 ) ， 并 保持 缓存 数据 的 一 致 来 解决 。 与 硬件 的 高 速 缓存 不 同 ， 主 存 中 的 复制 和 一 
致 性 保持 可 以 采用 各 种 不 同 大 小 的 粒度 ， 例 如 ， 高 速 缓存 块 、 存 储 页 面 或 用 户 定义 的 对 象 并 
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可 以 直接 用 硬件 或 通过 软件 来 管理 。 这 就 提供 了 非常 丰富 的 协议 、 硬 /软件 实现 和 性 能 成 本 
折 中 的 空间 。 一 种 致力 于 改善 性 能 的 方法 是 将 本 地 主 存 当 作 硬件 高 速 缓存 那样 管理 ， 以 高 速 
缓存 块 的 粒度 提供 复制 和 一 致 性 。 这 种 方案 被 称 作 惟 高 速 缓存 式 存储 器 体系 结构 ， 或 称 CO- 
MA， 将 在 9.2 节 中 对 其 进行 讨论 。 它 使 软件 无 须 再 为 容量 型 扑 空 以 及 数据 在 主 存 中 的 初始 
分 布 耐 操心， 同时 仍然 以 细 粒 度 提 供 一 致 性 ， 从 而 避免 伪 共 享 。 然 而 ， 它 要 求 在 主 存 中 为 每 
个 块 维护 标记 和 状态 ， 因 而 需要 更 多 的 硬件 。 

最 后 ， 我 们 来 看 看 解决 硬件 成 本 问题 的 多 种 途径 。 方 法 之 一 是 使 通信 辅助 机 构 及 网 络 部 
件 与 处 理 节 点 的 关系 不 要 那么 紧密 ， 其 代价 是 提高 了 通信 延迟 和 辅助 机 构 的 占用 率 。 另 一 途 
径 是 以 软件 方式 而 不 是 以 硬件 方式 提供 自动 的 复制 和 一 致 性 ， 产 生 图 9-1 中 所 说 明 的 一 系列 
可 能 的 系统 实现 方案 。 这 种 软件 实现 的 方法 在 主 存 内 提供 复制 和 一 致 性 并 能 以 各 种 不 同 的 粒 
度 操 作 。 该 类 方法 允许 以 市 场 现 成 部 件 实现 节点 和 互 连 ， 降 低 硬 件 成 本 ， 把 追求 优良 性 能 的 
更 多 (现在 也 是 更 大 ) 的 责任 留 给 程序 员 。 降 低 硬件 成 本 的 途径 将 在 9.3 节 中 讨论 。 
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共享 地 址 空间 程序 设计 模型 
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图 9-1 本 章 所 讨论 的 系统 的 通信 体系 结构 的 层次 。 本 图 表示 
了 用 于 支持 一 致 的 共享 地 址 空间 的 软件 介入 的 程度 


以 上 这 三 个 问题 是 相互 联系 的 。 比 如 ， 成 本 与 在 主 存 中 管理 复制 和 一 致 性 的 方式 密切 相 
R: 以 何 种 粒度 管理 ? 是 直接 以 硬件 方式 还 是 通过 运行 时 系统 或 操作 系统 管理 ? 成 本 和 粒度 
也 与 存储 同一 性 模型 相关 : 对 于 低 成 本 低 性 能 解决 方案 和 较 大 的 粒度 来 说 ， 放 松 的 存储 同一 
性 模型 好 处 更 大 ， 而 以 软件 实现 协议 更 有 利于 充分 发 据 语 义 放松 的 作用 。 理 解 不 同方 案 的 空 
间 的 一 个 有 用 的 框架 是 基于 数据 在 本 地 复制 存储 、 一 致 性 保持 及 通信 的 粒度 。9.4 节 建 立 了 
这 样 一 个 总 结 及 关联 不 同方 案 的 框架 。 该 框架 自然 地 产生 了 一 种 在 高 成 本 的 COMA 和 低 成 本 
的 全 软件 途径 之 间 尽 力 寻 求 好 的 折 中 的 方法 。9.4 节 讨 论 了 这 种 被 称 作 简单 COMA 的 方法 。 

9.5 节 深 入 研究 了 本 章 所 讨论 的 系统 对 并 行 软件 的 影响 。 最 后 ，9.6 节 覆 盖 了 某 些 更 先 
进 的 专题 ， 包 括 解决 共享 物理 地 址 空间 和 固定 的 一 致 性 协议 所 存在 的 潜在 局 限 性 的 技术 。 


9.1 放松 的 存储 同一 性 模型 


让 我 们 回忆 第 5 章 ， 共 享 地 址 空间 的 存储 同一 性 模型 规定 了 对 于 相同 或 不 同 的 存储 单元 
所 能 够 执行 的 存储 器 操作 的 相互 次 序 的 约束 ， 它 使 程序 员 能 推论 出 他 们 的 程序 的 行为 和 正确 
性 。 事 实 上 ， 支 持 一 个 共享 地 址 空间 命名 模型 的 任何 系统 层次 都 具有 一 个 存储 同一 性 模型 ， 
包括 程序 设计 模型 或 程序 员 接 口 、 用 户 /系统 接口 和 硬件 /软件 接口 。 与 某 一 层次 交互 的 软件 
必须 了 解 该 层次 的 存储 同一 性 模型 。 我 们 的 注意 力主 要 集中 于 程序 员 所 见 的 同一 性 模型 ， 即 
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位 于 程序 员 和 由 编译 器 、 操 作 系统 及 硬件 组 成 的 系统 其 余部 分 之 间 的 接口 ， 因 为 这 正 是 程序 [681] 
FAC 推论 的 依据 。 例 如 ， 处 理 器 可 能 保持 提交 给 它 的 所 有 程序 的 存储 器 操作 的 次 序 ， 但 是 ， 

如 果 编 译 器 已 经 对 操作 重新 排 了 序 ， 那 么 程序 员 就 不 能 再 用 硬件 对 外 提供 的 简单 模型 来 
推论 。 

位 于 程序 员 接 口 的 同一 性 模型 对 于 程序 设计 语言 、 编 译 器 和 硬件 也 有 其 意义 。 对 于 编译 
器 和 硬件 而 言 ， 它 规定 了 对 政变 来 自 进程 的 访问 次 序 的 约束 以 及 不 能 违反 的 次 序 ， 因 而 说 明 
了 所 能 使 用 的 性 能 优化 手段 。 我 们 将 看 到 ， 程 序 设 计 语言 必须 提供 在 必要 时 引入 这 种 约束 的 
机 制 。 一 般 而 言 ， 允 许 系统 对 来 自 进程 的 存储 器 访问 所 做 的 重 排序 越 少 ， 我 们 为 程序 员 提 供 
的 程序 设计 模型 越 直 观 ， 但 对 性 能 优化 的 约束 也 越 大 。 存 储 同一 性 模型 的 目标 是 施加 的 次 序 
约束 能 使 编程 复杂 性 和 性 能 之 间 达 到 良好 的 平衡 。 模 型 必须 是 可 移植 的 ， 即 规范 必须 能 在 多 
种 平台 上 实现 ， 从 而 同一 程序 能 在 所 有 这 些 平台 上 运行 并 保持 相同 的 语义 。 

到 目前 为 止 我 们 所 假定 的 顺序 同一 性 模型 为 程序 员 提 供 了 直观 的 语义 ， 即 各 进程 内 部 的 
程序 原 序 和 进程 之 间 重 蓓 的 同一 性 ， 通 过 满足 其 充分 条 件 可 以 很 容易 地 实现 该 模型 。 但 是 ， 
正 因为 保持 了 访问 的 严格 次 序 ， 该 模型 的 缺点 在 于 限制 了 当今 单 处 理 器 的 编译 器 和 多 处 理 器 
所 常用 的 性 能 优化 手段 的 使 用 。 由 于 存储 器 访问 的 高 代价 ， 如 果 对 来 自 一 个 处 理 器 的 多 个 存 
储 器 或 通信 操作 的 服务 进行 重 排 序 或 重 琶 ， 计 算 机 系统 能 实现 较 高 的 性 能 。 保 持 SC 的 充分 
条 件 显然 不 允许 硬件 做 多 少 重 排序 和 重 又 ， 能 够 保持 SC 但 不 保持 充分 条 件 的 方法 也 具有 局 
限 性 。 若 在 程序 员 接 口 保持 SC， 即 便 是 针对 不 同 单元 的 存储 器 访问 ， 编 译 器 也 不 能 改变 其 
次 序 ， 这 样 就 不 允许 诸如 代码 移动 、 公 共 子 表达 式 消 除 、 软 件 流水 ， 甚 至 像 例 9.1 所 述 的 寄 
存 器 分 配 这 样 的 关键 性 的 性 能 优化 措施 。 

例 9.1 说 明 即 使 硬件 满足 SC， 和 寄存 器 分 配 也 会 导致 SC 的 破坏 。 

解答 : 考虑 图 9-2a 所 示 的 代码 段 。 在 寄存 器 分 配 之 后 ， 由 编译 器 生成 并 被 硬件 所 见 的 
代码 如 图 9-2b 所 示 。 在 a) 中 的 SC 硬件 之 下 ， 是 不 允许 产生 (u, v) = (0, 0) 这 样 的 结 [682 
R, 但 在 b) 的 SC 硬件 条 件 下 ， 这 不 仅 允许 ， 而 且 会 产生 。 事 实 上 ， 寄 存 器 分 配 改变 了 P 
中 的 A 的 写 和 信和 B 的 读 出 的 次 序 ， 也 改变 了 P 中 的 B 的 写 人 和 的 读 出 的 次 序 。 一 个 单 处 
理 器 的 编译 器 可 以 很 容易 地 对 各 个 进程 执行 这 些 优化 ， 它们 对 于 串 行 程序 这 些 优 化 是 合法 
的 ， 因 为 被 改变 次 序 的 访问 是 针对 不 同位 置 的 。 国 











1 P2 Py P2 
B=0 4A= 0 rl = 0 r2 = 0 
A=1 B=1 A=1 B = 1 
u = B V = usr V = 7r2 

B = r1 A = r2 
a) 在 寄存 器 分 配 之 前 b) 在 寄存 器 分 配 之 后 


图 92 说 明 编译 器 所 做 的 寄存 器 分 配 能 破坏 SC 的 例子 ，a) 中 的 代码 是 程序 员 赖 以 推论 的 
原始 代码 。r1 和 r2 是 寄存 器 ，b) 中 是 编译 器 执行 寄存 器 分 配 后 可 能 形成 的 代码 





O “程序 员 ”(programmer) 一 词 在 这 里 是 指 负责 生成 并 行程 序 的 实体 。 例 如 ， 如 果 一 个 编程 人 员 (human program- 
mer) 写 的 站 行 程序 由 系统 软件 自动 并 行 化 ， 则 系统 软件 必须 与 存储 一- 致 性 打交道 ; 而 程序 员 只 是 简单 地 假定 单 
处 理 器 上 的 捉 行 语义 。 
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在 程序 员 接口 提供 SC 意味 着 在 包括 硬件 /软件 接口 的 低层 接口 支持 SC。 如 果 要 满足 SC 
的 充分 条 件 ， 处 理 顺 在 发 出 下 一 次 访问 前 要 等 待 前 次 访问 的 结束 ， 这 样 存储 器 访问 所 经 历 的 
大 部 分 时 延 直 接 被 处 理 器 当 作 阻 塞 时 间 。 虽 然 处 理 器 在 一 个 未 完成 的 存储 器 访问 被 服务 时 能 
继续 执行 非 存储 器 指令 ， 但 来 自 这 种 重 秋 的 收益 甚 微 ， 因 为 即使 没有 指令 级 并 行 ， 平 均 每 三 
条 指令 就 有 一 条 是 存储 器 访问 (Hennessy and Patterson 1996)。 我 们 需要 针对 这 个 性 能 问题 采 
取 措 施 。 

我 们 所 能 采取 的 一 个 措施 是 既 在 程序 员 接口 保持 顺序 同一 性 ， 又 以 某 种 方式 对 处 理 器 隐 
藏 长 的 时 延 阻塞 。 这 一 点 能 用 几 种 方法 做 到 ， 它 们 大 致 分 为 两 类 (Gharachorloo, Gupta, and 
Hennessy 1991), 4 11 章 将 进一步 讨论 这 些 技术 及 它们 的 性 能 含义 ， 在 这 里 ， 仅 简要 对 它们 
做 一 些 直观 的 介绍 。 在 第 一 类 方法 中 ， 系 统 仍然 保持 SC 的 充分 条 件 ， 编 译 器 并 不 改变 存储 
器 操作 的 次 序 。 使 用 诸如 数据 预 了 到 和 多 线程 这 样 的 时 延 包 容 技术 使 数据 传输 相互 重 邦 或 与 计 
算 重 释 ， 对 处 理 器 隐藏 大 部 分 的 时 延 ， 但 是 在 前 面 的 读 写 操作 尚未 按 程 序 原 序 完成 之 前 不 产 
生 真正 的 读 写 操作 。 

在 第 二 类 方法 中 ， 系 统 在 程序 员 接 口 处 保持 SC， 但 不 保持 SC 的 充分 条 件 。 只 要 保证 在 
结果 中 的 顺序 一 致 性 不 被 违反 ， 编 译 器 就 可 以 改变 操作 的 排序 。 人 们 已 经 开发 了 用 于 此 目的 
的 编译 器 算法 (Shasha and Snir 1988; Krishnamurthy and Yelick 1994，1995) ， 但 这 些 算法 代价 太 
高 ， 而 且 它 们 的 分 析 能 力 上 县 前 还 是 相当 有 限 的 。 在 硬件 层次 中 ， 存 储 器 操作 可 以 不 按 程序 规 
定 的 次 序 产 生 并 执行 ， 但 是 必须 保证 在 其 他 处 理 器 看 来 它们 仍然 是 遵循 程序 的 次 序 。 这 种 方 
法 特别 适合 于 具有 动态 调度 的 处 理 器 ， 例 如 ，SGI 的 Origin 2000 中 的 R10000 处 理 器 ， 这 类 处 
理 器 能 使 用 指令 预 取 缓 冲 区 来 发 现 可 以 执行 的 不 相关 指令 。 指 令 以 程序 原 序 送 人 预 取 缓 冲 
K, 然后 变 序 地 从 指令 预 取 缓冲 区 中 取出 并 执行 ， 但 是 保证 指令 按 程序 原 序 从 预 取 缓冲 区 中 
撤除 。 控 作 的 产生 和 执行 甚至 可 以 根据 分 支 预测 变 序 地 越过 预 取 缓冲 区 中 尚未 确定 的 分 支 
点 ， 这 叫做 推测 执行 。 但 是 因为 分 支 终究 会 被 确定 ， 并 应 在 推测 执行 的 指令 之 前 被 撤除 ， 因 
此 在 分 支 确定 之 前 ， 推 测 执行 的 指令 的 效果 不 应 在 寄存 器 堆 或 外 部 存储 器 系统 中 反映 。 如 果 
分 支 预测 错误 ， 那 些 预 执行 的 效果 将 永 不 可 见 。 一 种 叫做 推测 读 的 技术 走 得 更 远 一 点 。 这 
里 ， 读 所 返回 的 值 甚至 在 其 正确 性 被 确定 之 前 就 已 被 使 用 了 ， 如 果 后 续 的 检查 确认 它们 是 不 
正确 的 ， 计 算 就 要 卷 回 以 便 重 新 发 出 读 操作 。 注 意 ， 不 能 以 这 种 方式 推测 写 人 操作 ， 因 为 写 
人 一 旦 被 其 他 处 理 器 所 见 ， 卷 回 并 恢复 原 值 将 是 非常 困难 的 。 因 此 ， 在 前 面 的 访问 正确 完成 
之 前 ， 写 人 的 值 不 能 为 其 他 处 理 器 或 外 部 存储 器 系统 环境 所 见 。 

不 少 现代 微 处 理 器 已 经 支持 所 有 这 些 技术 中 的 一 部 分 ， 例 如 MIPS R10000, HP PA-8000 
和 Intel Pentium Pro 等 。 然 而 ， 虽 然 这 些 技 术 日 趋 流行 ， 但 所 要 求 的 大 量 硬件 资源 和 高 复杂 
性 使 它们 在 隐藏 多 处 理 器 时 延 方面 的 成 功 还 不 显著 E 11 章 ) ， 而 且 并 不 是 所 有 的 处 理 器 
都 支持 这 些 技术 。 或 许 最 关键 的 是 这 些 技 术 对 处 理 器 有 用 ,但 它们 并 不 能 帮助 编译 器 完成 对 
于 优化 至 关 重 要 的 存储 器 操作 的 重新 排序 。 

另 一 种 克服 由 SC 所 造成 的 性 能 上 的 限制 的 完全 不 同 的 方法 是 改变 存储 同一 性 模型 本 身 ， 
即 ， 不 对 程序 员 保证 强 的 次 序 约束 ， 但 仍然 保持 足够 直观 有 用 的 语义 。 通 过 放松 次 序 约束 ， 
这 些 放松 的 同一 性 模型 允许 编译 器 在 将 访问 操作 发 给 硬件 之 前 ， 至 少 在 某 种 程度 上 对 其 重新 
排序 。 在 硬件 层次 ， 这 些 模型 不 仅 允 许 来 自 同一 进程 的 多 个 存储 器 访问 同时 处 于 未 完成 状 
态 ， 甚 至 允许 它们 变 序 结束 或 对 外 呈现 效果 ， 使 大 部 分 时 延 被 重 普 而 不 为 处 理 器 所 见 。 支 持 
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放松 的 模型 的 直觉 是 :SC 通常 太保 守 ， 在 大 多 数 情况 下 ， 它 所 保持 的 次 序 有 许多 对 于 满足 
程序 员 的 直觉 是 不 需要 的 。 我 们 可 以 在 文献 (Adve 1993; Gharachorloo 1995; Adve and Gharac- 
horloo 1996) 中 了 解放 松 的 存储 同一 性 模型 的 详细 情况 。 

请 考虑 图 9-3 所 示 的 简单 的 例子 。 左 边 是 SC 实现 所 必须 维持 的 次 序 ， 右 边 是 直觉 上 正 
确 的 程序 语义 所 必须 保持 的 次 序 。 后 者 要 少 得 多 。 例 如 ， 在 这 种 情况 下 ， 可 以 改变 P 对 变 
BA 和 B 的 写 操 作 而 不 影响 程序 观察 到 的 结果 ， 我 们 所 必须 保证 的 是 对 这 两 个 变量 的 写 应 
在 变量 flag 被 置 为 1 之 前 完成 。 同 样 ， 一旦 观察 到 flag 的 值 变 为 1，P, MERA ABA 
读 的 次 序 也 能 被 改变 。 尽管 做 了 这 些 排序 的 改变 ， 仍 能 获得 和 SC 执行 一 样 的 结果 。 另 一 方 
K, 虽然 对 flag 的 访问 也 是 简单 的 变量 访问 ,但 允许 改变 flag 与 任何 一 个 进程 中 入 和 B 
的 相对 次 序 的 模型 会 牺牲 直觉 语义 和 SC 结果 。 如 果 系 统 软件 或 硬件 能 自动 发 现 对 保持 SC 语 
义 起 关键 作用 的 程序 原 序 ， 并 通过 改变 其 他 的 次 序 获 得 更 高 的 性 能 那 真是 太 好 了 (Shasha 
and Snir 1998)。 但 对 于 一 般 的 程序 而 言 ， 这 个 问题 是 难以 处 理 的 (事实 上 是 无 法 确定 的 )， 
而 非 精确 的 解决 方法 通常 又 太保 守 而 没 多 大 用 处 。 


P, P2 Py P2 
A= 1: Chile (flag == 0); A= 1; ... = flag, 
sla u= A; B = 1; ... = flag, 

flag = 1; v= B; 
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a) 顺序 同一 性 所 保持 的 次 序 b) 正确 的 程序 语义 所 要 求 的 次 序 


图 93 放松 的 存储 同一 性 模型 背后 的 直觉 知识 。 图 中 的 箭头 指示 保持 的 次 序 。 图 中 a) 显示 了 
顺序 同一 性 模型 所 保持 的 次 序 。 图 中 b) 显示 了 “正确 ”或 “直觉 ”语义 所 需要 的 次 序 。 
黑体 字 表示 对 于 变量 flag 的 访问 对 于 次 序 是 重要 的 ， 并 且 事 实 上 被 用 来 协调 事件 同步 
一 个 放松 同一 性 模型 的 完整 解决 方案 包括 三 个 部 分 : 
1) 系统 规范 。 这 是 两 件 事情 的 明确 规范 : 第 一 ， 从 可 观察 的 意义 上 ， 系 统 保证 能 维持 
的 存储 器 操作 间 的 程序 原 序 ， 包 括 是 否 维持 写 人 的 原子 性 ; 第 二 ， 如 果 缺 省 是 保证 维持 所 有 
的 程序 原 序 ， 那 么 系统 对 程序 员 提 供 何 种 机 制 以便 在 需要 时 显 式 地 强迫 这 种 次 序 。 现 在 应 该 
很 清楚 ， 编 译 器 和 硬件 都 有 其 自己 的 系统 规范 ,但 是 我 们 关心 的 是 两 者 一 起 或 系统 整体 对 程 
序 员 提 供 的 规范 。 对 于 处 理 器 系统 结构 而 言 ， 它 所 输出 的 规范 控制 了 它 所 允许 的 变 序 以 及 它 
所 提供 的 保持 次 序 的 原 语 ， 通 常 称 其 为 处 理 的 存储 模型 。 
2) 程序 员 接 口 。 系 统 规范 本 身 是 一 个 同一 性 模型 。 程 序 员 可 以 利用 它 推断 程序 的 正确 
性 ， 插 入 适当 的 保持 次 序 的 机 制 。 但 是 ， 对 程序 员 来 说 ， 这 是 非常 低层 次 的 接口 ， 不 考虑 重 





O 实际 上 ， 有 可 能 进一步 弱化 正确 操作 所 要 求 的 条 件 。 例 如 ， 并 不 需要 在 对 flag 的 写 和 完成 之 前 结束 对 A 和 8 的 
写 人 ， 仅 需要 在 处 理 器 P 看 到 flag 的 值 变 为 1 之 前 完成 这 些 操作 。 事 实 上 ， 这 样 的 放松 模型 难以 用 硬件 实现 。 
因此 ， 这 种 更 为 放松 的 模型 仅 对 软件 实现 有 意义 ， 我 们 将 在 9.2 节 中 对 其 进行 讨论 。 
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新 排序 和 写 人 原子 性 ， 并 行程 序 设计 就 已 经 有 足够 的 挑战 性 ! 各 系统 规范 所 支持 的 重新 排序 
和 次 序 强制 的 机 制 是 不 同 的 ， 因 此 损害 了 可 移植 性 。 所 以 ， 程 序 员 希 望 的 是 一 种 编写 “ 安 
全 ”程序 的 方法 。 这 是 一 种 契约 ， 不 管 所 支持 的 系统 规范 允许 什么 样 的 缺 省 次 序 ; 如 果 程 序 
员 遵 循 某 种 高 层次 的 规则 或 提供 足够 的 程序 标注 ， 例 如 告诉 系统 图 9-3 中 的 flag 实际 上 用 
作 同 步 变量 ,那么 程序 运行 其 上 的 任何 系统 将 总 是 能 保证 顺序 同一 的 执行 。 程 序 员 的 责任 在 
于 遵循 规则 并 提供 标注 ， 幸 运 的 是 ， 这 不 牵涉 到 潜在 重 排序 层次 的 推论 。 系 统 的 责任 是 用 规 
则 和 标注 作为 约束 ， 保 持 顺序 局 一 性 的 形象 。 对 程序 设计 语言 来 说 ， 这 意味 着 它们 必须 支持 
所 需 的 标注 ， 提 供 直 观 的 编程 接口 。 

3) 变换 机 制 。 它 把 程序 员 的 标注 变换 成 系统 规范 提供 的 接口 (特别 是 次 序 保持 机 制 )， 
从 而 使 系统 能 完成 其 任务 。 

在 下 面 关 于 放松 的 同一 性 模型 的 讨论 中 ， 首 先 考 察 系统 ， 特 别 是 微 处 理 器 所 输出 的 不 同 
的 低层 次 的 规范 。9.1.2 节 讨 论 程 序 员 接 口 或 契约 以 及 程序 员 如 何 提供 所 需 的 标注 。9.1.3 
节 简 要 讨论 变换 机 制 。9.1.4 节 讨论 存储 同一 性 模型 方面 当前 的 实践 。 实 现 复杂 性 和 性 能 受 
益 的 细节 将 推迟 到 第 11 章 关 于 时 延 包容 机 制 时 讨论 。 


9.1.1 系统 规范 说 阴 


微 处 理 器 厂商 和 研究 人 员 已 经 建议 了 几 个 不 同 的 重新 排序 的 规范 ， 每 一 个 都 有 其 自己 的 
强制 次 序 的 机 制 。 这 些 规范 包括 全 序 存 储 (TSO) (Sindhu, Frailong，and Cekleov 1991; Sun 
Microsystems 1991) 、 偏 序 存 储 (PSO) (Sindhu, Frailong, and Cekleov 1991; Sun Microsystems 
1991) 、 来 自 Sun Spare V8 和 V9 的 放松 的 存储 器 次 序 (RMO) 规范 (Weaver and Germond 
1994); 在 文献 (Goodman 1989; Gharachorloo 1990) 中 描述 并 用 于 Intel 的 奔腾 处 理 器 的 处 理 器 
同一 性 (PC); 能 序 (WO) (Dubois, Scheurich, and Briggs 1986; Dubois and Scheurich 1990) ; 
释放 同一 性 (RC) (Gharachorloo 1990); Digital Alpha (Sites 1992) 和 IBM/Motorola PowerPC 
(May et al. 1994) 模型 。 当 然 ， 一 种 处 理 器 的 某 个 特定 实现 不 一 定 支 持 其 系统 规范 所 允许 的 
所 有 的 重 排序 。 系 统 规 范 定义 了 该 体系 结构 的 语义 接口 ， 即 程序 员 必 须 假 设 哪些 重 排序 可 能 
发 生 。 而 实现 决定 了 何 种 重 排序 实际 发 生 ， 可 以 获得 多 少 性 能 上 的 改善 。 

让 我 们 用 模型 所 允许 的 程序 原 序 的 放松 作为 模型 分 类 的 主要 因素 来 讨论 某 些 规范 或 同一 
性 模型 (Gharachorloo 1995)。 第 一 组 模型 ， 包 括 TSO 和 PC， 仅 允许 读 操 作 按 程序 原 序 旁 路 较 
早 的 未 完成 的 写 操作 ， 或 在 其 之 前 结束 〈 即 ， 允 许 写 一 读 次 序 被 改变 )。 下 一 组 ， 包 括 PSO， 
还 允许 写 操作 旁 路 前 面 的 写 操作 〈 即 写 - 写 重 排序 )。 最 后 一 组 ， 包 括 WO. RC, RMO, Al- 
pha 和 PowerPC， 更 允许 读 操作 或 写 操作 旁 路 前 面 的 读 操作 ( 即 允 许 读 和 写 访问 的 所 有 类 型 
的 重 排序 )。 一 个 读 - 修 改 - 写 (read-modify-write) 操作 被 当 作 读 和 写 两 者 处 理 ， 只 有 当 读 和 写 
两 者 均 能 相对 于 其 他 操作 改变 次 序 时 ， 才 能 改变 读 - 修 改 - 写 操作 与 其 他 操作 的 相对 次 序 。 在 
任何 情况 下 ， 我 们 假定 基本 的 高 速 缓存 一 致 性 ， 即 写 传播 和 写 串 行 化 ， 单 处 理 器 数据 和 控制 
依赖 性 在 各 个 进程 中 维护 。 在 大 多 数 情 况 下 ， 所 讨论 的 规范 是 受 处 理 器 的 体系 结构 本 身 即 硬 
件 接口 的 启发 ， 并 为 此 而 定义 的 。 所 有 这 些 也 适用 于 编译 器 ， 但 是 ， 由 于 复杂 的 编译 器 优化 
需要 改变 所 有 类 型 访问 的 次 序 的 能 力 ， 大 多 数 编译 器 并 不 支持 如 此 多 的 次 序 模型 。 事 实 上 ， 
在 程序 员 接口 层次 ， 除 了 最 后 一 组 模型 外 ， 所 有 其 他 组 模型 用 途 有 限 ， 因 为 它们 无 法 允许 许 
多 重要 的 编译 器 优化 。 
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1. 放松 写 对 读 的 程序 原 序 

这 一 类 模型 的 主要 动机 在 于 允许 硬件 隐藏 写 操 作 的 延迟 。 当 写 扑 空 仍然 在 写 缓冲 器 中 而 
未 被 其 他 处 理 器 看 见 时 ， 处 理 器 能 够 发 出 和 结束 在 其 高 速 缓存 中 命中 的 读 或 甚至 未 在 其 高 速 
缓存 中 命中 的 单个 读 。 我 们 将 在 11 章 中 看 到 ， 隐 藏 写 延 迟 有 重要 价值 ， 大 多 数 处 理 器 均 利 
用 这 一 放松 模型 的 优点 。 

这 类 模型 (如 TSO 和 PC) 在 多 数 情况 下 即使 不 用 任何 特殊 的 操作 ， 也 能 很 好 地 保持 程 
序 员 的 直觉 。 例 如 ， 事 件 同 步 的 惯用 做 法 ， 即 在 信号 变量 上 的 循环 测试 等 待 ， 无 须 修改 就 能 
工作 (如 图 9-4a 所 示 )。 这 是 因为 TSO 和 PC 模型 保持 了 写 的 次 序 ， 因 此 ， 在 系统 中 按 程 序 
原 序 排 在 前 面 的 所 有 写 操作 结束 之 前 ， 对 信号 变量 的 写 人 不 会 被 看 到 。 因 此 , :大 多 数 早 期 的 
多 处 理 器 支持 这 两 种 模型 之 一 ， 包 括 Sequent Balance, Encore Multimax, Vax-8800, SparcCenter 
1000/2000. SGI 4D/240, SGI Challenge 和 Pentium Pro， 操 作 系 统 这 样 的 复杂 程序 在 这 些 机 器 上 
的 移植 相对 容易 。 


Py P2 P, P2 
A= 1; while (Flag==0); A = 1; print B; 
Flag = 1; print A; B= 1 print A; 

a) b) 
Pi P2 P3 Py P2 
A= 1; while (A==0); while (B==0); A= 1; @ B = 1; (ii) 
Bei; print A; print B; (i) print A; (iv) 


c) d) 


图 9-4 比较 TSO、PC 和 SC 的 代码 序列 实例 。 对 于 代码 段 a) 和 b)，TSO 和 PC 产生 相同 的 结果 ; 对 于 代 
码 段 e)，PC 违 反 了 SC 语义 《TS0 仍 提供 SC 语义 ); 对 于 代码 段 d)，TSO 和 PC 均 违 反 了 SC 语义 


当然， 这 些 模型 的 语义 不 是 SC， 所 以 在 某 些 情况 下 表现 出 区 别 。 图 9-4 给 出 了 4 个 代码 
段 的 例子 ， 其 中 的 3 个 我 们 在 前 面 已 看 到 过 。 假 定 这 些 例子 中 所 有 变量 的 初 值 为 0。 代码 段 
a) 是 对 信号 变量 flag 的 循环 测试 等 待 的 例子 。 在 代码 段 b) 中 ，SC 保证 如 果 B 的 打印 值 
为 1， 则 A 的 打印 值 也 一 定 为 1， 因 为 P 对 A 和 8B 的 写 入 次 序 不 能 改变 。 同 理 ，TSO 和 PC 
对 于 这 个 代码 段 也 有 相同 的 语义 。 对 于 代码 段 o), RA TSO 提供 SC 语义， 防止 A 的 打印 值 
成 为 0, 但 PC 模型 不 行 。 原 因 是 PC 并 不 保证 写 人 的 原子 性 。 最 后 ， 对 于 代码 段 d) ， 在 SC 
条 件 下 操作 的 任何 重合 不 可 能 产生 A A B 的 打印 值 均 为 0 的 情况 。 其 原因 如 下 : 程序 原 序 意 
味 着 在 重 秋 全 序 条 件 下 的 优先 关系 是 (CI) 一 (i) 和 (前) 一 《jv )。 如 果 我 们 能 观察 到 
B =0， 它 意味 着 (ii) 一 〈 计 )， 它 进而 意味 着 (i) > Civ). 但 是 (i ) > Civ) 意味 
着 A 将 被 打印 为 1。 类 似 地 ，A = 0 的 结果 意味 着 B = 1。 一 个 被 称 为 Dekker 算法 (流行 的 全 
软件 的 互 斥 算法 ) 能 实现 无 硬件 支持 条 件 下 的 原子 性 的 读 -修改 - 写 操作 (Tanenbaum 和 
Woodhull 1997) ， 它 依赖 于 本 例 中 A 和 B 不 会 被 读 出 为 0 的 性 质 。SC 提供 这 个 性 质 ， 可 以 被 
看 作 是 直觉 的 同一 性 模型 。 而 TSO 和 PC 都 不 能 保证 这 一 点 ， 因 为 它们 都 允许 对 应 于 打印 
(print) 的 读 操作 在 前 面 的 写 的 效果 显现 之 前 结束 。 

为 了 能 在 需要 时 保证 SC 语义 〈 例 如 ， 需 要 将 一 个 根据 SC 条 件 编写 的 程序 移植 到 TSO 
和 PC 系统 ) ， 我 们 需要 强制 两 种 额外 次 序 的 机 制 : 1) 保证 读 操作 的 结束 不 会 早 于 按 程序 原 
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序 在 它 前 面 的 写 (用 于 TSO 和 PC 两 者 ); 2) 保证 写 操作 相对 于 读 操作 的 原子 性 〈 仅 用 于 
PC)。 对 于 前 者 ， 不 同 的 处 理 右 体系 结构 提供 不 同 的 解决 方案 。 例 如 Sun Spare V9 规范 
(Weaver and Germond 1994) 提供 了 不 同 风格 的 存储 器 栅 障 (MEMBAR) 或 隔 栅 (fence〉 指 令 
来 保证 任何 所 希望 的 次 序 。 我 们 可 以 在 读 之 前 插入 一 条 具有 write-to-read 次 序 风格 的 MEM- 
BAR。 这 条 MEMBAR 作用 是 迫使 按 程序 原 序 排 在 它 后 面 的 任何 读 指令 必须 等 待 MEMBAR 之 
前 的 所 有 写 指 令 都 完成 后 才能 发 出 。 在 那些 不 提供 存储 器 栅 障 指令 的 体系 结构 中 ， 可 以 通过 
用 原子 性 的 read-modify-write 操作 序列 代替 原始 的 读 指令 实现 同样 的 效果 。 一 条 read-modify- 
write 指令 被 当 作 读 和 写 两 种 操作 处 理 ， 所 以 在 本 模型 中 不 能 改变 它们 相对 于 先前 的 写 的 次 
序 。 当 然 ，read-modify-write 指令 所 写 人 的 值 必须 与 读 出 的 值 相同 以 保证 正确 性 。 在 支持 PC 模 
型 的 机 器 中 ,用 一 条 read-modify-write 代 鞭 一 条 读 指令 也 保证 了 在 该 读 指 令 处 的 写 人 原子 性 。 这 
一 点 成 立 的 细节 比较 费解 ， 感 兴趣 的 读者 可 以 参阅 其 他 文献 (Adve et al.1993)。 

2. 放松 写 对 读 、 写 对 写 的 程序 原 序 

如 果 要 允许 一 个 写 操作 旁 路 前 面 的 写 〈 对 不 同 地 址 的 写 ) ， 那 么 我 们 就 应 允许 合并 写 组 
冲 器 ， 甚 至 允许 在 按 程序 原 序 前 面 的 写 操作 完成 之 前 就 撤消 后 续 的 写 缓冲 。 所 以 ， 它 允许 多 
个 写 扑 空 完 全 重合 并 且 以 非 程序 原 序 对 外 显现 。 其 动机 是 进一步 降低 写 延 迟 对 处 理 器 阻塞 时 
间 的 影响 ， 并 通过 使 新 的 数据 值 尽 早 为 其 他 处 理 器 所 见 而 改善 处 理 器 间 通 信 的 效率 。Sun 
Spare 的 PSO #22 (Sindhu, Frailong, and Cekleov 1991; Sun Microsystems 1991) 是 惟一 的 这 类 
模型 。 与 TS0 类 似 ， 它 保证 写 原 子 性 。 

不 幸 的 是 ， 改 变 写 的 次 序 会 在 很 大 程度 上 违反 我 们 直觉 的 SC 语义 。 甚 至 用 普通 变量 作 
为 事件 同步 的 标记 (图 9-4a) 也 不 再 保证 正确 ， 因 为 对 flag 的 写 可 能 在 对 A 的 写 之 前 就 为 
其 他 处 理 器 所 见 。 所 以 ， 必 须 能 显著 改善 性 能 ， 该 模型 才 有 吸引 力 。 

比 TSO 增加 的 惟一 的 指令 是 按 进 程 的 程序 强制 写 对 写 (write-to-write) 次 序 的 指令 ,在 
Sun Spare V9 中 ， 这 使 用 具有 write-to-write 风格 的 MEMBAR 指令 完成 。( 较 早 的 Spare V8 规范 
提供 了 称 作 写 栅 障 或 STBAR 的 特 浆 指 令 来 实现 该 效果 。) 例如 ， 为 了 实现 直觉 语义 ， 我 们 可 
以 在 和 A 和 flag 的 写 人 之 间 插 入 这 样 一 条 指令 。 

3. 放松 所 有 的 程序 原 序 : 弱 序 和 释放 同一 性 

这 最 后 一 类 规范 不 缺 省 地 保证 任何 程序 原 序 (当然 ， 除 了 进程 中 的 数据 和 控制 依赖 性 之 
外 )。 其 优点 是 多 个 未 完成 的 读 请 求 能 同时 存在 ， 它 们 可 以 被 依 程序 原 序 后 续 的 写 旁 路 ， 其 
本 身 也 可 以 乱 序 结束 ， 因 而 允许 我 们 隐藏 读 时 延 。 动 态 调度 的 处 理 器 的 实现 使 其 能 旁 路 对 其 
他 存储 器 的 读 扑 空 而 继续 执行 ， 因 而 这 类 模型 与 它们 特别 匹配 。 这 类 模型 也 是 允许 编译 器 优 
化 所 做 的 许多 关键 变 序 和 访问 消减 的 惟一 模型 。 正 因为 这 些 编译 器 优化 对 于 节点 性 能 的 重要 
性 以 及 它们 对 程序 员 的 透明 性 ， 这 些 模型 事实 上 是 多 处 理 器 的 惟一 合理 的 高 性 能 存储 器 模型 
(除非 编译 器 对 潜在 的 非 一 致 性 的 分 析 技 术 有 显著 的 进步 )。 几 个 著名 的 这 类 模型 包括 弱 序 
(WO) (Dubois, Scheurich, and Briggs 1986; Dubois and Scheurich 1990) 、 释 放 同 一 性 (RC) 
(Gharachorloo 1990), Digital Alpha (Sites 1992), Spare V9 的 放松 的 存储 器 次 序 (RMO) 
(Weaver and Germond 1994) 和 IBM PowerPC (May et al. 1994; Corella, Stone, and Barton 1993), 
WO 是 基本 的 模型 ，RC 是 斯 坦 福 大 学 的 DASH 原型 机 (Lenoski et al. 1993) 所 支持 的 WO 的 
扩展 ， 最 后 三 种 由 商品 化 体系 结构 所 支持 。 将 分 别 讨论 这 些 模型 ， 了 解 它们 如 何 解 决 在 所 有 
这 些 重 排序 的 条 件 下 提供 直 党 语义 的 问题 ， 例 如 ， 它 们 如 何 处 理 标记 同步 的 实例 。 
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BE FRE 〈 也 称 为 弱 同 一 性 模型 ) 背后 的 动机 相当 简单 。 大 多 数 并 行程 序 在 需要 
时 使 用 同步 操作 来 协调 对 数据 的 访问 。 在 同步 操作 之 间 ， 它 们 并 不 依赖 于 访问 次 序 的 保持 。 
图 9-5 给 出 两 个 例子 ， 左 边 的 a) 使 用 加 锁 -解锁 Clock-unlock) 对 说 明 一 个 更 新 链表 表 头 的 
临界 区 (Adve and Gharachorloo 1996)。 右 边 的 b) 使 用 标记 flag 来 控制 对 于 生产 者 -消费 者 
交互 所 涉及 的 变量 的 访问 (例如 A 和 DD 由 P 产生 ,被 P, 消费 )。 该 例 的 关键 在 于 把 对 flag 
变量 的 访问 当 作 同 步 操 作 ， 因 为 这 正 是 这 些 变 量 的 作用 。 如 果 我 们 这 样 考虑 ， 那 么 在 上 述 两 
种 情况 下 ， 只 要 同步 操作 的 相对 次 序 及 它们 相对 于 数据 访问 的 次 序 不 改变 的 话 ， 在 同步 操作 
或 访问 之 间 ( 即 a) 中 的 临界 区 域 和 b) 中 while 循环 之 后 的 4 条 语句 ) 发 生 的 任何 程序 重新 
排序 都 不 会 违反 直觉 语义 。 基 于 这 一 事实 ， 弱 序 的 缺 省 是 放松 所 有 非 同步 存储 器 操作 的 程序 
原 序 ， 并 且 仅 在 系统 标明 的 同步 操作 处 保证 程序 的 次 序 。 通 过 增加 同步 操作 或 把 某 些 存储 器 操 
作 标 为 同步 可 以 强制 更 强 的 次 序 。 在 9.1.2 节 我 们 将 讨论 如 何 把 适当 的 操作 标记 为 同步 操作 。 





P1,P2, , ,, ， Pr Pi P3 
-à TOP: while (£lag2==0) ; TOP: while (flag1==0) 
Lock (TaskQ) A= 1; x = A; 
newTask—next = Head; u = B; y = D; 
if (Head != NULL) ves C; B= 3; 
Head—>prev = newTask; D= B* C; C = / B; 
Head = newTask; flag2 = 0; flagi = 0; 
UnLock (TaskQ) flagi = 1; flag2 = 1; 
goto TOP; goto TOP; 
a) b) 


图 95 协调 普通 共享 变量 访问 的 同步 操作 的 使 用 。 同 步 可 以 通过 使 用 显 式 

的 加 锁 、 解 锁 和 栅 障 操作 或 点 对 点 事件 的 标记 变量 (flag ) 来 实现 
图 9-6 的 左 侧 说 明了 弱 序 所 允许 的 存储 器 操作 重 排序 。 具 有 一 组 read/write 的 各 个 块 代表 
来 自 处 理 器 的 一 段 连续 的 非 同步 存储 器 操作 。 同 步 操作 单独 说 明 。 保 证 WO 系统 的 充分 条 件 
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BF 释放 同一 性 
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图 9-6 弱 序 和 释放 同一 性 模型 的 比较 。 按 程序 原 序 ， 块 1 中 的 操作 先 于 第 一 个 同步 操作 ， 即 获取 (ac- 
quire) 操作 ; 块 2 位 于 两 个 同步 操作 之 间 ;， 块 3 跟随 第 二 个 同步 操作 ， 即 释放 (release) 操作 
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如 下 所 述 。 在 发 出 一 个 同步 操作 之 前 ， 处 理 器 等 待 依 程序 原 序 所 有 先导 操作 ( 读 和 写 ) 的 结 
束 。 同 样 ， 跟 随同 步 操 作 的 存储 器 访问 要 等 待 同步 操作 结束 才能 发 出 。 在 同步 操作 之 间 ， 可 
以 任意 改变 未 标记 为 同步 的 读 、 写 、 读 -修改 - 写 操 作 的 次 序 。 在 许多 并 行程 序 中 ， 同 步 操作 
并 不 频繁 ，W0 能 为 硬件 和 编译 器 提供 更 大 的 重 排序 的 自由 度 。 

释放 同一 性 ”释放 同一 性 认为 弱 序 走 得 还 不 够 远 。 它 通过 区 分 同步 操作 的 类 型 并 发 扎 它 
们 的 语义 扩展 弱 序 模型 。 特 别 是 ， 它 将 同步 操作 分 为 获取 和 释放 。 获 取 是 一 个 读 操 作 ( 它 也 
可 以 是 一 个 读 - 修 改 - 写 操作 ) ， 执 行 获取 操作 获得 一 组 操作 或 变量 的 访问 权 。 获 取 操 作 的 例 
子 包括 图 9-5a 中 的 Lock (TaskQ) 操作 和 b) 中 while 语句 的 条 件 部 分 对 flag 变量 的 访问 。 
释放 是 一 个 写 操作 (或 一 个 读 - 修改 - 写 操作 )， 它 授予 男 一 个 处 理 器 对 某 些 操作 或 变量 的 访 
问 权 ， 其 例子 包括 图 9-5a 中 的 UnLock (Tasko) 操作 和 b) 中 把 flag 变量 置 为 1 的 语句 。 

图 9-6 显示 ， 我 们 可 以 利用 获取 和 释放 操作 的 分 离 进 一 步 放 松 对 次 序 的 约束 。 获 取 的 目 
的 是 推迟 跟随 获取 操作 之 后 的 存储 器 访问 直至 获取 结束 。 它 与 按 程 序 原 序 在 它 前 面 的 访问 
( 块 1 中 的 访问 ) 毫 无 关系 ， 所 以 获取 的 发 出 或 结束 不 必 等 待 那 些 访问 的 结束 ， 也 就 是 说 ， 
获取 本 身 相 对 于 先导 的 访问 的 次 序 可 以 被 改变 。 与 此 类 似 ， 释 放 操 作 的 目的 是 允许 访问 依 程 
序 原 序 在 它 前 面 被 修改 的 数据 的 值 。 它 与 按 程 序 原 序 跟随 它 的 访问 〈 块 3 中 的 访问 ) 没有 关 
系 ， 所 以 那些 访问 不 必 推 迟到 释放 操作 的 结束 。 但 是 ， 在 释放 为 其 他 处 理 器 可 见 之 前 ， 必 须 
等 待 块 1 中 的 访问 结束 。( 因 为 它们 先 于 释放 操作 ， 而 且 我 们 无 法 精确 地 了 解 哪个 变量 与 释 
放 相关 或 被 释放 所 “保护 ”" 。〉 同样 ， 我 们 必须 等 待 获取 结束 才能 执行 块 3 中 的 操作 。 除 了 
这 些 约 东 以 外 ， 块 1、 块 2、 块 3 中 的 存储 器 操作 可 以 重 亚 ,改变 次 序 。 所 以 ， 提 供 RC 接口 
的 充分 条 件 是 : 在 标 为 释放 的 操作 发 出 之 前 ， 处 理 器 必须 等 待 按 程序 原 序 所 有 先导 的 操作 结 
R: 程序 原 序 跟随 获取 的 所 有 操作 在 该 获取 结束 前 不 能 发 出 。 当 然 ， 这 些 是 充分 条 件 ， 当 我 
们 讨论 其 他 依赖 于 放松 的 同一 性 模型 的 共享 地 址 空间 的 方案 ， 寻 求 好 的 性 能 时 ， 将 探讨 更 加 
大 胆 的 实现 。 注 意 ， 除 非 存 在 足够 的 同步 ,第 5 章 所 定义 的 一 致 性 的 写 传播 短语 和 写 串 行 化 
均 无 法 保证 ， 我 们 将 在 9.3.3 节 再 对 其 讨论 。 

Digital Alpha, Sparc V9 RMO 和 IBM PowerPC 的 存储 器 模型 ”尽管 WO 和 RC 模型 的 规 
范 是 基于 强制 次 序 的 加 标 同 步 操 作 ， 但 这 些 操作 并 不 精确 对 应 必须 采用 的 指令 。-- 些 商品 化 
的 微 处 理 器 的 存储 器 模型 其 缺 省 并 不 确保 存储 器 和 同步 操作 的 次 序 ， 但 提供 用 于 强制 次 序 的 
特殊 硬件 指令 ， 这 些 特 殊 指令 是 存储器 柚 障 和 隔 栅 。 为 了 用 这 类 微 处 理 器 实现 WO 和 RC 模 
型 ，WO 和 RC 程序 标记 为 同步 的 操作 (获取 或 者 释放 ) 引导 编译 器 插 和 人 适当 的 特殊 指令 ， 
或 者 由 程序 员 直 接 插入 这 些 指令 。 

例如 ，Alpha 体系 结构 (Sites 1992) 支持 两 类 隔 栅 指 令 ， 存储 器 栅 障 (MB) 和 存储 器 写 
AJB (WMB)。MB 栅 障 与 WO 中 的 同步 操作 类 似 ， 它 在 发 出 任何 新 的 访问 之 前 等 待 所 有 
前 面 已 经 发 出 的 存储 器 访问 结束 。 它 与 Spare 的 MEMBAR 指令 的 风格 不 同 。WMB 仅仅 在 写 
之 间 强 制程 序 原 序 ( 它 与 PSO 的 STBAR 类 似 )。 所 以 ， 在 WMB 之 后 发 出 的 读 仍然 能 够 旁 路 
一 个 在 WMB 之 前 发 出 的 写 访问 〔 即 在 其 之 前 结束 )， 但 是 ， 在 WM 之 后 发 出 的 写 不 能 这 样 
做 。Spare V9 的 放松 的 存储 器 次 序 (RMO) (Weaver and Gemond 1994) 提供 一 种 MEMBAR 的 





号 ”可 以 利用 释放 允许 对 先导 的 获取 所 控制 的 操作 之 外 〈 之 前 ) 的 操作 结果 的 访问 。 在 硬件 层次 ， 很 难 发 现 变量 和 
同步 访问 之 间 的 精确 的 结合 关系 。 但 是 ， 我 们 将 在 9.3 节 中 看 到 ， 放松 模型 的 软件 实现 确实 能 发 据 这 种 优化 。 
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隔山 指令 ， 如 前 所 述 ， 该 指令 带 有 4 个 风格 位 。 每 一 位 表示 在 先导 和 尾随 的 存 - 取 (load- 
store) 操作 之 间 所 强制 的 次 序 的 一 种 特殊 类 型 (4 种 可 能 的 次 序 是 读 对 读 、 读 对 写 、 写 对 读 、 
写 对 写 )。 这 些 位 的 设置 可 以 组 合 ， 提 供 多 种 多 样 的 次 序 选 择 。 最 后 ，IBM PowerPC 的 模型 
(May et al. 1994; Corella, Stone, and Barton 1993) 仅 提 供与 Alpha 的 MB 隔 栅 指 令 等 价 的 单一 
的 隔 栅 指令 SYNC。 它 的 写 人 不 是 像 处 理 器 同一 性 (PC) 模型 中 那样 是 原子 性 的 ， 这 是 它 与 
Alpha 和 RMO 模型 的 区 别 。PowerPC 面 对 的 模型 是 WO， 它 是 通过 在 每 个 同步 操作 的 前 后 放 
E SYNC 指令 实现 的 。 在 习题 9，13 中 我 们 将 看 到 如 何 用 这 些 原 语 合成 不 同 的 模型 。 

表 9-1 (Adve and Gharachorloo 1996) 归纳 了 我 们 刚刚 讨论 的 这 几 种 著名 的 规范 >。 它们 的 
性 能 不 同 ， 需 要 不 同 的 强制 次 序 的 标记 方式 。 值 得 注意 的 是 ， 如 果 我 们 定义 程序 原 序 是 程序 
员 所 见 的 次 序 ， 那么 只 有 那些 允许 在 代码 段 内 改变 读 和 写 两 者 的 操作 次 序 的 模型 (WO、 
RC, Alpha, RMO 和 PowerPC) 才能 带 来 许多 重要 的 编译 器 优化 所 需 的 灵活 性 。 当 编译 器 分 
析 技 术 取得 重大 进展 ， 能 决定 特定 的 同一 性 模型 所 允许 的 可 能 的 重 排序 时 ， 这 种 情况 或 许 会 
改变 。 推 论 可 允许 的 变 序 并 插入 强制 次 序 的 指令 的 困难 性 是 显而易见 的 ， 规范 的 可 移植 性 问 
题 同样 困难 。 例 如 ， 具 有 是 够 的 存储 器 栅 障 ， 能 在 TSO 系统 中 “正确 ”工作 (产生 直觉 的 
或 顺序 同一 的 执行 ) 的 程序 不 一 定 能 在 RMO 系统 “正确 ”工作 : 它 需 要 更 多 的 特殊 的 操作 。 
所 以 让 我 们 考察 对 程序 员 更 方便 、 更 利于 移植 到 不 同系 统 的 更 高 层次 的 接口 ， 安 全 地 开发 各 
种 系统 所 能 提供 的 性 能 优势 和 变 序 。 

表 9-1 各 种 系统 规范 的 特征 
模型 写 对 读 变 序 写 对 写 变 序 。 读 对 读 / 写 的 变 序 ”对 它 者 先前 写 的 读 对 自己 先前 写 的 读 保持 次 序 的 操作 

















SC 是 

TSO 是 是 MEMBAR, RMW 
PC 是 是 是 MEMBAR, RMW 
PSC 是 是 是 STBAR, RMW 
WO 是 是 是 是 SYNC 

RC 是 是 是 是 是 REL, ACQ, RMW 
RMO 是 是 是 是 various MEMBARs 
Alpha 是 是 是 是 MB，WMB 
PowerPC 是 是 是 是 是 SYNC 





注 : 在 某 列 中 的 “是 ”表明 对 应 的 次 序 可 以 被 对 应 系统 模型 所 违反 。“ 对 其 他 处 理 器 先前 写 的 读 ” 意 味 着 允 诗 处 理 
器 在 写 操作 全 局 结束 之 前 就 可 以 观察 到 该 写 操作 的 结果 。 


9.1.2 程序 员 接 口 


程序 员 接口 受到 WO 和 RC 模型 启发 ， 它 们 假设 在 同步 操作 之 间 完 全 不 必 保 持 程序 原 
序 。 其 概念 是 程序 应 保证 所 有 的 同步 操作 ， 包 括 使 用 标记 的 点 到 点 事件 同步 都 被 明确 地 加 以 
标记 或 指示 ， 这 是 程序 员 的 任务 。 编 译 器 和 运行 时 库 根据 系统 规范 ， 将 这 些 同步 操作 翻译 成 





咏 ” 表 中 “对 自己 先前 写 的 该 ”这 一 放松 与 程序 原 序 和 写 人 原子 性 两 者 有 关 。 这 允许 处 理 器 在 它 自 己 先前 的 写 操作 
尚未 与 其 他 对 同一 位 置 的 写 操作 排 好 措 序 时 《在 写 结束 之 前 )， 读 出 写 人 的 内 容 。 依 赖 这 种 放松 的 一 种 常用 的 硬 
件 优 化 手段 是 让 处 理 器 从 它 自 己 的 写 缓 冲 器 里 读 变量 的 值 。 这 一 放松 玫 乎 能 用 于 所 有 的 模型 而 不 志 反 它们 的 语 
义 。 只 要 保持 程序 原 序 和 源 子 性 的 需求 ， 它 甚至 能 用 于 SC 模型 。 
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适当 的 保持 次 序 的 操作 (存储 器 栅 障 或 隔 栅 )。 这 样 ， 系 统 (编译 器 加 上 硬件 ) 保证 顺序 同 
一 的 执行 ， 尽 管 它 可 能 在 同步 操作 之 间 以 它 所 希望 的 方式 改变 操作 的 次 序 (但 不 违反 进程 内 
对 访问 位 置 的 依赖 性 关系 )， 这 是 系统 的 任务 。 这 种 分 工 的 约定 给 予 编译 器 充分 的 灵活 性 ， 
使 它 能 在 同步 点 之 间接 其 愿望 改变 操作 次 序 。 它 也 允许 处 理 器 在 其 存储 器 模型 或 其 实现 允许 
的 情况 下 ， 进 行 尽 可 能 多 需要 的 变 序 而 不 影响 其 可 移植 性 : 如 果 能 保证 SC 在 允许 所 有 重 排 
序 的 较 弱 模型 下 执行 ， 当 然 能 保证 SC 在 允许 较 少 重 排序 的 系统 上 的 执行 。 在 程序 员 接口 呈 
现 的 同一 性 模型 至 少 应 像 硬件 接口 一 样 弱 (放松 )， 但 不 一 定 是 相同 的 。 

标记 了 所 有 同步 事件 的 程序 叫做 同步 的 程序 。 人 们 开发 了 说 明 同 步 程序 的 形式 化 模型 ， 
即 受 弱 序 影响 的 无 数据 竞争 的 (data race-free) 模型 (Adve and Hill 1990a) 和 受 释 放 同 一 性 
(Gharachorloo et al. 1990) 影响 的 适当 加 标 (prorerly labeled) 模型 (Gharachorloo et al. 1992). 
感 兴趣 的 读者 可 以 从 这 些 参考 文献 中 获得 更 多 的 细节 信息 〈 模 型 间 的 区 别 是 不 大 的 )。 程 序 
员 必 然 提出 的 问题 是 哪些 操作 应 标记 为 同步 操作 ? 当然 ， 如 果 使 用 显 式 的 、 系 统 说 明 的 编程 
原 语 如 加 锁 和 栅 障 ， 这 个 任务 一 般 已 经 完成 了 。 这 些 原 语 也 能 容易 地 被 区 分 为 获取 或 释放 ， 
以 便 使 SC 这 样 的 存储 器 模型 能 利用 这 种 区 分 。 例 如 ， 加 锁 是 获取 ， 解 锁 是 释放 ; 栅 障 包含 
这 两 者 ， 因 为 到 达 栅 障 是 一 个 释放 〈 表 明 先 异 的 访问 的 结束 )， 而 离开 栅 障 是 一 个 获取 R 
得 对 新 一 组 访问 的 许可 )。 真 正 的 问题 是 怎样 才能 决定 应 把 哪些 作用 于 普通 变量 (如 flag 变 
量 ) 的 存储 器 操作 标记 为 同步 操作 。 通 常 ， 程 序 员 容易 识别 这 些 操作 ， 因 为 他 们 知道 什么 时 
候 使 用 这 种 事件 同步 。 下 列 定义 描述 了 在 其 他 办 法 无 效 时 识别 同步 事件 的 一 种 更 为 通用 的 办 法 。 

。 冲突 操作 。 如 果 来 自 两 个 进程 的 存储 器 操作 访问 同一 存储 器 单元 ， 而 且 至 少 其 中 之 
一 是 号 ， 则 我 们 说 它们 是 冲突 的 。 

。 竞争 操作 。 这 是 冲突 操作 的 子 集 。 如 果 两 个 冲突 存储 操作 (来 自 不 同 进程 ) 以 顺序 
同一 的 全 序 (执行) 相 邻 ， 即 它们 相互 紧邻 ， 其 间 没 有 插入 任何 对 共享 数据 的 存储 器 操作 ， 
则 它们 是 竞争 的 。 

。 同步 的 程序 。 如 果 一 个 并 行程 序 中 所 有 竞争 的 存储 器 操作 都 被 标记 为 同步 操作 (或 
许 将 读 操 作 标记 为 获取 ， 写 操作 标记 为 释放 ， 从 而 区 分 获取 和 释放 )， 则 它 是 同步 的 。 

“竞争 ”意味 着 在 任何 可 能 的 SC 交错 条 件 下 的 竞争 ， 这 一 事实 是 编程 接口 的 一 个 重要 方 
面 。 尽 管 系统 使 用 一 个 放松 的 同一 性 模型 ， 但 推论 哪里 需要 标记 这 件 事 本 身 却 可 以 在 假定 直 
觉 的 、SC 执行 模型 的 条 件 下 进行 ， 这 样 就 使 程序 员 不 必 直 接 就 重 排序 进行 推论 。 当 然 ， 如 
果 编 译 器 能 自动 决定 冲突 或 竞争 的 操作 ， 程 序 员 的 任务 会 简单 得 多 。 但 是 ， 这 个 问题 与 在 同 
一 性 模型 下 决定 可 能 的 重 排序 一 样 困难 ， 因 为 目前 已 知 的 分 析 技 术 运行 代价 高 而 且 保守 
(Shasha and Snir 1988); Krishnamurthy and Yelik 1994, 1995), 任务 几 平 总 是 留 给 了 程序 员 。 

现在 来 考察 图 9-7， 它 重复 了 图 9-3 中 的 例子 。 根 据 前 面 的 定义 ， 对 变量 flag 的 访问 是 
竞争 操作 。 它 真正 的 含义 是 ， 在 多 处 理 器 系统 中 ， 它 们 可 能 在 各 自 的 处 理 器 中 同时 执行 ， 彼 
此 没有 次 序 ， 这 样 我 们 就 无 法 保证 哪 一 个 执行 首先 结束 。 所 以 ， 它 们 也 构成 了 数据 竞争 。 与 
此 相对 照 ，P 和 PB 对 变量 A( 以 及 对 B ) 的 访问 是 冲突 操作 ,但 它们 被 SC 交错 分 隔 而 决定 
次 序 ，SC 交错 是 由 P 对 变量 flag 插入 的 写 和 P, 对 flag 对 应 的 读 形成 的 。 因 此 对 和 和 8 
的 访问 不 是 竞争 访问 ， 不 必 将 它们 标记 为 同步 操作 。 

让 我 们 以 稍微 形式 化 一 点 方法 来 说 明 这 个 问题 。 给 定 一 个 特定 的 SC 执行 次 序 ， 发 生 了 
(来 自任 何 进程 ) 对 某 个 单元 的 冲突 操作 的 次 序 是 冲突 次 序 。 此 外 ， 各 个 进程 具有 程序 原 序 。 


PVE BHR DK P 503 





图 9-7 显示 了 我 们 的 代码 段 的 范例 执行 ， 其 中 的 弧 对 应 了 程序 原 序 和 冲突 次 序 。 如 果 在 任何 
SC 执行 (交错 ) 情况 下 ， 在 两 次 访问 之 间 总 是 存在 其 他 访问 的 链 ， 而 链 中 至 少 有 一 段 链接 
Fe FA RE FP RP AS TR, AB AKT ALE ES). AW, ENTREE 
竞争 的 。 完 全 形式 化 的 定义 可 在 文献 (Charachorloo 1995) 中 得 到 。 


Py P2 
A= 1; 
Ts 
B = 1; ... = flag; 
yr J po P2 循环 等 待 flag 
flag = 1; ————... = flag; 
co t po 
.. = flag; P 、 
| po > 2 最 终 读 出 flag = 1 
us A; 
į Pe 
v= B 


图 9-7 说 明 程序 和 冲突 次 序 的 代码 序列 的 例子 。 标 记 了 “po” 的 弧 线 显 示 了 程序 的 次 序 ， 标 记 了 
“eo ”的 弧 线 显示 了 冲突 次 序 。 注 意 , 在 P 对 A 的 写 和 也 对 AA 的 读 之 间 是 由 程序 原 序 和 冲突 
次 序 组 成 的 访问 链 。 这 对 于 程序 的 所 有 SC 执行 都 是 成 立 的 。 这 样 的 包括 至 少 一 个 程序 原 序 弧 
的 链 意味 着 访问 是 非 竞争 的 。 而 对 于 变量 flag 的 访问 不 是 这 样 的 链 ， 因 为 在 访问 之 间 仅 有 冲 
突 次 序 弧 。 黑 体 字 指出 对 变量 flag 的 访问 对 于 排序 是 重要 的 ， 而 且 事实 上 也 被 用 来 协调 事件 同步 


当然 ， 同 步 程 序 的 定义 允许 程序 员 超 出 必须 保守 地 标记 更 多 的 同步 操作 而 不 牺牲 正确 
性 。 在 极端 情况 下 ， 把 所 有 的 存储 器 操作 标 为 同步 操作 总 是 能 产生 同步 的 程序 。 当 然 ， 这 种 
极端 情况 使 我 们 无 法 利用 系统 提供 的 对 非 同 步 操作 的 重 排序 去 获得 性 能 的 改善 ， 由 于 插入 的 
保持 次 序 的 指令 带 来 开销 , 所 以 在 大 多 数 系统 中 ， 这 种 极端 情况 会 导致 比 直截了当 的 SC 实 
现 还 要 坏 的 性 能 。 所 以 ， 我 们 的 目标 是 仅仅 把 竞争 操作 标记 为 同步 操作 。 

在 某 些 特殊 的 场合 ， 我 们 可 能 希望 允许 程序 包含 数据 竞争 ， 因 而 决定 不 把 某 些 竞 争 访问 
标注 为 同步 操作 。 这 样 ， 我 们 不 再 保证 SC 语义， 但 我 们 出 自 对 应 用 的 了 和解， 知道 竞争 操作 
并 没有 被 用 作 同 步 操作 ， 而 且 在 某 些 代 码 段 中 ， 我 们 不 需要 强 的 次 序 保 证 。 第 2 章 中 有 这 样 
的 一 个 例子 ， 在 该 例 中 我 们 使 用 异步 的 方程 求解 器 而 不 是 红 - 黑 次 序 。 在 概 障 和 格 扫 描 之 间 
没有 同步 ， 所 以 在 一 次 扫描 中 ， 对 一 个 分 割 的 边界 元 素 的 读 和 写 是 竞争 访问 。 如 果 它 们 未 被 
标注 ， 该 程序 在 允许 变 序 的 系统 中 不 再 满足 SC 语义 。 但 这 没关系 ， 因 为 求解 器 重复 扫描 直 
至 收敛 。 即 使 进程 在 一 次 扫描 中 有 时 读 到 旧 值 ， 有 时 读 到 新 值 ， 而 且 不 可 预料 ， 它 们 将 在 下 
一 次 扫描 (在 通过 栅 障 之 后 ) 中 会 读 到 更 新 过 的 值 并 向 收敛 前 进 。 如 果 标 注 了 竞争 访问 ， 将 
会 牺 竹 访问 变 序 和 性 能 。 到 达 收 敛 的 扫描 次 数 可 能 稍微 少 一 点 ， 但 各 次 扫描 的 代价 却 更 大 了 。 

关于 编程 接口 的 最 后 一 个 问题 是 程序 员 如 何 说 明 用 于 竞争 访问 的 标记 。 在 很 多 情况 下 ， 
这 是 相当 有 特点 的 ， 并 已 经 存在 于 程序 设计 语言 之 中 。 某 些 并 行程 序 设计 语言 ， 如 高 性 能 
Fortran (High Performance Fortran Forum 1993) ， 其 风格 允许 并 行 性 的 表示 ， 提 取 相 关 信息 不 是 
大 问题 。 比 如 ， 在 FORALL 循环 〈 由 彼此 独立 的 适 代 组 成 的 循环 ) 中 ， 只 有 循环 结尾 处 的 隐 
含 栅 障 需要 被 标注 为 同步 。FORRALL 说 明 系 统 不 必 担 心 循环 体 中 存在 数据 竞争 。 在 更 为 通用 
的 编程 模型 中 ， 如 果 程序 员 使 用 诸如 LOCK, UNLOCR 和 BARRIER 这 样 的 同步 原 语 库 ， 那 么 
即使 这 些 原 语 是 使 用 普通 的 存储 器 访问 实现 的 ， 库 的 设计 者 也 会 对 实现 它们 的 代码 加 以 标 
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注 ， 程 序 员 无 须 做 任何 特殊 的 处 理 。 最 后 ， 如 果 应 用 程序 员 希 望 对 存储 器 操作 增加 标记 ， 比 
如 像 图 9-4 所 示 的 flag 变量 访问 或 为 了 保持 某 种 其 他 的 次 序 ， 他 需要 来 自 编程 语言 和 库 的 
支持 。 程 序 设计 语言 可 以 对 一 个 变量 的 说 明 提供 一 种 属性 ， 表 明 所 有 对 该 变量 的 访问 都 是 同 
步 访问 ; 或 者 在 语句 级 有 某 种 记号 ， 指 明 某 个 特殊 的 访问 应 标记 为 同步 操作 。 这 会 通知 编译 
器 在 通过 这 些 点 时 限制 变 序 ， 而 编译 器 则 把 这 类 访问 翻译 成 处 理 器 保持 次 序 的 适当 的 机 制 。 


9.1.3 翻译 机 制 


对 大 多 数 微 处 理 器 而 言 ， 将 标记 翻译 成 保持 次 序 的 机 制 意味 着 在 被 标 为 同步 (获取 或 释 
BO) 的 操作 之 前 和 之 后 插入 适当 的 存储 器 栅 障 或 隔 栅 指令 。 如 果 各 条 取 和 存 指令 本 身 带 有 指 
示 强 制 何 种 次 序 的 风格 位 ， 就 可 以 避免 额外 插 人 指令 。 但 是 ， 由 于 同步 操作 通常 并 不 经 常 发 
生 ， 大 多 数 微 处 理 器 并 不 采用 在 指令 集 层次 做 核心 改动 的 方法 。 


9.1.4 真实 的 多 处 理 器 系统 中 的 同一 性 模型 


随 着 多 处 理 器 系统 销售 的 巨大 增长 ， 现 代 微 处 理 器 的 设计 允许 其 在 这 类 机 器 中 的 无 缝 集 
成 。 结 果 ， 微 处 理 器 厂商 花费 了 相当 大 的 努力 ， 定 义 和 精 确 地 说 明 在 硬件 /软件 接口 提供 的 
存储 器 模型 。 尽 管 顺序 同一 性 模型 仍然 是 程序 员 用 于 推导 程序 行为 的 最 好 的 模型 ， 许 多 厂商 
为 了 追求 性 能 ， 允 许 更 放松 的 次 序 。 某 些 厂商 ， 例 如 Silicon Graphics 在 多 指令 并 行 发 出 、 动 
态 调度 的 处 理 器 ( 它 的 MIPS R10000 处 理 器 ) 中 允许 操作 的 执行 乱 序 地 发 出 ， 但 非 乱 序 地 结 
束 或 为 外 界 所 见 ， 以 此 继续 支持 SC。 这 人 允许 动态 调度 的 处 理 器 在 相当 程度 上 重 迭 存储 器 操 
作 ， 因 而 不 再 满足 SC 的 充分 条 件 ， 但 是 它 强迫 操作 按 程序 原 序 结 束 。Intel 的 奔腾 系列 支持 
处 理 同 一 性 模型 ， 读 可 以 在 按 程序 原 序 先导 的 写 之 前 结束 。Sun Microsystems 的 许多 微 处 理 器 
支持 TSO， 人 允许 与 此 相同 的 变 序 。 还 有 很 多 其 他 厂商 采用 了 允许 放松 所 有 次 序 的 模型 ( 例 
如 ，Digital Alpha 和 IBM PowerPC)， 在 必要 时 提供 存储 器 栅 障 来 强制 次 序 。 

在 硬件 接口 层 ， 多 处 理 器 系统 通常 遵循 所 采用 的 微 处 理 器 提供 的 同一 性 模型 ， 因 为 这 是 
最 容易 的 做 法 。 例 如 ，NUMA-Q 硬件 输出 它 的 Pentium Pro 处 理 器 的 处 理 同 一 性 模型 。 特 别 是 
当 写 人 时 ， 拥 有 权 或 数据 在 作废 动作 开始 之 前 就 获得 了 ; 允许 处 理 器 一 旦 获得 拥有 权 就 马上 
完成 写 并 继续 ， 而 SCLIC 通信 辅助 部 件 负责 管理 作废 和 应 答 的 次 序 。 通 信和 辅助 部 件 也 可 以 有 
限 地 改变 模型 ， 我 们 在 Origin2000 中 可 以 看 到 这 样 的 例子 。 保 持 处 理 器 的 SC 模型 要 求 通信 
辅助 部 件 (Hub) 在 写 时 只 有 当 收 到 排他 回答 和 所 有 的 作废 应 答 时 才 对 处 理 器 做 出 回答 ( 推 
六 的 排他 回答 ) ， 然 后 ， 动 态 调度 的 处 理 器 可 以 从 它 的 指令 预 取 缓 冲 器 中 撤消 写 ， 人 允许 后 续 
的 操作 的 撤消 和 结束 。 如 果 Hub 在 收 到 排他 回答 后 立即 回答 处 理 器 (积极 的 排他 回答 ) 而 
不 等 待 作废 应 答 的 接收 ， 那 么 写 可 以 撤消 ， 后 续 的 操作 (包括 写 ) 就 可 以 在 上 述 的 写真 正 完 
成 之 前 结束 或 为 外 界 所 见 ， 这 样 同 一 性 模型 就 更 为 放松 。 本 质 上 ，Hub 是 在 写 的 结束 时 刻 上 
蒙骗 了 处 理 器 。 

在 上 述 积极 的 排他 式 应 答 的 例子 中 ， 用 通信 辅助 部 件 蒙骗 处 理 器 可 以 提高 性 能 ， 但 同时 
增加 了 设计 的 复杂 性 。 作 废 应 答 的 处 理 现在 必须 由 通信 辅助 部 件 根据 所 希望 的 放松 同一 性 模 
型 异步 地 完成 ， 甚 至 在 回答 已 经 发 送 给 处 理 器 之 后 它 还 要 跟踪 处 理 器 接口 的 缓冲 器 。 还 有 -一 
些 其 他 问题 ， 例 如 若 当前 处 理 器 含有 一 个 来 自 其 他 处 理 器 的 存储 块 ， 那 么 当 对 那个 块 的 写作 
废 操作 已 经 出 现 但 还 未 完成 时 ， 是 否 应 该 允许 当前 处 理 器 继续 访问 这 个 存储 块 呢 ( 见 练习 
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9.3)? 而 且 ， 当 写作 上 废 操作 在 通信 辅助 部 件 中 处 于 待 完 成 状态 时 ， 如 果 当 前 处 理 器 必须 将 这 
个 存储 块 写 回 存储 器 〈 由 于 替换 的 原因 )， 会 发 生 什 么 情况 呢 ? 对 于 后 者 ， 或 者 由 辅助 部 件 
对 写 回 操作 缓冲 ， 把 它 延 迟到 所 有 作废 都 被 应 答 之 后 再 进行 ; 或 者 必须 扩展 协议 ， 使 得 较 晚 
的 对 于 写 回 块 的 访问 在 其 请 求 者 收 到 应 答 之 前 不 能 被 该 块 的 宿主 满足 。 由 于 这 种 额外 的 复杂 
性 ， 而 性 能 改善 又 有 限 ，Origin2000 的 设计 者 仍然 保持 顺序 同一 性 模型 和 延迟 的 排他 回答 。 

在 编译 器 方面 ， 存 储 器 同一 性 模型 当前 尚未 很 好 定义 ， 使 事情 对 程序 员 而 言 变 得 复杂 
化 。 如 果 编 译 器 随 其 所 愿 在 访问 到 达 处 理 器 之 前 改变 它们 的 次 序 (就 像 单 处 理 器 的 编译 器 所 
做 的 那样 ) ， 那 么 无 论处 理 器 支持 顺序 同一 性 还 是 处 理 器 同一 性 ， 对 程序 员 都 没 多 大 好 处 。 
微 处 理 器 的 存储 器 模型 定义 于 硬件 接口 ， 它 们 关心 的 是 提交 给 处 理 器 的 程序 原 序 ， 而 假定 编 
译 器 会 做 独立 的 处 理 。 正 如 我 们 已 经 讨论 过 的 , 输出 像 TSO、PC 和 PSO 这 样 的 中 间 模 型 到 
程序 员 接 口 ， 没 有 给 编译 器 留 下 足够 的 重新 排序 的 自由 度 。 例 如 ， 程 序 员 或 许 会 假定 在 实际 
中 编译 器 不 会 违反 同一 性 模型 而 改变 操作 的 次 序 或 消除 操作 ， 因 为 编译 器 对 存储 器 操作 的 大 
多 数 重 排序 都 集中 于 循环 。 但 这 是 一 个 非常 危险 的 假设 ， 有 些 时 候 ， 我 们 所 依赖 的 次 序 确 实 
发 生 在 循环 之 中 。 为 了 真正 在 程序 员 接 口 使 用 这 些 模 型 ， 必 须 对 单 处 理 器 的 编译 器 加 以 改 
造 ， 使 其 遵循 模型 对 重 排序 的 限制 ， 但 明显 牺牲 了 性 能 。 这 些 中 间 模 型 被 硬件 接口 层 支持 ， 
但 并 不 特别 适用 于 程序 员 接口 (当然 ， 如 果 编 译 器 能 检测 出 竞争 操作 就 不 同 了 ， 在 这 种 情况 
下 ， 它 能 对 程序 员 输 出 最 强 的 SC 模型 ， 而 本 身 执行 讨论 过 的 最 放松 的 模型 的 重 排序 )。 

像 Alpha、RMO、PowerPC、WO、RC 和 同步 程序 等 更 为 放松 的 模型 甚至 可 以 用 于 程序 员 
接口 ， 因 为 这 些 模型 能 给 予 编 译 器 所 需 的 灵活 性 。 在 程序 员 接口 传递 排序 约束 的 机 制 不 单 必 
须 为 处 理 器 所 注意 ， 编 译 器 也 必须 遵守 ， 多 处 理 器 的 编译 器 正在 开始 这 样 做 ( 见 9.5 WY) 
我 们 在 关于 同步 程序 的 氢 述 中 知道 ， 在 程序 员 接口 的 放松 模型 之 下 ， 硬 件 接口 能 使 用 相同 或 
更 强 的 排序 模型 。 但 是 ， 人 们 希望 在 处 理 器 接口 使 用 放松 的 模型 以 便 发 挥 性 能 潜力 。 当 我 们 
转向 讨论 用 数据 的 一 致 副本 支持 共享 地 址 空间 的 不 同 措施 时 ， 我 们 会 看 到 ， 若 想 用 大 于 高 速 
缓存 块 的 颗粒 支持 一 致 性 ， 放 松 的 同一 性 模型 对 性 能 是 至 关 重要 的 。 我 们 还 会 看 到 ， 存 在 比 
释放 间 一 性 还 要 放松 的 同一 性 模型 。( 你 能 想 出 如 何 做 吗 ?) 


9.2 克服 容量 限制 


FER SCI 的 Origin2000 这 样 的 CC-NUMA 系统 中 ， 在 访问 数据 时 ， 处 理 器 高 速 缓存 直接 复 
制 远 地 分 配 的 数据 ， 并 不 将 数据 首先 在 本 地 主 存 中 复制 。 当 高 速 缓存 扑 空 时 ， 通 信 辅 助 部 件 
根据 物理 地 址 决定 是 查找 本 地 存储 器 和 目录 状态 还 是 直接 向 远 地 的 宿主 节点 发 出 请 求 。 通 信 
的 粒度 、 一 致 性 的 粒度 以 及 复制 存储 器 (高速 缓存 ) 分 配 的 粒度 都 是 高 速 缓存 的 块 。 正 如 前 
面 所 讨论 过 的 ， 这 样 的 系统 存在 的 问题 是 本 地 复制 的 容量 受 硬件 高 速 缓存 所 限 。 如 果 一 个 远 
地 安装 的 块 被 从 高 速 缓存 替换 ， 当 再 次 需要 它 时 ， 必 须 从 远 地 存 储 器 中 去 取 ， 这 将 导致 人 为 
的 通信 。 本 节 中 所 讨论 的 系统 的 目标 是 用 硬件 提供 高 速 缓存 块 粒度 的 一 致 性 的 前 提 下 ， 克 服 
复制 容量 的 问题 。 


9.2.1 第 三 层 高 速 缓存 


达到 这 个 目标 的 一 个 办 法 是 像 Sequent 的 NUMA-Q 和 Convex 的 Examplar (Convex Computer 
Corporation 1993; Thekkath et al. 1997) 那样 使 用 一 个 大 而 慢 的 远程 访问 高 速 缓存 。 如 果 机 器 
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节点 本 身 就 是 小 规模 的 多 处 理 器 ， 为 了 对 节点 间 协 议 提供 每 个 节点 的 单一 的 高 速 缓 存 ， 这 个 
高 速 缓存 从 功能 上 也 总 是 需要 的 。 这 个 远程 访问 高 速 缓存 记录 那些 在 远 地 分 配 ， 但 当前 位 于 
本 地 处 理 器 高 速 缓存 之 内 的 块 ， 为 性 能 的 需要 ， 可 以 简单 地 扩大 它 的 尺寸 。 那 么 ， 它 也 可 以 
保存 已 经 被 从 本 地 处 理 器 高 速 缓存 中 替换 掉 的 远 地 块 的 副本 。 在 NUMA-Q 中 ， 这 个 用 DRAM 
实现 的 远程 高 速 缓存 至 少 有 32 MB， 而 节点 上 4 个 最 底层 处 理 器 高 速 缓存 之 和 仅仅 是 2~ 4 
MB。 有 一 个 类 似 的 办 法 ， 有 时 也 称 为 第 三 层 高 速 缓存 (tertiary cache)， 是 把 本 地 主 存 的 固定 
部 分 用 作 远程 高 速 缓存 ， 它 需要 额外 的 硬件 实现 每 节点 的 标记 和 状态 。 

这 些 方法 以 很 小 的 粒度 在 主 存 中 复制 数据 ， 但 它们 并 不 自动 地 把 一 个 块 的 宿主 迁移 
(migrate) 或 改变 到 最 经 常 发 生 该 块 的 高 速 缓存 扑 空 的 节点 。 在 块 的 宿主 的 主 存 中 总 是 为 该 
块 分 配 空 间 。 所 以 ， 如 果 应 用 未 能 把 数据 适当 地 分 布 到 主 存 中 ， 那 么 对 于 第 三 层 高 速 缓存 这 
种 方案 ， 即 使 只 有 一 个 处 理 器 曾经 访问 过 某 存储 器 块 〈 即 不 需要 多 个 副本 或 复制 品 )， 系 统 
最 终 会 浪费 它 的 可 用 主 存 的 一 半 ， 因 为 每 个 块 在 主 存 中 都 有 两 个 副本 ， 一 个 在 宿主 ， 另 一 个 
在 第 三 层 高 速 缓存 ， 但 是 只 会 用 到 一 人 个。 此外， 如果 其 复制 容量 并 不 为 性 能 所 需 ， 静 态 建立 
的 第 三 层 高 速 缓存 是 太 浪费 了 。 另 一 种 增加 复制 容量 的 途径 ， 即 惟有 高 速 缓存 的 存储 器 体系 
结构 (cache-only memory architecture，COMA)， 是 把 整个 本 地 存储 器 当 作 硬 件 控制 的 高 速 组 
人 存 。 这 个 方案 同时 实现 复制 和 迁移 ， 并 不 存在 上 述 问题 ， 后 面 将 对 它 做 更 深入 的 讨论 。 在 所 
有 情形 下 ， 复 制 和 一 致 性 是 以 细 粒 度 管理 的 ， 虽 然 并 不 一 定 非 要 和 处 理 器 的 高 速 缓 存 的 块 尺 
二 相同。 只 有 那些 已 经 在 本 地 存储 器 、 远 程 高 速 缓存 或 第 三 层 高 速 缓存 中 的 数据 才 被 带 人 处 
理 器 高 速 缓存 层次 结构 ， 因 为 数据 在 较 外 层次 已 保持 跨 节点 的 一 致 , 无 须 再 用 单独 的 节点 间 
协议 保持 处 理 器 高 速 缓存 本 身 跨 节点 的 一 致 性 ， 所 必须 保证 的 仅 是 处 理 器 高 速 缓存 与 本 地 存 
储 器 或 远程 /第 三 层 高 速 缓存 的 一 致 性 。 


9.2.2 惟有 高 速 缓存 的 存储 器 体系 结构 


在 COMA 机 中 ， 整 个 主 存 中 每 个 细 粒 度 的 存储 器 块 都 带 有 一 个 硬件 的 标记 。 对 一 个 存储 
器 块 而 言 ， 并 不 存在 一 个 保证 为 其 分 配 空间 的 固定 节点 。 相 反 ， 数 据 是 动态 地 迁移 ， 在 那些 
访问 过 它 或 者 说 “吸引 ” 它 的 节点 的 主 存 中 被 复制 ， 所 以 ， 这 些 组 织 称 惟 高 速 缓存 的 主 存 为 
吸引 存储 器 (attraction memor)。 当 一 个 远 地 块 被 访问 时 ， 它 被 复制 到 吸引 存储 器 并 被 装 人 
处 理 器 的 高 速 缓存 ， 由 硬件 保证 一 致 性 。 块 的 迁移 的 实现 是 通过 替换 或 作废 吸引 存储 器 ， 如 
RR x 本 来 就 在 节点 4 ME (吸引 ) 存储 器 中 ， 当 节点 BRE, BRET EA (E 
fil); 如 果 A 中 的 存储 器 后 来 被 4 访问 的 另 一 块 所 作废 或 替换 ， 那 么 该 块 的 仅 有 的 副本 就 在 
如 的 存储 器 中 了 。 所 以 ， 不 存在 第 三 层 高 速 缓存 方案 中 存在 的 浪费 原始 副本 的 问题 。 数 据 的 
迁移 和 空间 的 管理 两 者 都 是 需求 驱动 的 ， 因 为 一 个 数据 块 可 能 存在 于 任何 吸引 存储 器 之 中 ， 
并 且 透 明 地 在 吸引 存储 器 间 移 动 ， 数 据 的 位 置 不 再 与 它 的 物理 地 址 相关 。 自 动 的 数据 迁移 对 
多 道 程 序 负载 还 有 另 一 个 潜在 的 优点 ， 即 操作 系统 可 以 在 任何 时 候 决 定 在 节点 间 迁 移 进程 ， 
虽然 在 这 种 情况 下 ， 用 软件 迁移 页 面 也 是 成 功 的。 

1. 硬件 /软件 的 折 中 

和 其 他 方法 一 样 ，COMA 方案 引入 明确 的 硬件 /软件 折 中 。 通 过 克服 纯粹 的 CC-NUMA 方 
案 存 在 的 高 速 缓存 容量 限制 问题 ， 我 们 的 目的 是 使 软件 不 必 再 为 数据 在 主 存 中 的 分 布 扯 心 。 
程序 员 可 以 把 机 器 看 作 具 有 一 个 中 央 的 主 存 ， 他 只 需 关 心 图 有 的 通信 和 伪 共 享 等 问题 ( 当 
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然 ， 如 果 数 据 分 布 不 适当 ， 冷 扑 空 仍 必须 由 远 地 满 足 )。 虽 然 这 使 软件 的 编写 者 的 任务 大 大 
简化 了 ，COMA 机 与 纯 CC-NUMA 机 相 比 ， 需 要 多 得 多 的 硬件 支持 ， 因 为 它们 把 主 存 按 硬 件 
高 速 缓存 实现 。 主 存 要 为 每 个 块 设立 标记 并 需要 比较 器 。 在 吸引 存储 器 中 复制 带 来 的 额外 的 
存储 器 开销 ， 我 们 将 在 本 节 后 面 在 讨论 。 最 后 ， 吸 引 存 储 器 的 一 致 性 协议 比 处 理 器 高 速 缓存 
的 一 致 性 协议 复杂 。 究 其 原因 有 二 ， 且 两 者 都 与 下 述 事实 有 关 ， 即 数据 动态 移动 到 对 它 进行 
访问 的 节点 ， 不 存在 保存 它 的 固定 的 “宿主 "。 首 先 ， 当 发 生 吸 引 存储 器 扑 空 时 ， 必 须 决 定 
数据 的 位 置 ， 因 为 数据 不 再 与 物理 地 址 绑 定 。 甚 次， 不 再 需要 在 宿主 为 块 保留 空间 ， 所 以 ， 
在 从 吸引 存储 器 替换 一 个 块 时 ， 必 须 保 证 不 要 丢失 系统 中 该 块 的 最 后 一 个 或 仅 有 的 副本 。 第 
三 层 高 速 缓存 方案 不 存在 这 额外 的 复杂 性 。 

2. 性 能 权衡 

性 能 有 其 自身 的 有 趣 权 衡 。 昌 然 ，COMA 机 减少 了 人 为 通信 造成 的 远 地 访 问 ， 但 它 增加 
了 需要 由 远 地 才 能 满足 的 访问 的 时 延 ， 包 括 冷 的 、 真 实 共享 和 伪 共 享 的 扑 空 。 其 原因 是 对 于 
一 个 不 会 被 本 地 吸引 存储 器 满足 的 高 速 缓存 扑 空 ， 也 需要 先 在 该 吸引 存储 器 中 查找 一 下 ， 了 
解 是 否 存 在 该 块 的 一 个 本 地 副本 。 而 且 ， 吸 引 存储 器 访问 的 代价 要 比 标准 的 DRAM 访问 要 
高 ， 因 为 吸引 存储 器 通常 以 组 相 联 的 方式 实现 ， 标 记 选 择 操作 处 于 关键 通路 上 。 

就 性 能 而 言 ，COMA 最 适合 于 那些 对 处 理 器 高 速 缓存 具有 高 容量 扑 空 率 的 应 用 (大 工作 
集 情 况 ) ， 这 些 访问 扑 空 是 针对 没有 在 本 地 分 配 的 数据 的 ， 而 COMA 对 那些 性 能 由 -一致 性 扑 
空 所 主宰 的 应 用 最 不 利 。 当 访问 模式 不 可 预见 或 来 自 不 同 进程 的 访问 以 很 小 粒度 在 空间 交错 
从 而 以 软件 方式 实现 页 面 粒度 的 数据 的 放置 、 替 换 或 迁移 在 CC-NUMA 机 上 变 得 困难 时 ， 
COMA 的 优点 最 显著 。 例 如 , 对 于 近邻 网 格 计算 而 言 ， 使 用 二 维 数组 表示 比 使 用 四 维 数组 表 
未 更 适合 于 COMA 机 ， 因 为 在 后 一 种 情况 下 ， 以 软件 方式 通过 操作 系统 以 页 面 粒度 适当 地 分 
布 数据 并 不 困难 。 事 实 上 ， 当 使 用 四 维 数组 而 且 数据 适当 分 布 时 ， 较 高 的 通信 开销 使 COMA 
的 性 能 比 纯粹 的 CC-NUMA 更 差 。 图 9-8 根据 应 用 的 特征 总 结 了 性 能 权衡 。 让 我 们 简要 地 看 
一 下 COMA 协议 的 某 些 设计 选择 ， 以 及 它们 是 如 何 解 决 在 扑 空 时 能 找到 数据 和 不 丢失 块 的 最 
后 副本 这 些 协议 问题 的 。 

3. 设计 选择 ; 扁平 法 与 层次 法 的 比较 

可 以 采用 层次 式 或 扁平 式 的 目录 方案 ， 甚 至 层次 式 的 总 线 侦 听 来 实现 COMA 机 ( 见 第 8 章 
8.10.2 节 )。Data Diffusion Machine 的 原型 (Hagersten, Landin, and Haridi 1992; Hagersten 1992) 
使 用 了 基于 层次 式 目录 的 COMA, iH Ë Kendall Square Research 的 商品 化 系统 (Frank, Burkhardt 
and Rothnie 1993) 使 用 了 层次 式 的 总 线 侦 听 型 的 COMA。 在 这 些 层 次 式 的 COMA 方案 中 ， 在 扑 
空 时 是 通过 遍历 层次 结构 来 找到 数据 的 ， 这 和 第 8 章 所 讨论 的 非 COMA 层次 协议 一 样 。 区 别 在 
于 ,在 非 COMA 机 中 ， 处 理 节点 中 的 每 一 个 存储 器 块 都 有 一 个 固定 的 宿主 节点 ， 而 COMA 机 则 
没有 。 当 一 次 访问 未 命中 本 地 的 吸引 存储 器 时 ， 它 沿 层次 结构 向 上 ， 直 到 发 现 某 节 点 指示 该 块 
存在 于 它 的 子 树 中 且 具 有 适当 的 状态 为 止 。 然 后 该 请 求 又 沿 层次 结构 向 下 ， 到 达 对 应 的 处 理 节 
点 《 它 是 一 个 叶 节 点 )， 根 据 目录 查找 数据 或 者 沿 着 路 径 采用 总 线 侦 听 方式 找到 数据 。 

在 扁平 的 COMA 方案 中 ， 就 为 数据 保留 位 置 的 意义 而 言 ， 还 是 没有 存储 器 块 的 宿主 。 但 
是 ， 却 有 一 个 能 找到 目录 信息 的 固定 的 宿主 节点 (Stenstrom, Joe, and Gupta 1992; Joe 1995), 
这 个 固定 的 宿主 是 通过 物理 地 址 (如 CC-NUMA 那样 ) 或 者 从 物理 地 址 得 到 的 全 局 标识 符 决 
定 的。 目录 信息 的 (静态 的 ) 位 置 与 真正 的 数据 的 (动态 变化 的 ) 位 置 无 关 。 本 地 吸引 存储 
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应 用 特征 






非常 低 的 扑 空 率 


应 有 类 似 性 能 
"密集 线性 代数 


必 - 体 
大 多 数 是 一 致 性 扑 空 
由 于 增加 时 延 , COMA 可 能 性 能 更 差 
“许多 小 问题 尺寸 的 应 用 《如 FFT,Ocean) 
' 由 于 不 好 的 数据 结构 设计 造成 大 量 伪 共 享 的 那些 应 用 










大 多 数 是 容量 型 扑 空 和 (或 者 ) 
差 的 初始 数据 分 布 


由 于 自动 的 复制 / 迁移 ,COMA 有 潜在 的 优势 












粗 粒 度数 据 访问 


细 粒 度数 据 访问 


COMA 是 有 优势 


即使 没有 COMA 支 持 , 复制 ， 特别 是 迁移 和 和 
初始 分 布 可 以 容易 地 以 页 粒度 完成 ， 所 以 具 

eo _ “ 具有 大 工作 集 但 不 规则 的 数据 
有 适当 的 支持 的 CC-NUMA 可 能 更 有 优点 Eta Hi AR RH OLAX 


“许多 规范 的 科学 应 用 ( Ocean,FFT ) > ¥ 
别 是 那些 具有 良好 设计 的 数据 结构 的 应 用 


图 9-8 COMA 和 CC-NUMA 体系 结构 的 性 能 权衡 。 方 框 中 的 是 应 用 的 特征 。 在 每 个 方 框 下 是 采用 相同 
技术 建造 的 COMA 和 CC-NUMA 系统 针对 该 组 特征 的 性 能 比较 ， 后 跟 -一 系列 应 用 领域 的 例子 
器 的 一 个 扑 空 导 致 查找 宿主 中 的 目录 信息 ， 该 目录 以 基于 存储 器 或 基于 高 速 缓存 的 方式 记录 
了 副本 的 实际 所 在 地 。 层 次 式 目录 和 扁平 式 目录 之 间 的 折 中 与 非 COMA 情况 十 分 类 似 ( 见 第 
8 章 8.10.2 节 )。 

让 我 们 看 一 看 层次 式 和 扁平 式 的 方案 如 何 解决 最 后 副本 的 替换 问题 。 如 果 要 从 吸引 存储 
器 中 替换 的 块 处 于 共享 状态 ， 而 且 如 果 我 们 能 肯定 在 系统 中 存在 该 块 的 另 一 个 副本 ， 就 可 以 
安全 地 丢弃 被 替换 的 块 。 但 如 果 一 个 块 处 于 独占 状态 或 是 系统 中 最 后 一 个 副本 ， 必 须 保 证 它 
能 在 另 一 个 吸引 存储 器 中 找到 一 个 位 置 ， 而 不 是 把 它 丢 弃 。 在 层次 式 情况 下 ， 对 于 处 于 共享 
状态 的 块 ， 简 单 沿 层 次 结构 向 上 ， 直 到 发 现 一 个 节点 ， 它 指明 该 块 的 副本 存在 于 它 的 子 树 的 
某 处 。 然 后 ， 只 要 我 们 已 经 沿 着 该 路 径 更 新 了 路 径 上 的 状态 信息 ， 就 可 以 丢弃 那个 块 。 对 于 
一 个 处 于 独占 状态 的 被 替换 块 ， 我 们 沿 层次 向 上 ， 直 到 发 现 某 个 节点 ， 在 该 节点 的 子 树 的 莫 
处 存在 一 个 处 于 无 效 或 共享 状态 的 块 ， 可 用 要 替换 的 独占 块 替 换 它 。 如 果 可 和 蔡 换 的 块 处 于 共 
享 而 不 是 无 效 状态 ， 那 么 它 的 替换 需要 遵循 前 面 讨论 过 的 着 换 共享 块 的 过 程 ， 如 果 可 替换 块 
处 于 无 效 状 态 ， 情 况 较 简单 ， 替 换 就 可 以 。 

MF ÉI COMA 解决 最 后 副本 问题 需要 较 多 的 机 构 ， 因 为 它 没有 搜索 可 用 空间 的 内 置 机 
制 。 一 种 机 制 将 存储 器 块 的 一 个 拷贝 标记 为 主 拷贝 ， 它 保证 主 拷贝 在 替换 时 不 会 被 丢弃 。 在 
吸引 存储 器 中 增加 一 个 新 的 称 为 主 块 的 高 速 缓 存 状态 。 在 数据 最 初 分 配 时 ， 每 个 块 都 是 主 拷 
贝 。 以 后 ， 主 拷贝 或 者 是 一 个 独占 的 副本 ， 或 者 是 共享 副本 之 一 。 当 一 个 块 的 非 主 拷贝 共享 
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副本 被 蔡 换 时 ， 可 以 安全 地 丢弃 〈 如 果 我 们 愿意 的 话 ， 可 以 向 宿主 的 目录 项 发 送 一 个 蔡 换 提 
示 )。 如 果 一 个 主 拷贝 被 蔡 换 ， 必 须 向 宿主 发 一 个 替换 消息 。 宿 主 选择 另 一 个 市 点 ， 把 主 找 
贝 发 过 去 ， 和 希望 能 在 那个 节点 找到 空间 ， 然 后 把 那个 节点 置 为 主 节 点 。 如 果 这 个 新 节点 上 那 
部 分 吸引 存储 器 所 有 可 用 的 块 都 是 主 块 ， 那 么 请 求 就 被 发 回 宿 主 ， 宿 主 再 试 另外 一 个 节点 ， 
否则 可 替换 的 块 之 一 被 蔡 换 并 被 入 弃 ( [Joe and Hennessy 1994] 讨论 了 某 些 优化 )。 

不 论 我 们 使 用 层次 式 的 还 是 扁平 的 COMA 协议 ， 应 用 的 初始 数据 集 不 应 该 占据 整个 主 存 
或 吸引 存储 器 ， 以 保证 系统 中 有 是 够 的 可 用 空间 使 被 替换 的 最 后 的 ( 主 ) 拷贝 能 找到 新 的 存 
储 位 置 。 为 了 帮助 找到 可 替换 的 块 ， 吸 引 存 储 器 应 该 是 高 度 相 关 的 。 缺 少 足够 的 、 额 外 的 
(初始 未 分 配 的 ) 可 供 替换 的 存储 器 会 导致 性 能 问题 ， 其 原因 是 ; 首先 ， 它 使 机 器 的 COMA 
特性 在 本 地 满足 高 速 缓存 的 容量 型 扑 空 方面 不 够 有 效 。 其 次 ， 它 意味 着 为 了 给 被 替换 的 主 拷 
贝 腾 出 空间 ， 一 些 仍然 有 用 的 块 被 替换 掉 。 第 三 ， 替 换 最 后 副本 造成 的 流量 可 能 相当 大 ， 引 
起 系统 内 的 大 量 竞争 。 至 于 究竟 应 为 替换 留 下 多 少 存储 器 以 及 需要 多 强 的 相关 性 ， 可 以 赁 经 
验 决 定 (Joe and Hennessy 1994)。 

4. 总 结 : 一 个 读 操 作 的 途径 

考虑 一 个 扁平 的 COMA 方案 。 存 储 器 管理 部 件 首先 把 一 个 虚 地 址 转换 为 一 个 物理 地 址 。 
这 可 能 引起 缺 页 ， 需 要 建立 一 个 新 的 映射 ; 这 和 单 处 理 机 一 样 ， 虽 然 在 COMA 情况 下 ， 该 页 
的 实际 数据 并 不 装 和 人 主 存 中 。 物 理 地 址 被 用 来 查找 各 层 高 速 缓存 。 如 果 命中 ， 访 问 被 满足 ， 
否则 ， 它 必须 查找 本 地 吸引 存储 器 。 物 理 地 址 的 某 些 位 被 用 来 找 出 吸引 存储 器 中 的 相关 的 
组 ， 而 硬件 维持 的 标记 存储 器 被 用 来 检查 标记 的 匹配 。 如 果 发 现 块 处 于 合适 的 状态 ， 访 问 被 
满足 。 如 果 状 态 不 合适 ， 必 须 产 生 远 地 的 请 求 ， 并 将 该 请 求 发 往 由 物理 地 址 决定 的 宿主 。 宿 
主 的 目录 决定 应 该 把 请 求 向 哪里 转发 ， 以 及 数据 是 处 于 共享 状态 还 是 独占 状态 ， 拥 有 数据 的 
节点 以 物理 地 址 作为 它 的 吸引 存储 器 的 索引 ， 找 到 数据 并 将 其 返回 。 目 录 协 议 保 证 状态 的 正 
确 维持 。 


9.3 降低 硬件 成 本 


本 章 讨论 的 最 后 一 个 主要 问题 是 硬件 的 成 本 。 降 低 成 本 常常 意味 着 把 专用 硬件 的 某 些 功 
能 移 往 在 现存 硬件 或 商品 硬件 上 运行 的 软件 。 在 这 种 情况 下 ， 涉 及 的 功能 有 复制 和 一 致 性 的 
管理 。 因 为 用 软件 在 主 存 中 控制 这 些 功能 比 在 硬件 高 速 缓存 中 实现 要 容易 得 多 ， 正 如 COMA 
或 第 三 层 高 速 缓存 系统 所 做 的 那样 ， 低 成 本 的 方案 倾向 于 用 主 存 提 供 复制 和 一 致 性 。 与 CO- 
MA 或 第 三 层 高 速 缓 存 系统 不 同 之 处 在 于 ， 较 高 的 开销 和 通信 辅助 部 件 占用 率 以 及 管理 复制 
和 一 致 性 的 粒度 。 

让 我 们 考虑 纯 CC-NUMA 方法 的 硬件 成 本 。 一 个 节点 上 通信 体系 结构 部 分 可 以 被 分 成 四 
部 分 : 检测 访问 控制 违规 的 的 部 分 ， 用 于 此 项 用 途 的 每 个 块 的 标记 和 状态 ， 完 成 实际 的 协议 
处 理 (包括 干预 处 理 器 高 速 缓存 ) 的 部 分 以 及 网 络 接口 本 身 。 为 了 以 硬件 保持 以 高 速 缓存 块 
为 粒度 的 数据 一 致 性 ， 访 问 控制 部 分 需要 看 到 未 在 高 速 缓存 中 命中 的 对 共享 数据 的 每 一 个 取 
和 存 操 作 ， 以 便 采取 必要 的 协议 动作 。 所 以 ， 辅 助 部 件 必须 能 侦 听 本 地 存储 器 系统 (以 及 向 
包括 高 速 缓存 在 内 的 本 地 存储 器 发 出 请 求 ， 以 响应 来 自 网 络 的 请 求 ) 。 

就 一 致 性 的 有 效 管理 而 言 ， 辅 助 部 件 其 他 各 个 功能 部 分 都 大 大 受益 于 硬件 的 专门 化 和 集 
成 。 要 快速 地 确定 访问 失败 ， 要 求 主 存 每 个 块 的 标记 靠近 辅助 部 件 的 访问 控制 部 分 。 辅 助 部 
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件 离 高 速 缓存 越 近 ， 协 议 动作 激活 和 辅助 部 件 干预 处 理 器 高 速 缓存 的 速度 越 高 。 协 议 操作 的 
快速 执行 要 求 辅助 部 件 或 者 用 硬件 实现 ， 或 者 是 可 编程 的 〈 像 Sequent 的 NUMA-Q 那样 ), H 
专门 针对 协议 最 经 常 执行 的 类 型 的 操作 〈 例 如 ， 位 域 的 抽取 和 处 理 ) 做 优化 。 最 后 ， 辅 助 部 
件 和 网 络 接口 之 间 小 块 数据 的 快速 传送 要 求 网 络 接口 与 通信 辅助 部 件 紧密 集成 。 因 此 ， 为 追 
求 高 性 能 希望 把 通信 辅助 部 件 的 四 个 部 分 紧密 集成 ， 使 得 它们 之 间 通 信 的 总 线 越 少 越 好 ， 整 
个 通信 辅助 部 件 专用 并 与 节点 的 存储 器 系统 紧 紧 集成 在 一 起 。 

星期 的 支持 高 速 缓存 一 致 性 的 机 器 把 硬 接线 的 辅助 部 件 集成 在 高 速 缓存 控制 器 内 部 ， 并 
把 网 络 接口 紧密 地 集成 进 辅助 部 件 之 中 ， 从 而 达到 上 述 目 的 。 然 而 ， 现 代 的 处 理 器 一 般 都 在 
处 理 器 芯片 上 集成 它 的 第 二 级 高 速 缓存 控制 器 ， 因 此 ， 处 理 器 一 旦 完成 ， 就 很 难 再 将 辅助 部 
件 集成 到 控制 器 内 部 。 所 以 SGI 的 Origin 把 它 的 硬 接线 的 Hub 集成 到 存储 器 控制 器 中 ， 斯 坦 
福 的 FLASH 将 它 的 专用 的 可 编程 协议 机 集成 在 存储 器 控制 器 里 ， 而 Sequent 的 NUMA-Q 和 
Hal S1 把 专用 控制 器 挂 在 存储 器 总 线 上 。 通 过 使 用 这 些 专 用 的 、 紧 密集 成 的 高 速 缓存 一 致 性 
的 便 件 支持 ， 这 些 方案 未 在 通信 体系 结构 中 借助 于 便宜 的 商品 化 部 件 。 所 以 ， 它 们 的 昂贵 在 
于 设计 和 实现 所 需 的 时 间 ， 而 不 是 在 于 实际 使 用 的 硬件 的 量 。 

人 们 试图 通过 几 个 不 同 的 途径 降低 成 本 。 途 径 之 一 是 以 专用 硬件 执行 访问 控制 ， 但 把 其 
他 许多 工作 降级 到 以 软件 或 者 商品 化 的 硬件 完成 。 其 他 的 途径 连 访问 控制 也 用 软件 实现 ， 所 
以 在 商品 化 节点 和 网 络 上 提供 一 个 一 致 的 抽象 共享 地 址 空间 ， 无 须 专用 硬件 的 支持 。 访 问 控 
制 或 是 通过 调整 程序 的 办 法 以 细 粒 度 提供 或 是 在 现存 的 虚拟 存储 器 的 支持 下 以 页 粒度 提供 ， 
或 是 通过 使 用 运行 时 系统 层 以 用 户 定义 对 象 的 粒度 提供 ， 该 层 对 外 提供 基于 对 象 的 编程 接口 。 

所 有 这 些 方案 目前 均 处 于 研究 阶段 ， 我 们 将 对 它们 逐一 讨论 。 将 更 详细 地 讨论 基于 页 的 
方案 ， 这 是 因为 它 在 保留 与 硬件 一 致 性 系统 相同 的 透明 编程 接口 的 同时 ， 改 变 了 数据 分 配 、 
交换 、 保 持 一 致 的 粒度 ， 也 因为 它 的 协议 与 已 经 了 解 的 有 很 大 不 同 ， 说 明了 充分 发 掘 放松 的 
存储 同一 性 模型 的 放松 条 件 所 需 的 机 制 。 


9.3.1 具有 去 耦 辅助 部 件 的 硬件 访问 控制 


尽管 这 个 方案 以 硬件 支持 细 粒 度 的 访问 控制 ， 但 其 他 功能 的 部 分 或 全 部 (协议 处 理 、 标 
记 、 网 络 接 口 ) 能 与 该 专用 硬件 去 耦 且 彼 此 分 离 。 它 们 或 者 采用 商品 化 硬件 将 其 附加 到 IO 





”总 线 这 样 的 节点 部 件 上 ， 或 者 采用 的 额外 硬件 不 超过 通常 单 处 理 器 节点 的 情况 。 例 如 ， 块 的 


标记 和 状态 可 以 放 在 一 个 专用 快速 存储 器 或 常规 的 DRAM 中 ， 协 议 处 理 可 以 用 一 个 独立 的 、 
便宜 的 通用 处 理 器 实现 ， 或 甚至 就 在 主 处 理 器 本 身 用 软件 实现 。 网 络 接口 通常 具有 对 细 粒 度 
通信 的 特殊 支持 ， 以 便 降低 端点 的 开销 。 图 9-9 中 是 各 种 功能 的 几 种 可 能 的 组 合 方案 。 

当然 ， 去 耦 的 硬件 的 问题 在 于 加 大 了 协议 调用 、 协 议 处 理 和 通信 的 时 延 ， 因 为 不 同 部 件 
之 间 以 及 它们 和 节点 之 间 的 交互 较 慢 (例如 ， 它 可 能 包含 几 次 总 线 操作 )。 更 关键 的 是 ， 去 
耦 的 通信 辅助 部 件 比 专用 的 集成 辅助 部 件 的 实际 占用 率 高 得 多 ， 这 对 第 8 章 8.7 节 所 述 的 很 
多 应 用 来 说 ,会 严重 影响 性 能 。 


9.3.2 通过 代码 修改 实现 的 访问 控制 
有 可 能 在 标准 的 单 处 理 器 节点 上 不 使 用 额外 的 硬件 支持 ,而 是 在 主 存 中 用 软件 实现 细 粒 
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a) 访问 控制 、 网 络 接口 和 协议 处 理 部 件 被 一 起 集成 在 b) 访问 控制 、 网 络 接口 和 协议 处 理 部 件 集成 在 
存储 器 控制 器 之 中 《SGI Origin) 一 起 被 挂 在 存 依 器 总 线 上 〔〈 例 如 ， 威 斯 康 星 
大 学 的 Typhoon 建议 ) 





c) 访问 控制 和 网 络 接口 集成 在 一 起 被 挂 在 存储 器 总 线 上 ， d) 独立 的 访问 控制 部 件 、 商 品 化 部 件 实现 的 网 
协议 处 理 部 件 独立 地 用 商品 化 部 件 实现 ,也 挂 在 总 线 上 ， 络 接口 和 协议 处 理 部 件 挂 在 存储 器 总 线 上 ( 例 
(例如 ,威斯康星 大 学 的 Typhoon -1 建议 ) 如 ， 威 斯 康 星 大 学 的 Typhoon-0 建议 ) 


图 9-9 几 种 降低 高 度 集成 的 、 专 用 的 辅助 部 件 的 成 本 的 方案 。AC 是 访问 控制 部 件 ，NI 是 网 络 接口 ，PP 
是 协议 处 理 部 件 〈 硬 接线 的 有 限 状 态 机 或 可 编程 的 )。a) 显示 了 高 度 集成 的 方案 ，b) 、c) 、d) 是 
集成 度 较 低 的 方案 。 随 着 部 件 间 的 距离 增加 ， 部 件 间 通 信 所 需 的 费时 的 总 线 操作 的 数量 上 升 。 在 
这 些 设计 中 ，e) 和 d 中 的 商品 化 PP 是 和 主 CPU 一 样 的 完整 的 处 理 器 ， 带 有 自己 的 高 速 缓存 系统 

度 的 复制 和 一 致 性 。 最 复杂 的 部 分 是 主 存 中 的 细 粒 度 的 访问 控制 ， 因 为 标准 的 单 处 理 器 并 不 

对 此 提供 支持 。 为 实现 这 一 点 ， 我 们 可 以 对 软件 中 的 读 和 写 进 行 修改 ， 增 加 对 主 存 中 保存 的 

块 标记 和 状态 数据 结构 的 查看 (Schoinas et al. 1994; Scales, Gharachorloo, and Thekkath 1996), #2 

据 对 高 速 缓存 扑 空 的 预见 ， 只 有 那些 不 能 命中 各 层 处 理 器 高 速 缓存 的 读 和 写 才 需要 被 修改 。 所 

需要 的 协议 处 理 可 以 在 主 处 理 器 或 在 无 论 什么 形式 的 辅助 部 件 中 执行 。 事 实 上 ， 这 种 软件 修改 

使 我 们 能 提供 任何 粒度 的 访问 控制 和 一 致 性 ， 甚 至 不 同 的 数据 结构 能 使 用 不 同 的 粒度 。 

软件 修改 带 来 运行 时 的 开销 ， 因 为 它 在 代码 中 插入 执行 检查 所 需 的 额外 指令 。 一 些 已 经 
开发 的 方法 利用 几 种 技巧 来 降低 所 需 的 检查 和 查找 的 次 数 (Seale, Charachorloo, and Thekkath 

1996) ， 使 得 访问 控制 和 协议 调用 的 开销 能 与 去 耦 硬件 的 方案 相 竞争 。 主 处 理 器 的 软件 协议 

处 理 也 有 显著 的 代价 ， 尽 管 这 样 的 系统 所 采用 的 网 络 接口 和 互 连 一 般 提供 对 细 粒 度 通 信 的 支 

持 ， 但 通常 是 基于 商品 化 的 部 件 ， 因 而 效率 比 紧 看 合 的 多 处 理 器 要 低 。 


9.3.3 基于 页 面 的 访问 控制 : 共享 虚拟 存储 器 
无 需 额 外 硬件 支持 提供 访问 控制 的 另 一 个 途径 是 借助 于 微 处 理 器 的 存储 器 管理 部 件 和 操 
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作 系 统 所 提供 的 虚拟 存储 器 支持 。 存 储 器 管理 部 件 已 经 以 页 面 的 粒度 对 主 存 进 行 访问 控制 
《例如 检测 缺 页 ) ， 在 虚拟 地 址 空间 把 主 存 作为 全 相关 的 高 速 缓存 管理 。 通 过 在 缺 页 中 断 处 理 
程序 中 嵌入 一 致 性 协议 ， 我 们 能 够 以 页 面 的 粒度 提供 复制 和 一 致 性 ， 并 且 把 主 存 作 为 共享 虚 
拟 地 址 空间 的 一 致 的 、 全 相关 的 高 速 缓存 管理 (Li and Hudak 1989)。 这 样 ， 访 问 控制 就 不 需 
要 特殊 的 标记 ， 辅 助 部 件 甚至 无 须 了 解 每 一 次 高 速 缓存 的 扑 空 。 只 有 当 对 应 的 页 面 已 经 在 主 
存 内 时 ， 数 据 才 进入 本 地 的 高 速 缓存 。 与 前 面 两 个 途径 类 似 ， 不 同 节点 的 处 理 器 高 速 缓存 无 
需 由 硬件 保持 一 致 ， 因 为 当 一 个 页 面 被 作废 ，TLB 将 不 允许 处 理 器 访问 高 速 缓存 中 的 块 了 
(当然 ， 必 须 注意 保持 处 理 器 高 速 缓存 和 本 地 存储 器 的 一 致 性 )。 

这 个 途径 叫做 基于 页 面 的 共享 虚拟 存储 器 或 简称 SVM。 因 为 成 本 被 整个 页 的 数据 分 摊 ， 
协议 处 理 通常 由 主 处 理 器 自己 承担 ,我们 可 以 更 容易 地 实现 没有 特殊 硬件 支持 的 网 络 接口 上 
的 细 粒 度 的 通信 。 所 以 ， 除 了 标准 的 单 处 理 器 系统 所 提供 的 硬件 辅助 外 ， 几 乎 不 需要 更 多 的 
硬件。 

图 9-10 说 明了 遵循 与 纯 CC-NUMA 的 作废 协议 十 分 类 似 的 共享 虚拟 存储 器 一 致 性 的 一 个 
非常 简单 的 形式 。 有 几 点 值得 注意 。 第 一 ， 因 为 不 同 处 理 器 的 存储 器 管理 部 件 独立 管理 它们 
的 主 存储 器 ，P 的 本 地 存储 器 中 的 页 面 的 物理 地 址 可 能 与 其 在 P, 的 本 地 存储 器 中 的 副本 的 
物理 地 址 完全 不 同 ， 尽管 它们 有 着 相同 的 (共享 的 ) 虚拟 地 址 。 存 在 一 个 由 私有 的 物理 地 址 
空间 构成 的 共享 虚拟 地 址 空间 。 第 二 ， 实 现 协议 的 缺 页 中 断 处 理 程序 在 设置 页 面 的 合适 的 访 
问 权 限 和 将 控制 交 回 应 用 进程 之 前 ， 必 须 能 执行 第 8 章 所 讨论 的 三 个 协议 功能 (找到 状态 信 
息 的 源 ， 找 到 合适 的 副本 和 副本 通信 )。 可 以 使 用 基于 目录 的 机 制 ， 每 个 页 面 必 须 有 一 个 由 




















图 910 简单 的 共享 虚拟 存储 器 的 说 明 。 最初， 没有 节点 保存 我 们 所 关心 的 灰色 的 共享 虚 页 。 事 
件 以 1、2、3、4 的 次 序 发 生 。 读 1 在 地 址 翻译 时 产生 一 个 缺 页 事件 ， 将 该 页 的 一 个 副 
本 取 到 Py (假定 从 磁盘 取 )。 在 同一 框 中 显示 的 读 2 引起 缺 页 并 将 一 个 只 读 副本 取 到 P, 
(从 P 取 )。 这 是 同一 个 虚 页 ， 但 在 两 个 存储 器 中 位 于 不 同 的 物理 地 址 。 写 3 EERE. 
(对 只 读 页 的 写 人 )， 在 缺 页 中 断 处 理 程序 中 实现 的 SVM 库 判 断 P 持 有 -一 个 副本 并 将 它 
FR P 现在 获得 了 对 该 页 的 读 - 写 访问 权 ， 该 页 处 于 被 修改 过 的 脏 状 态 。 当 P 的 
污 4 试图 读 取 作废 页 面 的 某 个 单元 时 ， 产 生 缺 页 ， 通 过 SVM FEM P, 取得 一 个 新 的 副本 
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其 虚 地 址 决定 的 宿主 ， 由 宿主 维护 目录 项 ， 我 们 将 看 到 高 性 能 的 SVM 协议 要 更 复杂 一 些 。 

基于 页 面 的 共享 虚拟 存储 器 的 问题 在 于 协议 调用 和 处 理 的 高 开销 和 一 致 性 及 通信 的 大 粒 
度 。 前 者 是 昂贵 的 ， 因 为 大 多 数 的 工作 是 在 通用 单 处 理 器 上 由 软件 完成 的 。 缺 页 中 断 或 陷阱 
的 产生 、 向 操作 系统 的 切换 以 及 中 断 处 理 程序 的 调用 都 是 费时 的 ; 协议 处 理 本 身 是 软件 完成 
的 ， 发 往 其 他 处 理 器 的 消息 使 用 底层 的 消息 传递 机 制 ， 该 机 制 是 费时 的 ， 特 别 是 商品 化 的 节 
点 和 互 连 更 是 如 此 。 在 1998 年 的 有 代表 性 的 SVM 系统 上 ， 满 足 一 个 远程 的 缺 页 的 往返 的 代 
价 大 约 是 几 百 微 秒 到 | 毫秒 以 上 ， 这 取决 于 系统 软件 的 支持 程度 。 与 此 对 比 ， 在 硬件 支持 一 
致 性 的 系统 中 ， 一 个 读 扑 空 的 开销 低 于 1 微 秒 。 此 外 ， 由 于 协议 典型 地 是 由 主 处 理 器 完成 的 
(避免 额外 的 硬件 支持 )， 进 入 的 请 求 会 中 断 处 理 器 ， 弄 脏 高 速 缓存 内 容 ， 减 慢 当 前 运行 的 应 
用 线程 〈 该 线程 或 许 与 进入 的 请 求 毫 无 关系 )。 

有 两 个 原因 使 大 粒度 的 通信 和 一 致 性 成 为 问题 。 首 先 ， 如 果 空 间 局 部 性 不 很 好 ， 会 引起 
很 多 通信 碎片 和 无 用 的 数据 传输 ( 仅 需要 一 个 字 , 但 必须 取 整 个 页 面 )。 其 次 ， 它 容易 导致 
伪 共 享 ， 这 引起 晶 贵 的 协议 操作 和 通信 的 频繁 调用 。 在 顺序 同一 性 模型 下 ， 一 旦 检测 到 写 
入 ， 立 即 传播 和 执行 作废 动作 ， 因 此 ， 真 实 共享 和 伪 共享 可 能 导致 页 面 在 处 理 器 之 间 不 断 地 
往返 传送 (图 9-11 显示 了 一 个 例子 )。 这 种 操作 的 高 代价 和 高 频率 是 不 幸 的 组 合 ， 所 以 ， 组 
解 伪 共享 的 效应 ， 降 低 通信 频率 是 重要 的 。 这 导致 了 与 细 粒 度 一 致 性 完全 不 同 的 协议 和 途 
径 ， 在 细 粒 度 情 况 下 ， 伪 共享 的 效应 不 显著 。 让 我 们 更 深入 地 考察 这 一 问题 。 
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图 9-11 顺序 同一 性 对 SVM 存在 的 问题 。 图 中 时 间 自 左 向 右 推 进 。 一 个 进程 所 执行 的 操作 在 该 
进程 的 水 平时 间 线 的 上 下 显示 。 进 程 m 在 进程 B 重复 对 变量 * 写 人 时 重复 读 出 变量 
y, «My 位 于 同一 页 面 。 因 为 在 SC 模型 下 ，P, 在 作废 被 传播 并 被 应 答 之 前 不 能 推进 ， 
作废 必须 立即 被 传播 ， 从 而 这 样 的 伪 共享 导致 大 量 的 〈 代 价 非 常 高 的 ) 通信 反复 发 生 
1. 使 用 放松 的 存储 同一 性 
使 用 像 释 放 同 一 性 这 样 的 放松 的 存储 同一 性 模型 能 降低 通信 的 频 度 。 它 允许 把 统称 为 写 
提示 的 像 作废 和 更 新 这 样 的 一 致 性 动作 推迟 到 下 一 个 同步 点 执行 〈 在 此 之 前 ， 写 人 不 一 定 非 
被 外 界 所 知 )。 让 我 们 继续 假设 基于 作废 策略 的 协议 。 图 9-12 显示 了 和 图 9-11 相同 的 例子 。 
处 理 器 书 对 x 的 写 人 在 到 达 栅 障 之 前 不 产生 对 P 中 的 页 面 的 副本 的 作废 ， 这 样 ， 伪 共享 的 
效应 将 大 大 缓解 ， 在 栅 障 之 前 Py 对 y 的 所 有 读 都 不 会 引起 缺 页 。 当 然 ，P, 在 栅 障 之 后 对 7 
的 访问 会 产生 伪 共享 引起 的 缺 页 ， 因 为 页 面 已 经 被 作废 了 。 对 于 真实 共享 ， 也 可 以 观察 到 类 
似 的 通信 的 降低 ， 因 为 协议 并 不 区 分 两 者 。 根 据 同一 性 模型 ， 真 实 共 享 的 改写 在 下 一 个 同步 
点 之 前 不 被 看 到 也 是 可 以 的 。 
这 里 所 讨论 的 情况 与 硬件 一 致 性 机 器 中 或 写 人 时 对 放松 同一 性 的 典型 使 用 有 显著 的 区 
别 。 在 后 一 种 情况 ， 放 松 同 一 性 主要 用 于 避免 因 等 待 应 答 (结束 ) 而 阻塞 处 理 器 ， 但 作废 通 
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常 立即 传播 并 实施 ， 因 为 这 对 硬件 而 言 是 自然 而 然 可 做 的 事 。 虽 然 ， 释 放 同 一 性 不 保证 在 同 
步 之 前 显现 写 的 效果 ,但 事实 上 效果 通常 是 显现 的 。 所 以 ， 甚 至 在 不 存在 同步 的 区 间 内 ， 高 
速 缓存 块 的 伪 共 享 的 量 以 及 网 络 事务 或 消息 也 未 减少 多 少 ; 其 目标 主要 是 对 处 理 器 隐藏 延 
迟 。 对 SVM 而 言 ， 系 统 明 确 规 定 : 在 同步 点 到 达 之 前 ， 不 真正 传播 作废 。 当 然 ， 对 于 正确 
性 而 言 ， 清 楚 地 标明 所 有 的 同步 点 并 使 之 与 系统 通信 和 是 关键 的 2 。 
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图 9-12 通过 使 用 放松 的 同一 性 模型 减少 因 伪 共享 引起 的 SVM 通信 。 在 同步 之 前 的 读 和 写 不 发 生 通信 ， 在 
同步 点 传播 作废 ， 从 而 使 页 面 一 致 。 只 有 同步 点 之 后 对 已 经 作废 页 的 首次 访问 会 产生 缺 页 请 求 
那么 何 时 作废 (或 写 提示 ) 必须 从 写 人 者 传播 到 其 他 副本 呢 ? 它们 又 必须 何 时 被 实施 
We? 一 个 可 能 是 当 写 信者 发 出 一 个 释放 操作 时 传播 它们 。 在 释放 点 ， 该 进程 将 自 上 一 个 释放 
点 以 来 写 过 的 每 个 页 面 的 作废 传播 到 所 有 拥有 该 页 副本 的 处 理 器 。 如 果 在 通过 该 释放 点 之 前 
等 待 作废 的 完成 ， 则 满足 前 面 提 到 的 RC 的 充分 条 件 。 但 是 ， 即 使 这 样 的 传播 也 比 必 须 的 要 
早 : 根据 释放 同一 性 ， 进 程 在 执行 获取 之 前 不 一 定 真 的 需要 看 到 写 提 示 。 在 释放 点 向 所 有 副 
本 传播 并 实施 写 提 示 ， 称 为 积极 释放 同一 性 Eager Release Consistency, ERC (Carter, Bunnett, 
and Zwaenepoel 1991，1995) ， 是 保守 的 做 法 ， 因 为 系统 不 知道 其 他 处 理 器 的 获取 何 时 发 生 ， 
也 不 知道 某 个 进程 将 来 是 否 会 执行 一 个 获取 而 需要 看 到 这 些 写 提示 。 如 图 9-13a 所 示 ， 它 可 
能 把 一 个 通信 代价 昂贵 的 作废 消息 发 送 到 并 不 需要 它 的 进程 去 (P, 无 须 被 PB 作废 ); CER 
独立 的 作废 消息 和 锁 获取 消息 ， 它 可 能 早 于 必要 的 时 刻 作废 进程 ， 从 而 导致 伪 共 享 ( 见 变 量 
x Aly 之 间 的 伪 共 享 ， 这 是 由 于 被 P| AP, 取 了 两 次 ， 一 次 在 对 y 的 读 时 ， 一 次 在 对 x 的 写 
时 )。 当 使 用 基于 更 新 的 协议 而 且 对 一 个 页 面 的 反复 写 入 产生 反复 的 更 新 时 ， 额 外 消息 的 问 
题 变 得 更 为 突出 。 这 些 问题 将 在 习题 9.23 ~9.25 中 进一步 讨论 。 
最 著名 的 SVM 系统 使 用 一 种 称 为 惰性 释放 同一 性 (Lazy Release Consistency, LRC) WYRE 
放 同 一 性 。 如 图 9-13b 所 示 ，LRC 不 是 在 跟随 写 人 的 那个 释放 点 对 特定 进程 传播 和 实施 作 
废 ， 而 是 在 该 进程 下 一 个 获取 点 执行 这 些 动 作 (Keleher, Cox, and Zwaenepoel 1992)。 在 获取 
点 ， 进 程 获得 与 所 有 先前 的 释放 操作 相关 有 发 生 于 它 前 一 个 获取 操作 和 和 它 当 前 获取 操作 之 间 
的 写 提示 ， 并 且 对 相关 的 页 面 实施 写 提示 动作 。 识 别 发 生 于 一 个 指定 的 获取 之 前 的 释放 操作 
是 一 个 有 趣 的 问题 。 它 们 可 以 被 定义 为 : 按照 同步 操作 的 任何 顺序 的 同一 次 序 ， 必 须 在 该 获 
取 之 前 出 现 所 有 释放 操作 (这 也 保留 了 它们 之 间 的 依赖 关系 )2 。 另 一 种 识别 的 办 法 是 对 同 
步 操作 施加 两 类 偏 序 : 在 各 个 进程 内 部 的 程序 原 序 和 由 所 有 进程 对 同一 同步 变量 的 获取 和 释 





号 ”事实 上 ， 也 可 以 采用 一 种 类 似 的 途径 减少 硬件 情况 下 伪 共 享 的 效应 。 作 废 可 以 被 缓存 在 请 求 部 件 的 硬件 中 ， 只 
有 在 释放 或 同步 点 〈 取 决 于 遵循 释放 同一 性 还 是 弱 序 同一 性 ) 或 当 缓冲 器 满 时 才 送 出 。 也 可 以 把 它们 缓存 在 目 
的 地 ， 在 目的 地 的 下 一 个 获取 点 才 了 予以 实施 。 我 们 称 这 个 方法 为 延迟 同一 性 〔Dubois et al. 1991)， 因 为 它 延迟 了 作 
废 的 传播 。 只 要 处 理 器 看 不 到 作废 ， 它 们 就 可 以 继续 使 用 它们 的 副本 而 无 须 任何 一 致 性 动作 ， 缓 解 了 伪 共 享 的 效应 。 
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(b) Lazy release consistency 


图 9-13 释放 同一 性 的 积极 和 情 性 实现 方式 的 比较 。 积 极 释放 同一 性 在 释放 点 执行 同 
一 性 动作 〈 作 废 ) ， 而 情 性 释放 同一 性 在 获取 点 执行 同一 性 动作 。 变 量 x 和 
y 处 于 同一 页 面 。 通 信和 显著 减少 ， 特 别 是 对 于 有 较 大 一 致 性 粒度 的 SVM 而 言 


放 所 动态 决定 的 依赖 次 序 。 对 同步 变量 的 访问 构成 一 个 遵循 依赖 次 序 的 成 功 的 获取 和 释放 的 
链 。 当 一 个 获取 请 求 来 到 一 个 正在 执行 释放 的 进程 P， 在 该 释放 之 前 发 生 的 同步 操作 是 那些 
先 于 释放 点 的 程序 原 序 和 依赖 次 序 交集 中 的 同步 操作 。 我 们 说 这 些 同 步 操作 在 因果 意义 上 ， 
发 生 于 该 释放 之 前 。 在 获取 之 前 的 操作 是 按 程序 原 序 先 于 该 获取 的 操作 的 并 集 。 图 9-14 8 
清 了 同步 操作 之 间 的 因果 次 序 这 一 概念 。 

通过 将 一 致 性 动作 进一步 推迟 到 获取 之 时 ，LRC 缓解 了 与 ERC 相 联 系 的 三 个 问题 ; 例 
如 ， 如 果 产 生 页 面 伪 共 享 的 存储 器 操作 在 获取 之 前 而 不 是 之 后 发 生 ， 它 的 不 良 效应 将 不 会 被 
看 到 (图 9-13b 中 对 y 的 读 不 会 产生 缺 页 )。 另 一 方面 ,我 们 将 看 到 ， 由 于 某 些 应 完成 的 工 
作 和 通信 从 释放 点 移 到 了 获取 点 ，LRC 的 实现 比 起 ERC 要 复杂 得 多 。 可 能 存在 某 些 中 间 的 
方法 ， 比 如 在 释放 点 传播 写 提示 到 获取 点 才 实施 它们 ， 这 样 做 并 不 能 减少 写 的 流量 ， 但 可 以 
降低 缺 页 。 然 而 ，LRC 是 当前 应 选择 的 方法 。 

这 些 基于 页 面 的 软件 协议 与 为 硬件 一 致 性 系统 所 开发 的 同一 性 模型 之 间 的 关系 同样 令 人 
感 兴趣 。 软 件 协议 不 满足 第 5 章 所 讨论 的 一 致 性 的 要 求 ， 因 为 除非 存在 适当 的 同步 ， 写 并 不 
保证 会 自动 传播 。 只 能 通过 同步 操作 才能 观察 到 写 这 一 点 使 得 写 的 串 行 化 更 难保 证 。 不 同 的 





O ”这 种 次 序 甚至 可 以 是 处 理 器 一 致 性 的 ， 因 为 RC 允许 按 程序 原 序 获取 ( 读 ) 穷 路 前 面 的 释放 (FB). 
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进程 可 能 通过 不 同 的 同步 链 按 不 同 的 次 序 观察 到 同一 个 写 ， 因 此 大 多 数 软件 系统 不 保证 写 的 
顺序 化 。 事 实 上 ， 根 据 第 5 章 的 定义 ， 像 释放 同一 性 这 样 的 基于 同步 的 放松 的 同一 性 规范 不 
能 保证 一 致 性 。 最 后 ， 释 放 同一 性 的 硬件 和 软件 ERC 之 间 的 惟一 区 别 在 于 何 时 传播 写 。 然 
而 ，LRC 仅 在 获取 点 才能 传播 写 提示 的 特点 ， 使 得 它 的 实现 在 写 是 否 传播 这 一 点 上 与 释放 同 
一 性 不 同 ， 进 而 产生 释放 同一 性 条 件 下 不 允许 的 结果 。 所 以 LRC 是 与 释放 同一 性 不 同 的 同 
一 性 模型 ， 因 而 要 求 在 编程 时 更 加 小 心 ( 见 例 9.2)， 而 ERC 则 仅仅 是 释放 同一 性 的 一 个 不 
同 的 实现 而 已 。 但 是 ， 如 果 适 当地 对 程序 加 以 标记 ， 即 如 9.1.2 节 所 讨论 的 那样 标记 所 有 的 
同步 操作 ， 那 么 就 能 保证 它 在 RC 和 LRC 下 都 能 正确 运行 ， 一 致 性 和 顺序 同一 性 都 能 被 
满足 。 





图 9-14 同步 操作 间 的 因果 次 序 及 这 些 操作 之 间 的 数据 访问 组 . 该 图 说 明了 在 进程 P 的 获取 A1l 和 
进程 P, 的 释放 R1 之 前 的 同步 操作 是 什么 。 水 平 点 线 是 时 间 增 量 ， 向 下 递增 ， 指明 可 能 
的 时 间 上 的 重 谷 。 粗 科 头 说 明了 沿 获取 -释放 链 的 依赖 次 序 ， 而 灰 箭 头 显 示 了 作为 因果 次 
序 一 部 分 的 程序 原 序 。 箭 头 未 涉及 A2 和 R2 及 A4 和 BR4 操 作对 ， 所 以 按 因果 次 序 它们 不 在 
感 兴趣 的 获取 之 前 ， 因 此 ， 在 该 获取 之 后 的 数据 访问 不 一 定 看 到 这 些 操作 对 之 间 的 数据 访问 
例 9.2 设计 一 个 例子 , 使 得 LRC 产生 与 RC 不 同 的 结果 。 你 如 何 避 免 这 一 问题 ? 
RE: 考虑 以 下 代码 段 ， 假 定 指针 ptr 初始 为 NULL 。 
在 RC MERC 下 ， 新 的 非 空 指针 值 保证 在 P 的 unlock (FER) 操作 结束 前 传播 给 P,, x 
样 ，P, 将 观察 到 新 的 值 ， 并 像 我 们 所 期 望 的 那样 跳出 循环 。 在 LRC 下 ，P 在 执行 它 的 lock 
(获取 操作 ) 之 前 将 不 会 观察 到 P 的 写 ; 它 将 因此 而 进入 while 循 环 ， 而 永远 看 不 到 P 的 写 ， 
所 以 也 永远 不 会 退出 while 循环 。 解 决 办 法 是 在 while 循环 的 读 之 前 放置 适当 的 获取 同步 操作 
或 者 把 对 ptr 的 访问 标记 为 同步 ， 从 而 生成 适当 标记 的 程序 o M 
仅 在 软件 SVM 层 能 识别 的 同步 操作 处 传播 一 致 性 信息 这 一 事实 具有 一 个 有 趣 的 相关 含 


BOF IHE gE td E 517 





Pi P2 
lock L1; 
ptr = non_null_ptr_val; 
unlock L1; while (ptr == null) {}; 
lock L1; 
a = ptr; 
unlock L1; 


义 。 在 采用 放松 的 同一 性 模型 的 SVM 系统 上 运行 现成 的 应 用 程序 二 进 制 代码 是 困难 的 ， 即 
使 这 些 二 进 制 代码 是 针对 支持 非常 放松 的 同一 性 模型 的 系统 而 编译 并 且 已 被 适当 地 标记 过 。 
其 原因 是 标记 已 经 被 编译 成 特定 的 商品 化 微 处 理 器 使 用 的 隔 栅 指令 ， 而 软件 SVM 层 可 能 看 
个 到 这 些 隔 栅 指 令 。 当 然 ， 如 果 能 获得 源 代码 或 带 有 标记 的 汇编 码 ， 就 可 以 把 标记 转换 成 
SVM 层 能 识别 的 原 语 ; 如 果 只 有 二 进 制 码 ， 可 以 使 用 现 有 的 工具 对 它 编辑 ， 通 过 插入 适当 
代码 而 使 SVM 运行 时 系统 能 观察 到 这 些 标 记 。 

2. 多 写 入 者 协议 

在 前 面 讨论 的 例子 中 ， 在 两 个 同步 点 之 间 ， 如 果 只 有 一 个 共享 者 对 页 面 写 人 (其 他 共享 
者 可 以 读 这些 页 面 )， 推 迟 写 提示 的 方法 对 缓解 伪 共享 效应 非常 有 效 。 但 是 ， 它 不 能 解决 多 
写 人 者 的 问题 。 试 考察 图 9-15 中 修改 过 的 例子 。 现 在 ，P, 和 P 两 者 都 在 相同 两 个 顶 障 之 间 
修改 同一 个 页 面 。 如 果 我 们 遵循 只 允许 单一 写 人 者 的 协议 的 话 ， 那 么 每 个 写 人 者 在 写 之 前 必 
须 获得 页 面 的 所 有 权 ， 导 致 同步 点 间 的 往返 通信 ,牺牲 了 (允许 多 个 写 和 信者 同时 存在 的 ) 放 
松 同 一 性 模型 的 潜在 效益 。 为 了 真正 发 据 放 松 同 一 性 的 效益 ， 我 们 需要 多 写 入 者 协议 。 这 种 
协议 允许 各 处 理 器 在 同步 点 间 对 页 面 写 人 ， 以 便 在 本 地 修改 它 自己 的 副本 使 前 本 变 得 不 一 
致 ， 然 后 按 同 一 性 模型 所 要 求 的 那样 ， 在 下 一 个 同步 点 使 这 些 副本 一 致 。 让 我 们 简要 地 了 解 
一 下 几 种 多 写 人 者 机 制 ， 它 们 可 用 于 积极 或 惰性 释放 同一 性 。 


p wy) wy) wy BAR tx) 
o 


wx) wx) wx) BAR ry) 


图 915 SARA. CHR, AAMAS IRS AM, CARRE SH 


第 一 种 办 法 是 Rico 大 学 的 TreadMarks SVM 系统 所 采用 的 (Keleher 等 1994)。 它 的 概念 相 
当 简 单 。 为 了 捕获 对 共享 页 面 的 修改 ， 页 面 被 初始 化 成 写 保护 的 。 同 步 点 后 第 一 个 写 产 生 一 
个 保护 违规 。 此 刻 ， 系 统 用 软件 生成 该 页 面 的 一 个 副本 ( 称 为 李 生 )， 然 后 解除 实际 页 面 的 
保护 ， 这 样 后 续 的 写 不 会 再 产生 保护 违规 。 以 后 ， 在 该 进程 的 下 一 个 释放 或 获取 到 来 时 (分 
别 对 于 ERC 和 LRC) ， 挛 生 和 当前 副本 进行 比较 ， 生 成 一 个 “差异 ”记录 ， 它 不 过 是 两 个 副 
本 之 间 不 同 之 处 的 压缩 编码 的 表示 。 所 以 该 差异 记录 捕获 了 处 理 器 在 同步 区 间 对 页 面 所 做 的 
修改 。 当 一 个 处 理 器 产生 缺 页 时 ， 它 必须 从 生成 该 页 的 差异 记录 的 其 他 处 理 器 获得 差异 并 把 
它 与 它 自己 的 副本 合并 。 与 写 提示 情况 类 似 ， 关 于 何 时 计算 差异 ， 何 时 将 差异 记录 以 及 页 面 
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的 副本 传播 给 其 他 处 理 器 存在 几 种 途径 (见习 题 9.23)。 如 果 在 释放 点 积极 地 传播 差异 记 
录 ， 这 些 记录 和 写 提 示 可 以 立即 释放 ， 存 储 空间 可 以 再 利用 。 在 惰性 实现 情况 ， 差 异 和 写 提 
示 在 被 请 求 之 前 可 以 一 直 由 其 生成 者 保存 。 在 这 种 情况 下 ， 它 们 必须 被 一 直人 保持， 直到 确认 
再 没有 其 他 处 理 器 需要 它们 为 止 。 因 为 这 些 差异 和 写 提 示 所 需 的 存储 空间 可 能 很 大 ， 因 此 需 
要 废料 收集 〈 例 如 ， 通 过 强制 性 地 传播 差异 和 写 提 示 )。 废 料 收集 的 算法 相当 复杂 而 昂贵 ， 
因为 当 调 用 它 时 ， 每 个 页 面 都 可 能 有 未 收集 的 差异 散布 在 许多 节点 上 (Keleher et al. 1994) 。 

另 一 种 软件 的 多 写 人 者 的 方法 在 仍然 实现 LRC 的 前 提 下 避免 废料 收集 ， 它 采取 一 组 不 
同 的 性 能 折 中 (Jftode，Singh，and Li 1996b; Zhou, Iftode, and Li 1996) 。 其 概念 是 ， 既 不 是 在 
需要 之 前 由 写 人 者 保持 差异 ， 也 不 是 在 释放 点 把 差异 传播 给 所 有 的 副本 ， 而 是 取 其 折 中 。 与 
扁平 的 硬件 一 致 性 方案 一 样 ， 每 个 页 面 有 一 个 宿主 节点 ， 在 释放 点 把 差异 传播 给 宿主 。 然 后 
执行 释放 的 处 理 器 在 将 差异 传播 给 宿主 后 ， 可 以 立即 释放 所 占用 的 存储 空间 。 到 达 宿 主 的 差 
异 记录 和 对 应 的 页 面 合 并 (差异 在 那里 所 占 的 存储 空间 也 可 以 释放 )， 所 以 宿主 的 页 面 保持 
最 新 。 执 行 获取 的 处 理 器 像 以 前 那样 从 先前 的 释放 者 得 到 写 提 示 。 但 是 ， 当 它们 针对 这 些 页 
中 的 某 一 页 产生 后 续 的 缺 页 时 ， 它 并 不 从 所 有 先导 的 写 人 者 得 到 差异 记录 ， 而 是 从 该 页 的 宿 
主 取 回 整个 页 面 。 我 们 称 这 为 基于 宿主 的 协议 。 它 除了 具有 低 得 多 的 存储 开销 和 更 好 的 存储 
可 扩展 性 外 ， 还 具有 性 能 上 的 优点 ， 即 在 缺 页 时 只 需要 一 个 往返 的 消息 来 取得 数据 ， 而 在 前 
面 的 方案 中 ， 必 须 从 所 有 的 先导 的 CBR) 写 人 者 获得 差异 记录 。 另 外 ， 处 理 器 从 来 不 会 
为 以 其 本 身 为 宿主 的 页 面 产 生 缺 页 。 其 缺点 是 必须 取 整 个 页 面 而 不 仅仅 是 差异 记录 (虽然 ， 
我 们 也 可 以 把 差异 记录 存放 在 宿主 ， 但 不 与 页 面 合并 ， 然 后 从 宿主 取 差 异 记 录 来 折 中 存储 容 
量 和 协议 处 理 开销 ) ， 而 且 由 于 性 能 原因 ， 尽 管 页 面 在 主 存 中 有 复制 ， 它 们 在 宿主 的 分 布 变 
得 重要 了 。 哪 个 方案 的 性 能 更 好 取决 于 应 用 的 共享 模式 如 何以 页 面 粒度 呈现 ， 也 取决 于 通信 
体系 结构 的 性 能 特征 。 

3, 其 他 传播 写 的 办 法 

差异 处 理 (包括 挛 生 页 的 生成 、 差 异 的 计算 和 差异 的 应 用 ) 会 引起 显著 的 开销 ， 需 要 相 
当 大 的 额外 存储 空间 ， 而 且 会 由 于 替换 掉 有 用 的 应 用 数据 而 污染 第 一 级 处 理 器 高 速 缓 存 。 某 
些 近期 的 系统 在 网 络 接口 中 对 细 粒 度 通信 ， 特 别 是 远 地 处 理 器 细 粒 度 的 写 传播 提供 了 硬件 支 
持 ， 这 可 以 被 用 来 加 速 那些 基于 宿主 的 多 写 人 者 SVM 协议 ， 避 免 使 用 差异 。 对 于 写 的 硬件 
传播 的 概念 起 源 于 PRAM (Lipton and Sandberg 1988) 和 PLUS (Bisiani and Ravishankar 1990) 
系统 ; 现代 的 例子 包括 普林斯顿 大 学 的 SHRIMP 多 计算 机 原型 的 网 络 接口 (Blumrich et al. 
1994) 和 Digital Equipment Corporation 的 存储 器 通道 (Gillett, Collins, and Pimm 1996), 

这 些 网 络 接口 允许 在 不 同 节点 的 页 对 之 间 建 立 映 射 ， 这 样 对 源 页 面 的 写 由 硬件 传播 到 目 
的 页 面 。 写 的 检测 可 以 通过 监听 存储 器 总 线 (如 SHRIMP 中 称 为 自动 更 新 机 制 ) 或 通过 对 写 
操作 进行 软件 修改 ， 产 生 对 不 同 地 址 空间 的 特殊 的 写 (在 存储 器 通道 中 称 为 双 写 机 制 )。 然 
后 ， 网 络 接口 根据 映射 传播 检测 到 的 写 ， 网 络 接口 甚至 可 以 位 于 IO 总 线 上 。 侦 昕 的 方案 要 
求 对 高 速 缓存 直 写 ， 而 后 者 会 有 额外 的 指令 开销 ， 需 要 代码 的 调整 。 通 过 建立 页 面 副本 和 宿 
主 拷贝 的 映射 关系 ( 当 这 些 副 本 首次 建立 时 )， 写 可 以 被 传播 到 宿主 ， 使 宿主 根据 同一 性 模 
型 而 保持 最 新 ( 见 图 9-16)。 与 前 面 讨论 的 完全 一 样 ， 像 写 提示 的 传播 和 实施 这 样 的 同一 性 
动作 是 在 同步 点 进行 的 ， 缺 页 时 从 宿主 取 回 完整 的 页 面 。 利 用 这 些 特 性 ， 人 们 开发 了 基于 宿 
主 的 协议 (Iftode et al. 1996; Iftode, Singh, and Li 1996a; Kontothanassis and Scott 1996) ， 事 实 
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上 ， 正 是 受 它 们 启发 产生 了 全 软件 的 基于 宿主 的 协议 。 这 些 细 粒度 写 传播 的 方法 从 根本 上 避 
免 了 差异 的 使 用 ， 但 是 ， 它 们 要 求 硬件 的 支持 ， 而 且 由 于 传播 所 有 的 写 ， 而 不 是 仅仅 在 同步 
的 末尾 传播 最 后 的 新 值 ， 从 而 增加 了 数据 的 流量 。 


P2 








a) 白 动 更 新 机 制 ”hb) 使 用 日 动 更 新 支持 多 写 入 兰 


图 9-16 使 用 自动 更 新 机 制 来 解决 多 写 人 者 问题 , 变量 x 和 y 落 入 同一 页 ， 节 点 及 是 该 页 的 宿主 。 如 果 P 
(RP) 是 宿主 ， 它 就 不 需要 传播 自动 的 更 新 ， 也 不 会 在 该 页 上 发 生 缺 页 (只 有 其 他 节点 会 发 生 ) 

男 一 种 计算 差异 的 全 软件 的 方法 用 软件 对 主 存 的 每 一 个 字 或 块 保存 一 个 脏 位 (Zekaus- 
kas, Sawdon, and Bershad 1994)。 一 个 字 的 脏 位 记录 了 自从 脏 位 最 后 一 次 被 清除 以 来 ， 该 字 
是 否 已 被 本 地 节点 写 人 过 。 脏 位 在 同步 点 被 清除 ， 当 到 达 同 步 点 时 ， 一 页 中 那些 发 现 被 置 位 
的 脏 位 等 价 于 该 页 的 差异 记录 。 尽 管 差异 的 决定 不 需要 页 面 与 其 挛 生 页 的 比较 ,但 脏 位 的 置 
位 和 复位 需要 额外 的 指令 和 代码 调整 ， 这 和 存储 器 通道 接口 的 写 传播 所 需 的 类 似 。 可 以 用 软 
件 分 析 来 降低 开销 ， 但 开销 仍然 是 相当 大 的 。 

至 此 ， 我 们 的 讨论 集中 于 不 同 的 惰性 程度 的 功能 ， 但 没有 提 及 实现 。 我 们 如 何 保证 满足 
因果 偏 序 的 写 提 示 能 在 正确 的 时 间 到 达 正 确 的 位 置 ? 如 何 降低 写 提示 传输 的 次 数 ” 有 许多 方 
法 和 机 制 可 用 于 实现 不 同形 式 的 释放 同一 性 协议 (单一 或 多 写 人 者 、 基 于 获取 或 基于 释放 以 
及 实际 实现 的 惰性 的 程度 )。 机 制 和 各 种 机 制 支持 的 惰性 的 形式 以 及 它们 之 间 的 折 中 是 有 趣 
的 , 第 9 章 9,6.2 节 将 对 它们 进行 讨论 。 

4. 总 结 : 一 个 读 操作 的 路 径 

为 了 归纳 一 个 SVM 系统 的 行为 ， 让 我 们 观察 一 个 读 的 路 径 。 我 们 考察 基于 宿主 的 系统 
的 行为 ， 因 为 它 比 较 简单 。 读 访问 首先 在 处 理 咒 的 存储 器 管理 部 件 经 历 了 从 虚 地 址 到 物理 地 
址 的 地 址 转换 。 如 果 发 现 了 本 地 的 页 面 映射 ， 就 查找 高 速 缓存 层次 ， 这 和 一 - 般 的 单 处 理 器 的 
操作 完全 一 样 。 如 果 找 不 到 本 地 的 页 面 映 射 ， 就 会 发 生 缺 页 ， 然 后 建立 映射 ， 提 供 物 理 地 
址 。 如 果 操 作 系统 指示 该 页 当前 不 存在 于 任何 其 他 节点 ， 那 么 从 磁盘 调 人 该 页 ， 使 其 具有 读 
写 允 许 权 ; 否则 ， 从 其 他 节点 得 到 具有 只 读 允 许 的 页 。 此 时 查找 高 速 缓存 。 如 果 在 本 地 存储 
器 和 高 速 缓存 层次 之 间 保 持 包容 关系 ， 这 是 为 了 使 高 速 缓 存 与 本 地 存储 器 保持 一 致 ， 访 问 就 
会 扑 空 ， 要 从 主 存 中 页 面 映射 的 位 置 将 块 调和 高 速 缓 存 。 注 意 ， 包 容 意味 着 当 一 个 页 面 被 从 
本 地 存储 器 作废 ， 或 从 读 写 模式 降级 为 只 读 模 式 ， 或 被 替换 时 ， 要 将 它 从 高 速 缓存 腾空 (R 
者 改变 高 速 缓 存 块 的 状态 ) 。 如 果 对 一 个 只 读 页 发 出 写 访 问 ， 那 么 也 会 发 生 缺 页 ， 在 高 速 组 
存 能 够 满足 访问 之 前 ， 要 得 到 该 页 的 拥有 权 。 
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5. 对 性 能 隐 含 的 意义 

与 顺序 同一 性 实现 相 比 ， 惰 性 释放 同一 性 和 多 写 人 者 协议 大 大 改善 了 SVM 系统 的 性 能 。 
但 是 ， 与 采用 硬件 以 高 速 缓存 块 的 粒度 管理 一 致 性 的 机 器 相 比 ， 仍 存在 许多 性 能 问题 。 伪 共 
享 和 额外 的 通信 或 协议 处 理 开销 并 不 随 放 松 的 模型 而 消失 ， 满 足 缺 页 和 取 页 的 代价 仍然 是 昂 
贵 的 。 遂 信 的 高 代价 和 由 较 高 的 端点 处 理 开 销 引 起 的 竞争 经 常 严 重地 扩大 了 处 理 器 之 间 通 信 
量 和 执行 时 间 的 不 平衡 。SVM 系统 的 另 一 个 问题 在 于 同步 是 由 软件 通过 显 式 的 软件 消息 完 
成 的 ， 因 而 代价 非常 大 。 在 临界 区 中 经 常 发 生 昂贵 的 页 扑 空 这 一 事实 使 问题 更 加 严重 ， 因 为 
这 人 为 地 扩大 了 临界 区 ， 从 而 大 大 提高 了 临界 区 的 串 行 性 。 其 结果 是 ， 尽 管 具有 粗 粒度 数据 
访问 和 同步 模式 (很 少 的 伪 共 享 或 通信 碎片 的 应 用 在 SVM 系统 上 运行 得 很 好 ， 但 具有 较 
细 粒 度 访问 模式 ( 即 来 自 不 同 进程 的 对 共享 虚 地 址 空间 的 访问 以 细 粒 度 重 赫 )， 特别 是 较 细 
粒度 同步 的 应 用 并 不 能 很 好 地 从 硬件 高 速 缓存 一 致 性 系统 迁移 到 SVM 系统 ， 除 非 对 它们 进 
行 加 工 (Jiang, Shan, and Singh 1997)。SVM 系统 在 性 能 和 运行 大 问题 的 能 力 方面 的 可 伸缩 性 
也 不 确定 ， 因 为 辅助 的 数据 结构 的 存储 开销 随 着 处 理 器 的 数量 而 上 升 。 

总 的 来 说 ,我 们 还 不 清楚 是 否 能 重新 构造 在 硬件 一 致 性 机 器 上 运行 良好 的 细 粒 度 应 用 ， 
使 其 能 有 效 地 在 SVM 系统 上 运行 ， 也 不 清楚 SVM 系统 是 否 对 宽 范 围 的 应 用 可 行 。 人 们 正在 
开展 研究 ， 以 便 理 解 性 能 问题 和 瓶颈 (Dwarkadas et al. 1993; Iftode, Singh, and Li 1996a; 
Kontothanassis et al. 1997; Jiang, Shan, and Singh 1997) 以 及 在 仍然 用 软件 维持 页 粒度 的 一 致 
性 同时 ， 增 加 某 些 硬件 支持 细 粒 度 通信 的 价值 《Kontothanassis and Scott 1996; Iftode, Singh, 
and Li 1996a; Bilas, Iftode, and Singh 1998)。 随 着 低 成 本 的 SMP 的 流行 ， 还 有 许多 研究 正在 扩 
Æ SVM 协议 , .以便 建 造 具 有 二 级 层次 的 一 致 共享 地 址 空间 的 机 器 : 在 SMP 节点 内 部 是 硬件 
一 致 性 ， 而 在 SMP 节点 之 间 是 软件 SVM 一 致 性 〈FErlichson et al. 1996; Stets et al. 1997; Sa- 
manta et al，1998) 。 其 目标 是 尽 可 能 少 地 调用 外 层 的 SVM 协议 ， 只 有 当 需 要 跨 节 点 一 致 性 时 
才 调 用 它 ， 同 时 仍然 保留 节点 内 部 的 情 性 。 向 高 速 缓存 一 致 的 分 布 式 存储 器 节点 而 不 是 向 
SMP 节点 的 延伸 是 自然 的 事情 。 事 实 上 ， 像 SVM 这 样 便宜 但 性 能 低 的 软件 共享 存储 器 方法 
并 不 是 对 单 处 理 器 节点 之 间 硬 件 一 致 性 的 替代 ， 它 可 以 被 看 作 是 一 种 一 致 共享 地 址 空间 编程 
模型 的 扩展 方法 ， 即 从 硬件 一 致 的 多 处 理 器 节点 到 这 样 的 节点 的 群 ， 从 而 构造 大 规模 的 系 
统 。 让 我 们 来 考察 其 他 一 些 软件 方案 。 


9.3.4 语言 和 编译 器 支持 的 访问 控制 


我 们 还 可 以 谋求 语言 和 编译 器 对 一 致 复制 的 支持 。 一 个 方案 是 根据 数据 对 象 或 数据 的 
“区 域 ”来 编程 ， 让 管理 这 些 对 象 的 运行 时 系统 以 对 象 粒度 提供 访问 控制 和 一 致 的 复制 。 通 
过 明确 地 使 用 对 象 ， 该 方法 不 是 把 存储 器 看 作 扁平 的 地 址 空间 。 下 面 将 看 到 ， 这 种 “共享 对 
象 空间 ”的 编程 模型 启发 我 们 使 用 更 为 放松 的 存储 同一 性 模型 。 下 面 还 将 简要 讨论 基于 编译 
器 的 一 致 性 以 及 用 软件 提供 共享 地 址 空间 但 不 提供 自动 复制 和 一 致 性 的 方法 。 

1. 基于 对 象 的 一 致 性 

释放 同一 性 模型 利用 了 存储 同一 性 的 “时 间 ” (when) 维 ， 它 告诉 我 们 什么 时 候 需要 将 
一 个 进程 的 写 人 由 其 他 进程 执行 。 正 如 我 们 讨论 过 的 ， 这 一 点 允许 我 们 开发 一 系列 懒惰 式 的 
实现 ， 它 们 尽 可 能 久 地 推迟 写 的 执行 。 但 是 ， 即 使 采用 释放 同一 性 ， 如 果 程 序 中 的 同步 要 求 
进程 P 的 写 在 某 一 点 之 前 对 于 进程 P 执行 或 为 P 所 见 ， 这 意味 着 进程 P 对 数据 的 所 有 写 
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和 人 都 为 外 界 所 见 ， 即 使 P 并 不 需要 看 到 这 些 数据 ( 见 图 9-17) 。 更 为 放松 的 同一 性 模型 还 考 
虑 同一 性 的 “什么 ” (what) 维 ， 就 是 说 ， 仅 仅 对 执行 获取 同步 的 进程 根据 同步 的 因果 关系 
而 真正 需要 看 到 的 那些 数据 传播 作废 和 更 新 。 程 序 员 通 过 在 程序 中 插 人 的 同步 说 明 释 放 同 一 
性 的 时 间 维 。 问 题 是 如 何 说 明 “ 什 么 ” 维 。 一 种 可 能 是 给 同步 事件 (或 变量 ) 附加 一 组 页 
面 ， 这 些 页 面 对 于 该 事件 必须 保证 一 致 。 但 是 ， 程 序 员 很 难 完成 这 个 任务 。 


Write A 图 9.17 WHA RL — PRR. BE AMB 
l 位 于 不 同 的 页 。 因 为 P 在 释放 工 之 前 对 4 
Acquire L 和 8 写 人 (即使 不 是 在 临界 区 内 写 A), X 
Write B A 和 8 的 作废 将 被 传播 到 已 而 且 施 加 到 
那里 的 4 和 8 的 副本 上 。 BÆ, PREE 

ReleaseL = 看 到 对 有 的 写 ， 不 需要 了 解 对 4 的 写 。 现 
“7 æ Acquire L EBRE RP, 读 与 4 处 于 同一 页 的 另 一 个 变量 
Co 因为 包含 4 的 页 已 经 被 作废 了 , 已 在 
访问 时 将 产生 一 个 由 伪 共 享 所 致 的 页 扑 空 。 
Release L 如 果 以 某 种 办 法 把 包含 B 的 页 与 锁 虐 相 联 
A, MAP, 获取 上 时 只 会 传播 B 的 作 

Read C 废 ， 而 伪 共享 引起 的 扑 空 就 不 会 发 生 了 


Read B 


基于 域 或 基于 对 象 的 方法 提供 了 更 好 的 解决 方案 。 程 序 员 把 数据 分 割 成 逻辑 对 象 或 区 域 
(区 域 是 任意 的 、 由 用 户 说 明 的 虚 地 址 的 范围 ， 它 被 当 作 对 象 处 理 但 不 需要 面向 对 象 的 程序 
设计 )。 运 行 时 库 以 这 些 区 域 或 对 象 为 粒度 维护 一 致 性 ， 而 不 是 把 以 页 面 粒 度 的 一 致 性 维护 
工作 全 部 留 给 操作 系统 来 完成 。 这 一 途径 的 缺点 在 于 增加 了 适当 说 明和 使 用 区 域 或 对 象 的 编 
程 负担 ， 而 且 在 应 用 和 操作 系统 之 间 需 要 复杂 的 运行 时 系统 。 主 要 优点 是 1) 逻辑 对 象 (而 
不 是 机 器 提供 的 固定 的 一 致 性 粒度 ) 本 身 有 助 于 降低 伪 共 享 和 碎片 ，2) 它们 提供 了 逻辑 地 
说 明 数 据 的 手段 ， 放 松 了 利用 “什么 ” 维 的 同一 性 。 

例如 ， 在 入 口 同 一 性 (entry consistency) 模型 中 (Bershad, Zekauskas, and Sawdon 1993), 
程序 员 将 一 组 数据 〈 区 域 或 对 象 ) FE EME BH RR REY I ee Aj 
事件 相 联系 〈 付 出 一 定 代 价 ， 这 种 联系 或 绑 定 可 以 在 运行 时 改变 )。 在 同步 点 ， 只 保证 那些 
与 同步 变量 相 联 的 对 象 或 区 域 的 一 致 性 。 对 其 他 修改 过 的 数据 的 写 提 示 不 必 传播 和 应 用 。 如 
果 未 对 同步 变量 说 明 绑 定 ， 就 使 用 缺 省 的 释放 同一 性 模型 。 但 是 ， 绑 定 不 仅 是 提示 性 的 ， 如 
果 说 明 ， 就 必须 是 完整 和 正确 的 ， 否则 就 会 得 到 错误 的 程序 结果 。 清 楚 正 确 的 绑 定 的 需求 给 
程序 员 增 加 了 相当 大 的 负担 ， 而 且 该 模型 也 还 没有 显示 出 显著 的 性 能 增益 来 证 明 它 是 值得 
的 。 程 序 设计 语言 Jade 虽然 用 不 同 的 方法 说 明 数 据 ， 但 达到 了 类 似 的 效果 (Rinard, Seales, 
and Lam 1993)。 最 后 ， 人 们 还 使 用 一 种 称 为 范围 同一 性 (scope consistency) 的 模型 ， 试 图 发 
担 同 步 和 数据 之 间 基 于 页 的 虚拟 存储 器 方式 的 隐 式 结合 的 效果 (tode, Singh, and Li 
1996b) 。 

2. 基于 编译 器 的 一 致 性 

研究 集中 于 利用 处 理 器 系统 额外 的 硬件 支持 ， 以 编译 器 保持 共享 地 址 空间 高 速 缓存 的 一 
致 。 这 类 方法 依赖 编译 器 (或 程序 员 ) 识别 并 行 循环 。 一 种 简单 的 一 致 性 方案 是 在 每 个 并 行 
循环 的 结尾 插入 一 个 栅 障 ， 而 在 循环 之 间 腾 空 高 速 缓存 。 但 是 ， 它 不 允许 高 速 缓存 利用 路 循 
环 的 数据 局 部 性 。 即 使 仅 腾 空 共享 的 数据 ， 那 些 在 共享 地 址 空间 内 声明 的 ， 但 没有 实际 共享 
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的 数据 也 不 必要 地 被 腾空 了 。 人 们 提出 了 更 复杂 的 方案 ， 这 些 方案 要 求 对 选择 性 作废 的 支持 
和 用 于 记录 应 作废 块 的 相当 复杂 的 硬件 支持 (Cheong and Viedenbaum 1990)。 除 了 以 非 标准 硬 
件 和 编译 器 支持 一 致 性 之 外 ， 这 些 方案 的 主要 问题 在 于 它们 依赖 编译 器 对 串 行程 序 的 自动 并 
行 化 ， 对 于 实际 的 程序 而 言 ， 这 不 是 很 成 功 的 。 

3. 不 带 一 致 复制 的 共享 地 址 空间 

这 类 系统 通过 语言 和 编译 器 支持 一 个 共享 的 地 址 空间 抽象 ， 但 不 带 自动 复制 和 一 致 性 ， 
这 正 是 CRAY T3D 和 T3E 的 硬件 所 完成 的 。 一 类 例子 是 像 高 性 能 Fortran (High Performance 
Fortran) 这 样 的 数据 并 行 语言 ( 见 第 2 章 )。 编 译 器 或 运行 时 系统 利用 用 户 说 明 的 数据 分 布 
和 拥有 者 的 计算 规则 ， 把 节点 外 的 存储 器 访问 翻译 成 显 式 的 消息 、 形 成 较 大 的 消息 、 调 整数 
据 以 获得 更 好 的 空间 局 部 性 等 等 。 复 制 和 一 致 性 的 任务 通常 留 给 用 户 ， 这 牺牲 了 编程 的 容易 
性 ; 而 另 一 种 方法 ， 系 统 软 件 力图 在 主 存 中 自动 管理 一 致 复制 。 人 们 也 正在 对 基于 C 和 
C++ 的 语言 做 与 HPF 类 似 的 努力 (Bodin et al. 1993; Larus, Richards, and Viswanathan 1996) 。 

Split-C 语言 采取 了 一 种 更 为 灵活 的 基于 语言 和 基于 编译 器 的 途径 (Culler et al. 1993). 
这 里 ， 用 户 明确 说 明 数 组 是 局 部 的 还 是 全 局 的 (共享 的 )， 而 对 全 局 的 数组 ， 还 要 说 明 它们 
如 何在 物理 存储 器 中 分 布 。 计 算 可 以 独立 于 数据 的 分 布 而 分 配 ， 对 全 局 数组 的 访问 由 编译 器 
或 运行 时 系统 根据 数据 分 布 转换 成 消息 。 计 算 分 配 和 数据 分 布 的 分 离 使 得 这 种 语言 比 用 于 平 
衡 不 规则 程序 负载 的 拥有 者 计算 规则 要 灵活 的 多 ， 但 是 它 仍然 未 支持 程序 员 难 以 管理 的 复制 
和 一 致 性 维护 。 当 然 ， 可 以 很 容易 地 将 所 有 这 些 软件 系统 移植 到 硬件 维护 一 致 共享 地 址 空间 
的 机 融 中 ， 后 者 隐 式 地 提供 了 共享 地 址 空间 、 复 制 和 一 致 性 。 在 这 种 情况 下 ， 可 以 用 运行 时 
系统 管理 主 存 中 的 复制 和 一 致 性 ， 以 比 高 速 缓存 块 更 大 的 单元 传输 数据 ， 但 这 些 功 能 并 不 是 
必须 的 。 


9.4 综合 : 分 类 和 简单 的 COMA 


本 章 讨 论 的 在 存储 器 层次 中 管理 复制 和 一 致 性 的 途径 有 几 个 目标 : COMA 通过 在 主 存 中 
复制 而 改善 性 能 ， 在 SVM 及 上 一 节 中 讨论 的 其 他 系统 则 降低 系统 成 本 。 在 一 个 统一 的 框架 
中 考察 复制 和 一 致 性 的 管理 产生 了 能 够 挑选 现存 系统 的 各 个 侧面 的 另外 一 种 系统 的 设计 。 一 
种 有 用 的 框架 在 两 个 密切 相关 的 坐标 上 区 分 不 同 的 途径 : 

1) 在 最 低层 的 复制 存储 器 中 分 配 数据 ， 保 持 数据 一 致 及 在 节点 间 交 换 数 据 的 粒度 。 

2) 在 通信 辅助 部 件 中 使 用 用 超出 单 处 理 器 系统 的 额外 硬件 支持 的 程度 。 

这 两 个 坐标 是 相关 的 ， 因 为 某 些 功能 如 无 额外 硬件 支持 要 么 不 可 能 实现 细 粒 度 〔〈 例 如 数 
据 在 主 存 中 的 分 配 ) ,要么 达 不 到 高 性 能 。 该 框架 对 于 在 高 速 缓存 (如 CC-NUMA) 或 在 主 存 
中 执行 复制 两 种 情况 都 是 适用 的 。 

图 9-18 描绘 了 整体 框架 和 不 同类 型 系统 在 其 中 的 位 置 。 我 们 把 粒度 分 为 “页 ”和 “ 块 ” 
(高 速 缓存 块 ) 两 种 ， 因 为 它们 在 不 需要 诸如 对 象 这 类 风格 编程 模型 的 透明 共享 地 址 空间 系 
统 中 最 流行 。 框 架 也 能 包括 诸如 单个 字 的 细 粒 度 和 诸如 对 象 或 存储 器 区 域 的 较 粗 粒 度 。 我 们 
将 会 看 到 ， 分配、 一 致 性 (访问 控制 ) 和 通信 的 粒度 相互 影响 。 

在 图 的 左 侧 是 COMA 系统 ， 它 通过 额外 硬件 支持 主 存 中 以 高 速 缓存 块 为 粒度 的 分 配 。 仪 


[724] 在 高 速 缓存 中 复制 数据 的 CC-NUMA 系 统 , 称 做 纯 CC-NUMA ,也 归于 这 一 类 ,在 按 高 速 缓存 
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分 配 块 (存储 器 / 高 速 缓存 ) 页 CAPE SE) 


H 


© © ~ ® 
o lowe “Xe 
Block* 页 
(SHRIMP, Cashmere) (ivy Tread- 


一 致 性 (访问 控制 类 








通信 块 
(COMA, 纯 CC-NUMA) (Stache, 简 单 (Blizzard-S， 
COMA) Shasta) 


图 9-18 在 一 致 的 共享 空间 系统 中 分 配 、 一 致 性 和 通信 的 粒度 。 所 说 明 的 粒度 是 为 了 当 数 据 被 取 到 -一 个 
节点 后 首次 自动 复制 而 规定 的 。 除 了 纯 CC-NUMA 以 高 速 缓存 复制 存储 外 ， 在 所 有 其 他 系统 中 ， 
复制 存储 的 层次 是 主 存 。 在 这 个 分 类 的 各 个 叶子 之 下 列 出 了 该 类 型 的 某 些 代表 性 系统 、 协 议 或 
系统 系列 ， 而 在 各 个 节点 旁边 的 字母 表明 该 功能 是 以 硬件 (H) 还 是 软件 (S) 支持 的 。 有 一 处 
在 “ 块 ”和 “H” 旁 边 加 了 星 号 ， 这 表示 在 该 情况 下 不 是 所 有 的 通信 都 以 绍 粒 度 执行 。 关 于 这 
些 系统 或 系统 系列 的 引用 文献 包括 COMA (Hagersten, Landin, and Haridi 1992; Stenstrom, Joe, and 
Gupta 1992; Frank, Burkhardt, and Rothnie 1993 ) ， 纯 CC-NUMA (Laudon and Lenoski 1997), Stache 
(Reinhardt, Larus and Wood 1994), 简单 COMA (Saulsbury et al. 1995), Blizzard-S (Schoinas et al. 1994) , 
Shasta (Scales, Gharachorloo, and Thekkath 1996), SHRIMP (Blumrich et al. 1994; Iftode et al. 1996), 
Cashmere (Kontothanassis and Scott 1996), Ivy (Li and Hudak 1989), and TreadMarks (Keleher et al. 1994) 


块 粒度 分 配 的 情况 下 ， 至 少 应 以 同样 粒度 保持 数据 一 致 并 以 更 细 的 粒度 进行 通信 ? 。 

在 图 的 右 侧 是 在 主 存 中 以 页 面 的 粒度 分 配 和 管理 空间 的 系统 ， 它 们 不 需要 额外 的 硬件 完 
成 该 功能 。 这 些 系统 就 像 SVM 那样 ， 也 可 以 以 页 的 粒度 提供 访问 控制 和 一 致 性 ， 它 们 可 能 
提供 或 也 可 能 不 提供 对 细 粒 度 通信 的 支持 。 它 们 可 能 使 用 软件 调整 或 硬件 支持 的 方法 以 更 细 
的 块 粒度 提供 访问 控制 和 一 致 性 。 一 般 来 说 ， 以 细 粒 度 支持 一 致 性 的 系统 也 为 细 粒 度 的 通信 
提供 某 种 形式 的 硬件 支持 ， 


综合 : 简单 的 COMA 和 Stache 


尽管 COMA 和 SVM 两 者 都 在 主 存 中 复制 ， 分 别致 力 于 解决 纯 CC-NUMA 存在 的 部 分 但 不 
是 全 部 的 局 限 性 ， 但 它们 处 于 前 面 的 分 类 的 两 个 极端 。COMA 是 硬件 密集 型 的 解决 方案 ， 它 
维持 细 粒 度 ， 但 是 在 管理 主 存 方面 ， 产 生 了 一 些 对 于 硬件 来 说 是 挑战 性 的 问题 (如 最 后 一 个 
副本 的 问题 )。SVM 把 这 些 复杂 的 存储 器 管理 问题 留 给 了 系统 软件 (这 简化 了 硬件 ， 因 为 通 
过 操作 系统 虚 存 到 物理 存储 器 的 映射 ， 能够 像 全 相关 高 速 缓 存 那样 管理 主 存 )， 但 它 的 性 能 
却 由 于 大 的 粒度 和 一 致 性 的 软件 开销 而 大 打折 扣 。 图 9-18 的 框架 产生 了 一 种 结合 了 SVM 的 
低 成 本 及 硬件 简单 性 和 COMA 的 性 能 优势 及 易 编 程 性 的 有 趣 的 方法 ， 即 在 图 的 中 部 所 示 的 简 
单 COMA (Saulsbury et al. 1995) 和 Stache (Reinhardt, Larus, and Wood 1994) 方案 。 这 些 方 
案 把 主 存 中 一 致 复制 的 任务 分 成 两 部 分 ， 存储 器 管理 〈 地 址 翻译 、 分 配 和 替换 ) 和 一 致 性 保 
持 (包括 复制 和 通信 )。 这 些 方案 和 COMA 类 似 ， 为 达到 高 性 能 ， 通 过 特殊 硬件 支持 而 提供 
细 粒 度 的 一 致 性 ,又 与 SVM 相像 (因而 与 COMA 不 同 ) ,它们 把 存储 器 管理 留 给 操作 系统 ， 





O ”这 并 不 是 说 细 粒 度 的 分 配 必 然 意味 着 细 粒 度 的 一 致 性 或 通信 。 例 如 ， 即 使 分 配 和 一 致 性 是 细 粒 度 的， 为 了 获得 
大 块 数据 传输 的 优点 ， 可 能 采用 粗 的 通信 粒度 。 但 是 ， 我 们 这 里 讨论 的 确实 是 一 般 的 情况 ， 我 们 的 注意 力 将 集 
中 于 这 类 情况 。 
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以 页 面 粒度 完成 。 让 我 们 先 考察 简单 COMA, 

相对 COMA 来 说 ， 简 单 COMA 的 主要 吸引 力 在 于 设计 的 简单 。 通 过 虚拟 存储 器 系统 执行 
存储 器 管理 简化 了 硬件 协议 ， 而 且 还 允许 使 用 任意 的 替换 政策 对 吸引 存储 器 进行 全 相关 的 管 
理 。 为 了 提供 硬件 的 细 粒 度 的 一 致 性 或 访问 控制 ， 节 点 主 存 的 每 个 页 面 被 划分 成 任何 选 定 尺 
SH 《比如 高 速 缓 存 块 ) 的 一 致 性 块 ， 并 用 硬件 为 每 个 块 保存 状态 信息 。 与 COMA 不 同 之 处 在 
于 ， 它 不 需要 标记 ， 因 为 存在 性 检测 是 在 页 面 的 级 别 完 成 的 。 与 常规 情况 一 样 ， 在 访问 块 之 
前 要 检测 页 允许 。 当 处 理 器 高 速 缓存 扑 空 时 ， 块 的 状态 的 检测 与 存储 器 访问 并 行进 行 。 所 
以 ， 有 两 级 访问 控制 : 操作 系统 控制 的 页 面 访问 控制 和 在 页 面 访问 成 功 条 件 下 硬件 控制 的 块 
访问 控制 。 

让 我 们 考虑 简单 COMA 相对 于 COMA 的 性 能 折 中 。 简 单 COMA 降低 了 被 局 部 吸引 存储 器 
满足 的 访问 的 时 延 (希望 这 是 高 速 缓存 扑 空 时 频繁 的 情况 )。 它 不 需要 COMA 所 使 用 的 硬件 
标记 比较 和 选择 ， 事 实 上 也 不 需要 纯 CC-NUMA 机 为 了 决定 是 否 查 找 本 地 存储 器 而 要 求 的 本 
地 /远程 地 址 的 检查 。 另 一 方面 ， 每 个 高 速 缓存 的 扑 空 都 导致 对 本 地 吸引 存储 器 的 查找 ， 与 
COMA 类 似 ， 非 本 地 的 访问 的 路 径 较 长 。 因 为 在 节点 的 操作 系统 的 独立 控制 下 ， 一 个 共享 页 
可 能 位 于 不 同 存储 器 的 不 同 物理 地 址 ;与 COMA 情况 不 同 ， 不 能 在 扑 空 时 简单 地 向 网 络 发 出 
块 的 物理 地 址 并 在 另 一 端 使 用 它 。 这 意味 着 必须 支持 一 个 共享 的 虚拟 地 址 空间 ， 而 不 是 物理 
地 址 空间 。 但 是 ， 处 理 器 发 出 的 虚拟 地 址 在 检测 出 吸引 存储 器 扑 空 时 已 不 存在 了 。 而 在 那个 
时 刻 存 在 的 物理 地 址 必须 被 反 向 转换 成 虚 地 址 或 其 他 全 局 一 致 的 标识 符 ; 该 标识 符 经 由 网 络 
发 送 ， 在 另 一 端的 节点 转换 成 物理 地 址 (可 能 是 不 同 的 物理 地 址 )。 该 进程 引起 了 附加 的 时 
KE, 9.6 市 将 对 其 进一步 讨论 。 

与 COMA 相 比 简单 COMA 的 另 一 个 缺点 是 ， 虽 然 通信 和 一 致 性 是 细 粒 度 的 ， 分 配 却 是 页 
粒度 的 。 当 应 用 的 访问 模式 不 能 很 好 与 页 面 粒度 匹配 时 ， 这 会 在 主 存 中 产生 碎片 。 如 果 处 理 
器 仅仅 访问 远程 页 面 的 一 个 字 ， 只 有 一 致 性 相关 的 块 会 被 传送 ， 但 是 ， 必 须 在 本 地 存储 器 中 
为 整个 页 面 分 配 空间 。 同 样 ， 如 果 对 一 个 未 曾 分 配 的 页 仅 取 回 其 一 个 块 ， 它 可 能 必须 将 换 掉 
整个 有 用 的 页 面 (幸运 的 是 ， 替 换 是 全 相关 的 并 处 于 软件 控制 之 下 ， 因 而 可 能 做 出 复杂 的 选 
择 )。 与 此 相对 照 ，COMA 系统 一 般 仅 为 一 致 性 相关 的 块 在 吸引 存储 器 中 分 配 空间 。 所 以 ， 
简单 COMA 对 空间 局 部 性 的 敏感 性 比 COMA 更 强 。 

为 Typhoon 系统 提出 的 Stache 的 设计 (Reinhardt, Larus, and Wood 1994) 采用 了 一 种 与 简 
单 COMA 类 似 的 途径 ， 并 且 在 Typhoon-0 研究 原型 中 得 到 实现 (Reinhardt, Pfile, and Wood 
1996)。 与 简单 COMA 不 同 ，Stache 并 不 把 所 有 存储 器 按 高 速 缓存 管理 ， 而 是 在 主 存 中 使 用 
前 面 讨论 的 第 三 级 高 速 缓 存 的 方法 进行 复制 ; 但 是 ， 和 简单 COMA 一 样 ，Stache 采用 软件 的 
页 面 级 管理 分 配 和 硬件 的 细 粒 度 一 致 性 管理 。Typhoon 系统 的 通信 辅助 部 件 是 可 编程 的 ， 物 
理 地 址 被 反 向 转换 成 虚 地 址 而 不 是 全 局 标识 符 ， 因 而 能 在 用 户 级 软件 中 编写 协议 的 处 理 程序 
( 见 9.6 节 )。 人 们 还 提出 了 一 些 综合 了 CC-NUMA 和 简单 COMA 优点 的 设计 (Falsafi and Wood 
1997)。 | 

总 结 : 一 个 读 访 问 的 路 径 

让 我 们 考虑 简单 COMA 中 一 个 读 访问 的 路 径 。 处 理 句 的 存储 器 管理 部 件 首先 把 虚 地 址 转 
换 为 物理 地 址 。 如 果 发 生 缺 页 ， 必 须 为 新 页 分 配 空间 ， 虽 然 该 页 的 数据 尚未 装 人 。 上 庶 存 系统 
决定 替换 哪个 页 并 建立 新 的 上 映射 。 为 保持 相 容 性 ， 高 速 缓存 中 被 替换 页 的 数据 必须 被 腾空 或 
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作废 。 新 映射 页 的 所 有 块 的 状态 置 为 无 效 。 然 后 ， 使 用 物理 地 址 查找 高 速 缓存 各 层次 。 如 果 
命中 (在 缺 页 发 生 情 况 是 不 可 能 命中 的 ), 访问 被 满足 ， 如 果 扑 空 ， 查 找 本 地 上 吸引 存储 器 ， 
现在 地 址 一 定 对 应 到 那个 页 了 。 如 果 所 需 的 块 处 于 有 效 状 态 ， 访 问 结 束 ; 如果 非 有 效 ， 再 把 
物理 地 址 转换 回 全 局 标识 符 ， 该 标识 符 起 到 虚 地 址 的 作用 ， 它 在 目录 式 一 致 性 协议 的 指导 下 
被 发 送 到 网 络 上 。 远 地 的 节点 把 这 个 全 局 标识 符 转 换 成 本 地 的 物理 地 址 ， 利 用 该 物理 地 址 找 
出 其 存储 器 层次 中 的 块 并 把 该 块 发 回 请 求 的 节点 。 然 后 ， 把 该 块 装 人 本 地 吸引 存储 器 和 高 速 
缓存 ， 把 数据 传递 给 处 理 需 。 727 
图 9-19 总 结 了 使 用 硬件 支持 保持 细 粒 度 一 致 性 的 方案 的 节点 结构 。 
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c) 简 半 COMA d) 第 3 级 高 速 缓存 (例如 , Stache) 


图 9-19 一 致 共享 地 址 空间 的 四 种 方案 的 典型 节点 逻辑 结构 。 以 硬件 维护 细 粒 度 的 一 致 性 是 这 些 方案 的 
公共 特性 。 图 中 跨越 节点 的 垂直 路 径 描绘 了 必须 被 远 地 满 足 的 读 扑 空 的 路 径 (通过 主 存 指 的 是 
必须 查找 主 存 ， 虽 然 在 使 用 推测 查找 情况 下 ， 主 存 查找 可 以 与 远程 请 求 的 发 出 并 行进 行 )。 
RTLB 代表 反 向 翻译 快 查 缓存 ， 它 是 提供 物理 地 址 到 虐 地 址 (或 到 全 局 标识 符 ) 反 向 转换 的 机 构 。 (728 | 
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9.5 对 并 行 软 件 的 影响 


现在 来 考察 一 下 除了 在 前 面 几 章 已 经 讨论 过 的 并 行 编程 问题 外 ， 本 章 所 讨论 的 所 有 方案 
对 于 并 行 软 件 来 说 还 意味 着 什么 。 

放松 的 存储 同一 性 模型 要 求 并 行程 序 把 希望 的 冲突 访问 标记 为 同步 操作 。 通 常 ， 插 入 点 
是 相当 有 特点 的 ， 比 如 ， 和 寻找 while 循环 推进 之 前 进程 踏步 等 待 的 变量 ; 但 有 些 时 候 ， 即 使 
没有 踏步 等 待 ， 也 必须 保持 次 序 ， 正 如 图 9-4 中 的 某 些 例子 那样 。 程 序 设计 语言 可 以 提供 某 
种 支持 手段 ， 把 变量 或 访问 标记 为 同步 ， 然 后 由 编译 器 将 它们 翻译 成 适当 的 保持 次 序 的 指 
令 。 但 当前 的 程序 设计 语言 并 不 提供 对 这 种 加 标记 的 一 体 化 的 支持 ， 而 是 依赖 程序 员 插 人 特 
殊 的 指令 或 对 同步 库 函 数 的 调用 。 编 译 器 本 身 也 可 以 利用 标记 来 限制 它 自 己 对 共享 存储 器 的 
乱 序 访问 。 一 种 机 制 是 把 某 些 (或 全 部 ) 共享 变量 说 明 为 “ 易 失 (Volatile)” 类 型 ， 这 意味 
着 这 些 变 量 将 不 会 在 寄存 器 中 分 配 ， 并 且 不 会 改变 它们 相对 于 周围 的 访问 的 次 序 。 我 们 还 记 
得 共享 变量 的 寄存 岩 分 配 可 能 导致 违犯 一 致 性 ， 所 以 为 了 保证 像 fag 这 样 的 关键 共享 变量 本 
身 的 一 致 性 ， 其 至 在 顺序 同一 性 情况 下 ， 也 通常 将 它们 说 明 为 易 失 的 。 有 些 新 的 编译 器 也 能 
识别 显 式 的 同步 调用 ， 因 而 不 改变 跨越 这 类 调用 的 存储 器 操作 的 次 序 (或 许 区 别 获取 和 释放 
调用 ) ， 或 者 遵循 程序 中 捅 和 人 的 保持 次 序 的 特殊 指令 所 规定 的 次 序 。 

COMA 机 所 提供 的 自动 的 细 粒 度 复制 和 迁移 允许 程序 员 名 略 主 存 的 分 布 式 的 性 质 。 当 数 
据 访问 是 细 粒 度 的 并 且 主 要 产生 容量 型 或 冲突 型 的 扑 空 时 ， 这 是 非常 有 用 的 。 并 行 应 用 的 经 
验 表 明 ， 由 于 现代 系统 的 工作 集 的 性 质 和 高 速 缓 存 的 尺寸 等 原因 ， 迁 移 特性 可 能 比 复制 和 一 
致 性 用 途 更 广 ， 这 就 是 说 ， 由 于 在 多 个 主 (吸引 ) 存储 器 中 存在 一 个 块 的 多 个 副本 而 获 益 的 
情况 并 不 经 常 发 生 ， 通 常 更 有 效 的 方法 是 把 数据 的 单个 拷贝 取 到 合适 的 吸引 存储 器 里 以 供 一 
段 时 间 的 计算 所 用 。 当 然 ， 那 些 仅 有 小 尺寸 高 速 缓存 的 系统 或 具有 大 的 非 结构 化 工作 集 的 应 
用 也 能 从 主 存 复 制 受益 。 当 我 们 不 能 以 页 粒度 合适 地 分 布 程序 的 数据 结构 时 ， 细 粒度 自动 迁 


- 移 特别 有 用 ， 而 Origin2000 提供 的 页 面 迁移 技术 ， 其 至 显 式 的 页 面 迁移 或 替换 就 可 能 不 那么 


有 用 ; 例如 ， 当 应 该 分 配 到 两 个 不 同 节点 的 数据 落 到 同一 页 的 情况 时 ( 见 第 8 BE 8.9 节 )。 
与 进程 迁移 相 联 系 的 数据 迁移 也 很 有用， 虽然 页 粒度 的 数据 迁移 也 能 很 好 地 应 付 这 种 情况 。 

一 般 来 说 ， 虽 然 COMA 系统 的 性 能 受 高 通信 时 延 的 影响 要 其 于 CC-NUMA 系统 ， 但 它们 
只 需 较 小 的 编程 努力 就 能 使 范围 更 宽 的 工作 负载 工作 得 不 错 。 有 趣 的 是 ， 在 扁平 COMA 系统 
中 , 尽管 其 具有 COMA 的 性 质 ， 但 显 式 的 迁移 和 适当 的 数据 〈 宿 主 ) 替换 的 作用 仍 相 当 有 
限 。 其 原因 是 ， 写 人 时 的 拥有 权 请 求 仍然 要 访问 目录 ， 而 且 录 可 能 在 远 地 ， 而 且 不 随 数据 迁 
移 ， 所 以 即使 只 有 单个 处 理 器 对 页 面 写 人 ， 也 会 产生 额外 的 流量 和 竞争 。 

以 市 售 产品 构成 的 系统 更 依赖 于 软件 ， 不 仅 为 了 降低 通信 的 量 ， 也 为 了 仔细 地 协调 数据 
访问 和 通信 ， 因 为 通信 的 代价 或 粒度 要 大 得 多 。 让 我 们 考虑 以 页 粒度 执行 通信 和 一 致 性 的 共 
享 虚拟 存储 器 的 情况 。 实 际 的 数据 访问 和 共享 模式 与 这 种 粒度 相互 影响 ， 产 生 一 种 页 粒度 的 
诱导 共享 模式 ， 该 模式 与 系统 相关 (Ifttode，Singh，and Li 1996a)。 通 信 对 计算 的 高 比率 并 不 
是 影响 性 能 的 主要 因素 ， 而 是 当 这 种 诱导 模式 包含 写 共享 (因而 存在 对 同一 页 的 多 个 写 人 
者 ) 或 者 包含 通信 碎片 时 对 性 能 有 坏 的 影响 。 因 此 ， 尽 力 安排 程序 结构 ， 使 来 自 不 同 进程 的 
访问 不 在 地 址 空间 中 以 细 粒 度 交 错 就 变 得 重要 了 。 同 步 的 高 代价 以 及 由 于 在 临界 区 内 的 缺 页 
造成 的 临界 区 的 扩张 ， 使 得 在 SVM 系统 的 编程 中 减少 同步 更 是 特别 重要 。 最 后 ， 通 信和 同 
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步 的 高 代价 使 我 们 难以 成 功 地 采用 任务 窃取 来 实现 SVM REA HAS BOF A. BDU T 
的 远程 访问 和 同步 可 能 是 如 此 昂贵 ， 以 至 于 当 窃 取 成 功 时 已 没有 多 少 工作 可 被 窃取 了 。 所 
以 ， 就 基于 任务 窃取 的 计算 而 言 ， 良 好 均 衔 的 初始 任务 分 配对 于 SVM 系统 要 比 对 于 硬件 一 
致 性 系统 重要 得 多 (Jiang, Shan, and Singh 1997)。 一 般 来 说 ,不同 的 编程 模式 和 算法 优化 的 
重要 性 取决 于 设计 的 系统 的 通信 代价 和 粒度 。 


9.6 高 级 论题 


在 本 章 结束 之 前 ， 让 我 们 讨论 另外 两 个 论题 : 传统 CC-NUMA 方法 的 其 他 局 限 性 和 以 软 
件 利用 放松 的 存储 同一 性 模型 的 机 制 和 技术 ， 例 如 ， 共 享 虚拟 存储 器 协议 。 


9.6.1 灵活 性 和 CC-NUMA 系统 中 的 地 址 约束 


传统 的 纯 CC-NUMA 系统 的 另外 两 个 局 限 是 : 仅 有 单个 一 致 性 协议 以 硬 接线 的 方式 固化 
在 机 器 中 ， 以 及 对 共享 物理 地 址 空间 可 寻 址 性 的 潜在 限制 。 让 我 们 对 它们 分 别 加 以 讨论 。 

1. 提供 灵活 性 

不 可 能 有 适应 一 切 的 方案 。 我 们 总 是 可 以 发 现 这 样 一 些 工作 负载 ， 它 们 要 求 有 不 同 于 固 
化 在 机 器 中 的 协议 才能 工作 得 更 好 。 例 如 ， 尽 管 我 们 已 经 看 到 对 于 高 速 缓存 一 致 的 系统 ， 基 
于 作废 的 协议 一 般 优 于 基于 更 新 的 协议 ， 但 是 对 于 单纯 的 生产 者 - 消费 者 共享 模式 而 言 ， 基 
于 更 新 的 协议 更 有 优势 ， 对 于 单字 形式 的 生产 者 - 消费 者 交互 ， 在 基于 作废 的 协议 的 情况 ， 
生产 者 会 产生 一 个 被 应 答 的 作废 ， 然 后 消费 者 将 产生 一 个 生产 者 将 满足 它 的 读 扑 空 ， 这 导致 
四 次 网 络 传送 事务 ; 而 基于 更 新 的 协议 在 这 种 情况 下 仅 需 要 一 次 。 另 一 个 例子 是 ， 如 果 大 量 
能 预先 决定 的 数据 要 从 一 个 节点 传 到 另 一 个 节点 ， 那 么 用 单个 大 的 显 式 的 消息 传送 要 比 针 对 
取 和 存 扑 空 一 次 传送 一 个 高 速 缓存 块 更 有 利 。 单 一 的 协议 甚至 不 能 最 佳 地 适用 于 单一 应 用 的 
所 有 阶段 或 所 有 的 数据 结构 。 如 果 在 不 同 场合 使 用 不 同 协议 的 性 能 优点 是 显著 的 ， 在 通信 体 
系 结构 中 支持 多 个 协议 可 能 是 有 用 的 。 当 不 匹配 的 协议 造成 的 性 能 损失 很 大 时 ， 例 如 那些 有 
着 低 效率 的 通信 体系 结构 的 基于 市 售 产品 的 系统 ， 这 一 点 就 格外 需要 。 

使 通信 辅助 部 件 的 协议 处 理 部 分 是 可 编程 的 而 不 是 硬 接线 的 ， 即 用 软件 而 不 是 硬件 实现 
协议 ， 可 以 允许 协议 被 改变 (或 者 说 混合 和 匹配 )。 在 一 致 性 协议 的 软件 实现 中 ， 这 显然 是 
自然 的 事 ， 因 为 在 这 里 ， 协 议 包容 在 可 编程 的 软件 处 理 程序 之 中 。 但 对 于 硬件 支持 的 、 细 粒 
度 一 致 性 ， 可 以 发 现 不 同 协议 对 可 编程 的 辅助 部 件 的 要 求 通常 是 十 分 类 似 的 。 就 控制 而 言 ， 
它们 都 需要 根据 事务 类 型 向 协议 处 理 程序 的 快速 转移 ， 也 需要 对 标记 的 位 域 高 效 处 理 的 支 
持 。 就 数据 而 言 ， 它 们 需要 控制 器 和 网 络 接口 之 间 高 带宽 、 低 开销 的 数据 流水 传送 。 第 8 章 
所 讨论 的 Sequent NUMA-Q 提供 了 一 个 流水 线 式 的 专用 可 编程 一 致 性 控制 器 ， 正 如 Stanford 
FLASH 的 设计 所 做 的 那样 (Kuskin et al. 1994; Heinrich et al. 1994)。 注 意 ， 可 编程 的 控制 器 
并 没有 改变 对 一 致 性 特殊 硬件 支持 的 需求 ; 这 些 问题 仍然 和 固定 协议 时 一 样 。 

在 这 些 细 粒 度 一 致 性 机 器 的 控制 器 上 运行 的 协议 代码 工作 于 优先 模式 ， 这 样 它 能 通信 并 
使 用 它 直 接 从 总 线 上 看 到 的 物理 地 址 。 某 些 研 究 者 还 力图 证 明 ， 如 果 人 允许 用 户 在 用 户 级 编写 
它们 自己 的 协议 处 理 程 序 ， 它 们 能 够 修饰 协议 ， 使 其 比 预 先决 定 的 系统 协议 库 更 好 地 适应 不 
同 应 用 的 需求 (Falsafi et al. 1994)。 尽 管 这 可 能 是 有 优势 的 ， 特 别 是 对 那些 通信 结构 效率 较 
低 的 机 器 而 言 ， 但 它 引 入 了 复杂 性 。 例 如 ， 因 为 在 检测 到 高 速 缓存 扑 空 之 前 ， 处 理 器 的 存储 
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器 管理 部 件 已 经 完成 了 地 址 翻译 ， 通 信和 辅助 部 件 只 能 看 到 总 线 上 的 物理 地 址 。 但 是 ， 为 了 维 
持 保护 不 允许 用 户 级 协议 软件 访问 这 些 物理 地 址 。 这 样 ， 如 果 另 一 端的 辅助 部 件 的 协议 软件 
要 运行 在 用 户 级 ， 在 软件 使 用 物理 地 址 之 前 ， 必 须 将 它们 转换 回 虚 拟 地 址 。 这 种 反 向 翻译 
(简单 COMA 为 了 不 同 的 原因 也 需要 它 ) 要 求 进一步 的 硬件 支持 ， 使 时 延 增加 ， 而 且 实 现 复 
杂 。 此 外 ， 因 为 协议 具有 与 正确 性 和 死 锁 相关 的 难以 捉摸 的 复杂 性 ， 因 此 是 难以 调试 的 。 我 
们 也 不 清楚 允许 用 户 自己 编写 可 能 使 共享 机 器 死 锁 的 协议 的 必要 性 有 多 大 。 

2. 克服 物理 地 址 空间 的 限制 

在 共享 物理 地 址 空间 ， 产 生 请 求 的 辅助 部 件 通 过 网 络 发 送 单元 (或 高 速 缓存 块 ) 的 物理 
地 址 ， 该 地 址 由 另 一 端的 辅助 部 件 解 释 。 其 优点 是 另 一 端的 辅助 部 件 在 访问 物理 存储 器 之 前 
无 须 对 地 址 做 反 向 翻译 ， 但 发 生 了 新 的 问题 ， 即 作为 整个 共享 物理 地 址 空间 的 全 局 地 址 ， 处 
理 器 生成 的 物理 地 址 的 位 数 可 能 不 够 ， 我 们 在 第 7 章 的 CRAY T3D 看 到 了 这 个 问题 (Alpha 
21064 处 理 器 仅 发 出 32 位 的 物理 地 址 ， 不 足以 寻 址 一 个 具有 2048 个 处 理 器 的 机 器 的 128 GB 
物理 存储 器 ， 这 需要 37 位 的 地 址 )。 在 TD 中 ,使 用 了 通过 annex 寄存 器 的 分 段 来 扩展 地 址 
空间 ， 从 而 在 存储 器 访问 的 临界 路 径 引入 延迟 。 另 一 种 方法 不 提供 共享 的 物理 地 址 空间 ， 而 
是 经 由 网 络 送出 虚拟 地 址 ， 它 由 另 一 端 转换 回 ( 可 能 不 同 的 ) 物理 地 址 。 正 如 我 们 已 经 看 到 
的 ，SVM 和 简单 COMA 系统 使 用 这 个 方法 实现 共享 虚拟 地 址 空间 ， 而 不 是 共享 物理 地 址 空 
间 ， 用 户 级 可 编程 协议 也 是 这 样 。 

这 个 方法 的 优点 之 一 是 为 了 索引 整个 共享 (虚拟 ) 地 址 空间 ， 只 要 求 虚拟 地 址 足够 长 ， 
物理 地 址 的 长 度 只 要 足以 寻 址 给 定 处 理 器 的 主 存 就 行 。 如 前 所 述 ， 该 方法 的 第 二 个 优点 是 各 
个 节点 只 管理 自己 的 地 址 空间 ， 完 成 虚拟 到 物理 的 地 址 转换 ， 因 此 可 以 采用 更 为 灵活 的 主 存 
分 配 和 替换 策略 。 但 是 ， 这 个 方法 要 求 通信 的 两 端 都 要 进行 地 址 转换 。 


9.6.2 以 软件 实现 放松 的 存储 同一 性 


关于 利用 释放 同一 性 的 共享 虚拟 存储 器 方案 的 讨论 提示: 这 样 的 方案 可 以 支持 单个 或 多 个 
写 人 者 ， 能 够 在 释放 或 获取 时 传播 一 致 性 信息 。 可 以 使 用 多 种 技术 来 实现 这 些 方案 ， 逐渐 地 增 
加 复杂 性 ， 产 生 新 的 方案 ,使 写 提 示 和 数据 的 传播 的 惰性 更 大 。 这 些 技术 太 复杂 ， 如 果 用 硬件 
实现 需要 太 多 的 结构 ， 而 所 缓解 的 问题 的 严重 性 却 要 低 得 多 。 然 而 它们 却 很 适合 于 用 软件 实 
现 。 虽 然 SVM 当前 还 不 是 一 种 主流 的 商品 化 技术 ， 但 它们 的 价值 在 于 帮助 我 们 理解 如 何 保持 
释放 一 致 性 模型 所 希望 的 各 种 不 同 程度 的 惰性 。 本 节 将 考察 各 种 技术 及 它们 之 间 的 折 中 。 

SVM 方案 对 8.1 节 提 出 的 一 致 性 协议 的 三 个 基本 功能 有 不 同 的 做 法 。 首 先 ， 硬 件 一 致 性 
方案 是 在 数据 访问 失败 时 调用 协议 ,而 SVM 方案 则 在 访问 失败 时 (为 了 找到 所 需 的 数据 ) 
和 同步 点 (为 了 在 写 提示 中 传送 一 致 性 信息 ) 都 要 调用 协议 。 前 两 种 重要 的 功能 ， 即 找到 一 
致 性 信息 的 源 和 决定 与 娜 个 处 理 器 通信 ， 取 决 于 是 使 用 基于 释放 还 是 基于 获取 的 同一 性 。 对 
前 一 种 情况 ， 我 们 需要 在 释放 点 向 所 有 有 效 的 副本 发 送 写 提示 ， 所 以 我 们 需要 一 种 记 住 副本 
的 机 制 。 对 后 一 种 情况 ， 获 到 者 仅仅 与 同步 变量 的 最 后 一 个 释放 者 通信 ， 并 从 那里 仅 取 回 所 
有 自己 所 需要 的 写 提示 ， 因 此 无 须 显 式 地 记 住 所 有 的 副本 。 最 后 一 个 功能 是 与 所 需要 的 节点 
《或 副本 ) 通信 ， 典 型 的 做 法 是 点 对 点 消息 。 

因为 一 致 性 信息 不 是 在 每 个 写 失败 时 传播 ， 而 是 仅仅 在 同步 事件 点 传播 ， 这 就 提出 了 一 
个 新 的 问题 : 我 们 如 何 决定 必须 为 哪个 页 发 送 写 提示 ? 在 基于 释放 的 方案 中 ， 因 为 是 在 每 个 
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释放 点 对 当时 所 有 有 效 的 副本 发 送 写 提示 ， 节 点 仅 需 要 对 它 上 一 次 释放 以 来 执行 的 写 发 送 写 
提示 。 在 因果 意义 上 所 有 先导 的 写 提示 ( 见 9.3.3 节 ) 此 刻 已 经 被 发 送 到 所 有 相关 的 副本 ， 
或 者 是 在 对 应 的 先导 释放 点 直接 发 送 ， 或 者 经 由 其 他 进程 间接 发 送 。 以 基于 获取 的 方法 ,我 
们 必须 保证 在 获取 点 能 看 到 已 经 由 许多 不 同 节点 生成 的 ， 在 因果 关系 上 需要 的 写 提示 ,尽管 
获取 者 仪 仅 到 先导 的 释放 者 那里 获得 这 些 写 提示 。 释 放 者 不 能 简单 地 向 获取 者 发 送 自 从 它 上 
一 次 释放 以 来 自己 所 产生 的 写 提示 或 它 产 生 过 的 所 有 写 提示 ， 而 是 必须 还 要 发 送 在 它 自己 前 
一 个 获取 点 从 其 他 节点 收 到 的 因果 相关 的 写 提示 。 基 于 释放 和 基于 获取 这 两 种 情况 都 采用 了 
几 种 机 制 来 减少 传送 和 申请 的 写 提示 的 数量 ， 包 括 版 本 号 和 时 间 戳 ， 后 面 将 对 它们 有 所 了 
解 。 我 们 还 将 看 到 ， 在 何 时 传播 写 提示 (和 数据 ) 及 何 时 申请 写 提示 方面 协议 有 所 区 别 ， 实 
现 基 于 获取 或 释放 的 不 同 程度 的 惰性 。 

为 了 更 清楚 地 理解 问题 ， 首 先 考察 如 何 用 基于 释放 和 基于 获取 的 方法 实现 单 写 人 者 释放 
一 致 性 。 然 后 我 们 将 对 多 写 入 者 的 协议 做 同样 的 考察 。 

1. 单 写 入 者 基于 释放 的 同一 性 

维护 同一 性 的 最 简单 的 办 法 是 在 每 个 释放 点 向 页 面 的 所 有 共享 者 发 送 写 提示 ， 而 这 些 页 
面 是 执行 释放 的 处 理 器 自 其 上 一 次 释放 以 来 已 经 改写 过 的 。 在 单 写 人 者 协议 中 ， 由 页 面 的 当 
前 拥有 者 (拥有 写 许可 权 者 〉 维护 当前 共享 表 并 在 拥有 权 改 变 时 ( 当 另 一 个 节点 写 这 个 页 
时 ) 转交 这 个 表 ， 以 此 来 记 住 副本 。 在 释放 点 ， 一 个 节点 为 所 有 它 写 过 的 页 面向 在 它 的 共享 
表 中 记录 的 节点 发 送 写 提示 (见习 题 9.31)。 

这 个 方案 存在 两 个 性 能 问题 。 首 先 ， 因 为 拥有 权 的 转移 并 不 引起 副本 的 作废 (只 读 副 本 
可 以 与 一 个 可 写 副本 共存 ， 这 与 硬件 一 致 性 方案 不 同 )， 前 一 个 拥有 者 和 新 的 拥有 者 的 共享 
表 中 完全 可 能 有 同一 个 节点 。 当 它们 两 者 都 到 达 释 放 点 (针对 相同 的 或 不 同 的 同步 变量 )， 
它们 将 会 对 某 些 相同 的 页 发 出 作废 ， 这 样 一 个 页 可 能 收 到 多 个 (不 必要 的 ) 作废 。 可 以 通过 
指定 单一 位 置 记录 一 个 页 的 哪些 副本 已 经 被 作废 来 解决 这 个 问题 ， 例 如 ， 可 以 利用 基于 存储 
器 的 目录 记录 共享 表 ， 而 不 是 由 动态 变化 的 拥有 者 来 维护 它们 。 在 写 提示 送出 以 前 要 查找 目 
录 ， 已 被 作废 的 副本 记录 在 目录 中 ， 这 样 就 不 会 对 同一 个 副本 发 送 多 个 作废 了 。 

第 二 个 问题 是 一 个 释放 可 能 会 作废 掉 一 个 比 被 写 人 过 的 更 新 的 页 副本 ， 而 这 是 不 需要 
的 ， 正 如 图 9-20 所 说 明 的 那样 ( 它 不 会 作废 掉 当前 拥有 者 的 最 新 的 副本 ， 所 以 这 不 是 正确 


P, P, P, 








获取 读 x PA P, 早先 已 经 读 过 读 x 
Rx ， 所 以 它们 在 了 
的 共享 表 中 
写 x 所 有 权 更 选 
SAAB 
5x 
释放 作废 
一 一 一 一 一 一 因为 是 当前 拥有 
实施 作废 者 ， 不 实施 作废 


图 9-20 在 单 写 人 者 协议 中 作废 较 新 副本 的 情况 。 处 理 器 PAP, 得 到 所 有 权 ， 然 后 P 从 P, 得 到 拥有 权 。 
但 是 P, 的 释放 晚 于 所 有 这 些 动作 才 发 生 。 在 释放 点 ，P, 向 P AIP, 发 出 作废 。P 实施 这 个 作废 ， 
尽管 它 的 副本 比 P 的 还 新 (因为 它 不 知道 这 一 点 )， 而 P 是 当前 的 拥有 者 ， 所 以 不 实施 作废 动作 
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获得 一 个 页 的 拥有 权 后 ， 就 对 该 页 的 版 本 号 加 1。 在 没有 目录 的 情况 下 ， 处 理 器 在 释放 点 将 
向 所 有 的 共享 者 发 送 写 提示 《因为 它 不 知道 其 他 共享 者 的 版 本 号 ) 以 及 它 自己 保持 的 该 页 的 
WAS, 但 是 ， 只 有 具有 更 小 的 版 本 号 的 接收 者 才 会 真正 作废 那个 页 。 在 有 目录 的 情况 下 ， 
在 页 的 目录 项 中 保存 副本 的 版 本 号 ， 只 向 那些 版 本 号 比 释 放 者 的 更 小 的 副本 发 送 写 提示 ， 这 
样 不 仅 能 减少 作废 实施 和 缺 页 的 次 数 ， 也 能 降低 写 提 示 的 流量 。 拥 有 权 和 写 提示 请 求 都 进入 
目录 很 容易 管理 。 所 以 目录 与 版 本 号 结合 使 用 解决 上 述 的 两 个 问题 。 然 而 ， 这 仍然 是 基于 释 
放 的 方案 ， 因 此 可 能 不 必要 地 过 早 地 发 送 和 实施 作废 ， 引 起 不 必要 的 缺 页 。 

2. 单 写 入 者 基于 获取 的 同一 性 

利用 获取 之 前 不 需要 一 致 性 动作 这 一 事实 的 一 个 简单 的 办 法 是 : 释放 者 仍然 对 所 有 的 副 
本 发 送 写 提示 ， 但 只 有 当 来 自任 何其 他 进程 的 下 一 个 获取 请 求 到 达 时 才 发 送 ， 而 不 是 在 释放 
时 就 送出 。 这 延迟 了 写 提示 的 发 送 。 但 是 这 样 一 来 外 来 的 获取 请 求 必须 等 待 释放 者 送出 写 提 
示 并 且 接 收 到 应 答 ， 因 此 ， 获 取 操 作 的 临界 路 径 之 中 就 多 了 这 些 操 作 。 这 种 基于 释放 的 基本 
方案 所 能 做 到 的 最 好 的 事 是 在 释放 点 就 积极 地 送出 写 提示 ， 而 在 响应 下 一 个 外 来 的 获取 请 求 
之 前 才 等 待 应答 。 这 样 做 允许 写 提示 和 应 答 的 传播 与 释放 和 下 一 次 获取 间 的 计算 重合。 不 管 
何 时 传播 写 提示 (这 影响 流量 )， 接 收 的 进程 可 以 选择 在 接 到 写 提示 后 立即 对 页 面 实施 ， 或 
选择 在 它 执行 下 一 次 获取 时 才 实 施 ， 从 而 实现 不 同 程度 的 惰性 。 

现在 考虑 惰性 的 基于 拉 的 仅 在 获取 点 传播 一 致 性 信息 的 办 法 ， 而 且 仅仅 从 释放 者 向 对 应 
的 获取 者 传播 。 获 取 者 向 一 个 同步 变量 的 最 后 一 个 释放 者 〈 即 当前 保持 者 ) 发 出 一 个 请 求 ， 
获取 者 能 从 该 变量 的 指定 管理 节点 获知 谁 是 对 应 的 释放 者 。 这 是 获取 者 获得 信息 的 惟一 地 
方 ， 它 必须 能 看 到 在 它 之 前 以 因果 次 序 发 生 的 所 有 写 操 作 。 如 果 没 有 附加 的 支持 ， 释 放 者 必 
须 向 获取 者 发 送 到 目前 为 止 (至 少 是 从 它 上 一 次 向 这 个 获取 者 发 送 写 提示 以 来 ， 如 果 它 记录 
这 样 的 信息 ) 它 自 己 已 经 生成 的 或 者 已 经 从 其 他 地 方 接收 到 的 所 有 写 提示 。 释 放 者 不 能 仅仅 
发 送 那些 自前 一 次 释放 以 来 它 所 产生 的 写 提示 ， 因 为 它 根本 不 知道 该 获取 者 已 经 从 其 他 进程 
先前 的 获取 处 得 到 了 多 少 其 他 必要 的 写 提示 。 获 取 者 也 必须 保存 这 些 写 提示 ， 再 传递 给 下 一 
个 获取 者 。 

保存 写 提 示 的 全 部 历史 记录 显然 不 是 一 个 好 主意 。 如 果 在 发 送 写 提示 的 同时 传送 前 面 讨 
论 过 的 在 拥有 权 更 迭 时 加 1 的 版 本 号 ， 能 帮助 我 们 减少 作废 实施 〈 进 而 访问 缺 页 ) 的 次 数 ， 
但 是 他 们 无 助 于 写 提示 发 送 次 数 的 降低 。 获 取 者 不 可 能 通过 向 释放 者 传送 版 本 号 来 降低 流 
量 ， 因 为 它 不 知道 释放 者 想 对 哪些 页 发 送 写 提示 。 带 有 版 本 号 的 且 录 也 无 助 于 流量 的 降低 ， 
因为 释放 者 必须 向 目录 发 送 写 提示 的 历史 。 事 实 上 ， 获 取 者 想 要 得 到 的 是 那些 对 应 于 因果 关 
系 上 先 于 它 的 所 有 释放 的 写 提示 ， 而 这 些 写 提示 它 还 没有 通过 自己 先前 的 获取 得 到 过 。 保 持 
页 面 层次 的 信息 达 不 到 这 个 目的 ， 因 为 获取 者 和 释放 者 都 不 知道 对 方 已 经 看 到 了 哪些 页 的 写 
提示 ， 也 都 不 愿意 发 送 它 已 经 知道 的 信息 。 解 决 的 办 法 是 建立 一 个 逐 进程 或 逐 节点 虚拟 时 间 
的 系统 ， 在 该 系统 中 ， 时 间 步 由 同步 时 间 划 分 。 概 念 上 ， 每 个 节点 负责 记 住 直至 它 已 看 到 每 
个 其 他 节点 的 写 提示 为 止 的 虚拟 区 间 。 获 取 者 向 前 面 的 释放 者 送出 这 个 时 间 向 量 ; 释放 者 将 
此 向 量 与 它 自 己 的 比较 ， 然 后 向 获取 者 发 送 释放 者 已 经 看 到 而 获取 者 还 没 看 到 的 时 间 区 和 关内 
发 生 的 写 提示 。 因 为 因果 性 所 应 满足 的 偏 序 是 基于 同步 事件 的 ， 所 以 把 时 间 增 量 与 同步 事件 
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结合 使 我 们 能 以 明白 的 方式 表示 这 些 偏 序 。 

更 精确 地 说 ， 每 个 进程 的 执行 被 划分 为 许多 区 间 ， 当 进程 成 功 地 执行 了 一 个 释放 或 者 一 
个 获取 时 开始 一 个 新 的 区 间 (该 进程 的 局 部 区 间 计 数 器 加 1)。 不 同 进程 的 区 间 是 按照 第 9 
章 9.3.3 节 所 讨论 的 因果 优先 关系 偏 序 排列 的 : 1) 单个 进程 的 区 间 按 程序 原 序 全 序 排列 ; 
2) 如 果 在 相同 变量 的 释放 -获取 操作 链 上 ， 某 区 间 上 P 的 获取 先 于 弛 的 获取 ， 则 进程 P 的 
区 间 早 于 进程 9 的 区 间 。 即 ， 区 间 也 依据 依赖 关系 排序 ， 但 这 或 许 不 是 静态 能 决定 的 ， 因 
为 区 间 编 号 是 由 进程 本 地 维护 和 加 1 的 ，2) 中 所 描述 的 偏 序 并 不 意味 着 执行 获取 的 进程 的 
区 闻 号 一 定 要 比 执行 释放 的 进程 的 区 间 号 大 。 它 真正 指出 的 或 我 们 必须 保证 的 是 如 果 释 放 者 
从 进程 X 看 到 区 间 8 的 写 提示 的 话 ， 那 么 该 同步 变量 的 下 一 个 (动态 的 ) 获取 者 在 被 允许 
结束 其 获取 之 前 ， 也 必须 至 少 从 进程 X 看 到 了 区 间 8。 为 了 记录 一 个 进程 已 经 从 其 他 进程 看 
到 了 哪些 区 间 ， 从 而 保持 偏 序 ， 每 个 进程 为 它 的 每 一 个 区 间 保 持 一 个 向 量 时 间 截 ( Keleher et 
al. 1994)。 令 VARF P 的 区 间 i 的 向 量 时 间 惟 ,向 量 Vf? 中 的 元 素 个 数 等 于 进程 的 数量 。 
进程 P 自己 在 V! 中 的 项 等 于 i。 对 于 任何 其 他 的 进程 2 来 说 ， 其 对 应 的 项 指明 了 按 偏 序 次 
序 ， 先 于 进程 P 的 区 间 i 的 进程 $ 的 最 新 的 区 间 。 所 以 ， 向 量 时 间 惟 表示 了 一 个 进程 在 进 
AKE i 时， 其 他 进程 相对 于 它 的 最 近 的 区 间 ， 而 且 它 已 经 从 这 些 区 间接 收 到 并 且 实 施 了 写 
提示 (通过 前 一 个 获取 )。 

在 一 个 获取 点 ， 进 程 需要 从 最 后 一 个 释放 者 R 处 获得 (来 自任 何其 他 进程 ) 写 提示 ， 
这 些 写 提示 属于 尺 在 它 的 释放 之 前 已 经 看 到 而 获取 者 还 没有 在 它 前 一 个 获取 点 看 到 过 的 区 
间 。 这 足以 保证 因果 性 : 对 于 P 能 够 从 其 他 进程 看 到 的 任何 其 他 区 间 ，P 必然 从 按 程序 原 
序 的 前 一 个 获取 点 就 已 经 看 到 它们 了 。 所 以 已 对 丸 送 出 它 当 前 的 向 量 时 间 惟 (HEM i-1 
区 间 的 时 间 截 )， 告 诉 R 在 这 个 获取 之 前 ， 其 他 进程 相对 于 它 的 最 新 区 间 有 哪些 。R 将 来 自 
PHAR BAR SACHA MERA IR, AREA R 已 经 看 到 (包括 在 RR 的 当 
前 时 间 改 中 ) 但 已 尚未 看 到 (不 在 PRUETT) 的 区 间 的 写 提 示 搭 载 在 对 P 的 应 答 中 送 
出 《这 种 做 法 是 保守 的 ， 因 为 R 的 当前 时 间 惟 中 所 能 看 到 的 区 间 可 能 比 R 在 相关 的 释放 时 
刻 所 看 到 的 区 间 要 多 )。 因 为 P 现在 收 到 了 这 些 写 提 示 ， 它 为 以 当前 的 获取 开始 的 区 间 i 设 
置 新 的 向 量 时 间 稚 ， 即 R 的 向 量 时 间 惟 和 它 自 己 前 一 个 向 量 时 间 惟 中 对 应 项 的 最 大 值 。P 
现在 已 按 偏 序 更 新 。 这 意味 着 一 个 进程 必须 保持 它 自己 产生 或 从 其 他 进程 收 到 的 写 提示 ， 知 
道 没有 后 续 的 获取 者 再 需要 它们 为 止 。 它 与 基于 释放 的 协议 不 同 之 处 在 于 ， 在 基于 释放 的 协 
议 中 ， 释放 者 一 旦 向 所 有 的 副本 送出 了 写 提示 后 ， 就 可 以 丢弃 它们 。 而 这 种 方法 会 导致 相当 
大 的 存储 开销 ， 而 且 可 能 需要 废料 收集 技术 来 保持 存储 空间 。 

3. 多 写 入 者 基于 释放 的 同一 性 

对 于 多 写 人 者 来 说 ， 新 的 关键 问题 是 来 自 多 个 写 入 者 的 数据 (例如 ， 差 异 记录 ) 的 合并 
及 管理 。 我 们 所 用 的 写 提示 和 同一 性 的 协议 类 型 取决 于 如 何 管理 数据 的 传播 ， 即 差异 是 由 多 
个 写 人 者 维护 ， 还 是 在 释放 时 传播 到 固定 的 宿主 去 。 就 基于 释放 的 方案 而 言 ， 不 答 哪 一 种 情 
次 ， 进 程 只 需要 针对 自从 它 上 一 次 释放 以 来 执行 过 的 写 而 向 所 有 的 副本 发 出 写 提 示 ， 然 后 在 
下 一 个 外 来 的 获取 点 等 待 应 答 ， 这 和 单 写 人 者 的 情况 一 样 。 然 而 ， 因 为 在 任何 时 刻 ， 一 个 页 
面 都 不 存在 单一 的 拥有 者 〈 写 人 者 ) ， 所 以 我 们 无 法 依赖 这 单一 的 拥有 者 来 得 到 共享 表 的 最 
新 的 副本 。 我 们 必须 或 者 广播 写 提 示 ， 或 者 使 用 像 目录 这 样 的 机 制 来 记 住 副本 。 

下 一 个 问题 是 ， 在 作废 引起 缺 页 时 ， 进 程 如 何 找到 所 需 的 数据 〈 差 异 )? 如 果 使 用 基于 
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宿主 的 协议 来 管理 多 写 入 者 ， 这 个 问题 很 容易 处 理 ， 能够 在 宿主 找到 页 或 者 差异 (一 个 释放 
在 结束 之 前 必须 等 待 差异 到 达 其 宿主 ， 这 样 在 相关 的 获取 之 后 所 产生 的 缺 页 就 一 定 能 看 到 对 
应 的 写 )。 如 果 是 由 写 人 者 管理 差异 〈 即 以 分 布 的 形式 )， 缺 页 的 进程 不 仅 必须 知道 从 哪里 得 
到 差异 ， 还 要 知道 以 什么 次 序 实施 它们 。 这 是 因为 对 同一 数据 的 差异 可 能 在 同一 进程 的 不 同 
区 间 产 生 ， 也 可 能 产生 于 同一 个 释放 和 获取 因果 链 上 不 同 进程 的 区 间 ; 当 它 们 到 达 处 理 器 
时 ， 必 须 按 照 因果 关系 所 要 求 的 偏 序 实施 它们 。 差 异 的 位 置 可 以 从 进入 的 写 提示 决定 ， 然 而 
如 果 没 有 向 量 时 间 惟 的 话 ， 实 施 的 次 序 却 难以 决定 。 但 是 ， 正 如 我 们 已 经 知道 的 ， 向 量 时 间 
惟 只 有 在 基于 获取 的 协议 中 才 得 到 充分 的 应 用 。 这 就 是 为 什么 当 数据 不 存在 宿主 时 ， 简 单 目 
KA (积极 的 ) 基于 释放 的 多 写 人 者 一 致 性 方案 是 使 用 更 新 而 不 是 作废 作为 写 提示 : 在 释放 
时 将 差异 本 身 发 往 共享 者 。 所 以 ， 同 一 性 所 使 用 的 协议 和 机 制 是 从 基于 释放 的 单 写 人 者 情况 
变化 而 来 。 因 为 释放 在 结束 前 要 等 待 应 答 ， 所 以 尽管 没有 使 用 向 量 时 间 惟 ， 却 不 存在 实施 差 
异 的 次 序 问 题 。 它 能 保证 差异 精确 地 按照 所 希望 的 次 序 到 达 处 理 器 。Munin 系统 使 用 了 这 类 
基于 更 新 的 、 积 极 的 、 多 写 和 信者 协议 (Carter, Bennett, and Zwaenepoel 1991)。 

让 我 们 考虑 使 用 更 复杂 的 同一 性 的 跟踪 机 制 。 对 多 写 人 者 方案 而 言 ， 版 本 号 没什么 用 
处 。 我 们 不 能 在 拥有 权 交 蔡 时 更 新 版 本 号 〈 因 为 不 存在 拥有 权 交 替 )， 而 只 能 在 释放 点 这 样 
做 。 在 这 种 情况 下 ， 版 本 号 不 能 帮助 我 们 节省 写 提示 ， 因 为 释放 者 刚刚 在 释放 点 本 身 获得 页 
的 最 新 版 本 号 ， 不 可 能 有 另 一 个 节点 具有 该 页 的 更 新 的 版 本 号 。 此 外 ， 因 为 释放 者 只 需要 发 
送 从 它 上 一 次 释放 以 来 它 所 产生 的 写 提示 (或 差异 ) ， 基 于 更 新 的 积极 协议 不 再 需要 向 量 时 
间 戳 。( 如 前 所 述 ， 在 一 个 基于 作废 的 协议 中 ， 如 果 差 异 不 是 在 释放 点 送出 而 是 由 释放 者 保 
持 ， 那 么 就 需要 时 间 稚 来 保证 按 正 确 的 次 序 运 用 这 些 差异 。) 

4. 多 写 入 者 基于 获取 的 同一 性 

多 写 人 者 基于 获取 的 协议 的 问题 和 机 制 与 单 写 人 者 基于 获取 的 方案 非常 类 似 ， 主 要 的 区 
别 在 于 如 何 管理 数据 。 在 没有 特殊 支持 的 情况 下 ， 获 取 者 必须 从 最 后 一 个 释放 者 得 到 自从 它 
们 上 一 次 交互 以 来 该 释放 者 产生 或 收 到 的 所 有 写 提示 ， 这 样 必须 维护 和 交流 大 量 的 历史 信 
筷 。 在 单 写 人 者 的 情况 下 ,版 本 号 能 帮助 降低 作废 实施 的 次 数 ， 但 不 能 减少 传输 的 次 数 。 
(对 基于 宿主 的 方案 而 言 ， 每 当 差 异 到 达 宿 主 时 ， 版 本 号 加 1， 但 是 释放 者 在 满足 下 一 个 外 
来 的 获取 之 前 ， 必 须 等 待 ， 接 收 这 个 版 本 号 ; 在 无 宿主 的 情况 ， 必 须 为 每 个 页 指定 一 个 独立 
的 版 本 管理 者 ， 这 使 问题 复杂 化 。) 最 好 的 办 法 是 使 用 前 面 提 到 的 向 量 时 间 稚 。 向 量 时 间 蕉 
管理 基于 宿主 方案 的 写 提示 (一致 性 信息 ) 的 传输 ; 对 非 基 于 宿主 的 方案 ， 它们 也 管理 差异 
( 即 数据 ) 的 获得 和 实施 的 正确 次 序 ( 即 由 与 写 提示 一 起 到 来 的 时 间 戳 所 指定 的 次 序 )。 

为 了 实现 基于 获取 的 LRC (惰性 释放 同一 性 )， 处 理 器 必须 保持 很 多 辅助 的 数据 结 检 
包括 : 

”每 个 页 面 在 本 地 存储 器 有 一 个 以 进程 索引 的 数组 ， 它 的 每 一 项 是 从 该 进程 收 到 的 针 

对 该 页 的 写 提示 或 差异 的 链表 。 

* 一 个 独立 的 由 进程 索引 的 数组 ， 其 每 一 项 是 指向 一 个 区 间 记 录 链 表 的 指针 。 一 个 进程 
的 项 代表 了 该 进程 的 一 些 区 间 ， 对 这 些 区 间 ， 当 前 进程 已 经 收 到 了 写 提 未 。 每 个 区 间 
记录 指向 对 应 的 写 提示 的 链表 ， 而 每 个 写 提示 指向 它 的 区 间 记 录 。 

. 产生 差异 的 自由 池 空 间 。 

因为 这 些 数据 结构 ， 特 别 是 差异 ， 必 须 保 持 一 段 时 间 ， 时 间 段 的 长 短 由 运行 时 建立 的 仿 
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序 优先 次 序 决 定 ， 因 此 可 能 限制 所 能 运行 的 问题 的 尺寸 和 该 方法 的 可 扩展 性 。 基 于 宿主 的 方 
法 有 助 于 降低 差异 的 存储 容量 ， 因 为 在 通过 释放 之 后 ， 释 放 者 不 必 保 存 差异 ， 上 面 列 出 的 第 
一 个 数组 不 必 保 存 接收 到 的 差异 的 链表 。 我 们 可 以 从 (Keleher et al. 1994; Zhou, Iftode, 
and Li 1996) 获得 这 些 机 制 的 细节 。 


9.7 结论 


本 章 所 讨论 的 支持 共享 地 址 空间 一 致 的 复制 的 不 同 途径 产生 了 许多 有 趣 的 硬件 /软件 折 
中 的 集合 。 放 松 存 储 器 模型 为 了 正确 地 标记 程序 ， 增 加 了 应 用 软件 的 负担 ， 但 它 允 许 编译 器 
实施 优化 ， 也 人 允许 硬件 更 多 地 发 据 低 层次 的 并 发 性 。COMA 和 相关 的 系统 要 求 更 高 的 硬件 复 
杂 性 ,但 通过 降低 数据 替换 的 重要 性 简化 了 程序 员 的 任务 。 它 们 的 性 能 效果 很 大 程度 上 取决 
于 应 用 的 性 质 ( 即 主宰 节点 间 通 信和 的 是 共享 扑 空 还 是 容量 扑 空 )， 也 取决 于 远程 访问 延迟 和 
辅助 部 件 占用 增加 到 什么 程度 。 最 后 ， 基 于 市 售 产 品 的 方法 降低 了 系统 的 成 本 ， 为 用 户 提供 
了 一 个 更 好 的 增 量 式 采购 的 模式 ,但 是 为 了 达到 好 的 性 能 ， 通 常 要 付出 大 的 多 的 编程 努力 。 

对 这 些 不 同 的 途径 仍然 是 有 争论 的 ， 折 中 并 未 展开 。 尽 管 放松 的 存储 器 模型 对 编译 器 而 
言 是 非常 有 用 的 ， 但 在 第 11 章 我 们 将 看 到 ， 某 些 现代 的 处 理 器 选择 在 硬件 /软件 接口 上 实现 
顺序 同一 性 (或 Intel Pentium Pro 的 处 理 器 同一 性 )， 以 日 趋 复 杂 的 其 他 技术 获得 重 香 ， 隐 茂 
延迟 。 程 序 员 和 系统 之 间 的 约定 也 没有 很 好 地 被 集成 到 当前 的 程序 设计 语言 和 编译 器 之 中 。 
就 主 存 中 的 复制 而 言 ， 全 硬件 支持 的 COMA 在 KSRI 中 得 到 了 实现 (Frank, Burkhardt, and 
Rothnie 1993) ， 但 由 于 成 本 太 高 ,在 现代 的 系统 中 它 并 不 流行 。 然 而 ， 商 品 化 的 系统 开始 接 
受 类 似 于 简单 COMA 的 方案 。 

页 粒度 的 SVM 这 样 的 全 软件 方案 和 细 粒 度 的 软件 访问 控制 在 相对 较 小 规模 的 系统 中 对 
于 某 些 类 型 的 应 用 显示 了 和 良好 的 性 能 。 因 为 它们 很 容易 建造 和 部 署 ， 可 能 被 用 于 某 些 环境 下 
的 工作 站 机 群 和 SMP。 但 是 ， 对 于 大 范围 的 应 用 来 说 ， 这 些 系统 与 全 硬件 系统 相 比 在 可 编程 
性 及 性 能 方面 还 有 相当 大 的 差距 ， 这 方面 的 弱点 比 消息 传递 更 其 ， 它 们 的 可 扩展 性 也 还 没 显 
示 出 来 。 基 于 市 售 产 品 的 方案 仍 处 于 研究 阶段 ， 它 们 是 否 能 对 于 足够 大 的 应 用 集合 成 为 硬件 
高 速 缓存 一 致 的 机 器 的 竞争 者 还 有 竺 证明。 硬件 一 致 性 辅助 部 件 的 商品 化 以 及 它们 在 存储 器 
中 集成 的 方法 更 使 这 些 全 软件 的 方案 勉强 够 格 ， 使 它们 主要 用 于 不 希望 购买 并 行 机 ， 而 把 现 
有 的 机 器 在 空闲 时 当 作 共 享 地 址 空间 多 处 理 器 使 用 的 场合 (或 用 于 开发 并 行 应 用 的 早期 版 
本 )。 至 少 在 短期 内 ， 经 济 上 的 原因 可 能 会 给 全 软件 解决 方案 提供 某 种 机 会 。 因 为 厂商 倾向 
于 建造 只 包含 几 十 个 至 一 百 个 左右 节点 的 紧 耘 合 系统 ， 用 软件 一 致 性 层 连 接 这 类 硬件 一 致 性 
系统 是 构造 支持 一 致 共享 地 址 空间 编程 模型 的 巨型 机 器 的 最 可 行 方法 。 尽 管 在 具有 物理 分 布 
的 存储 器 的 可 扩展 系统 上 支持 这 一 编程 模型 被 认为 是 构造 系统 的 理想 的 方法 ， 但 只 有 时 间 才 
能 证 明 这 些 不 同 途 径 效果 如 何 。 


习题 


9.1 为 什么 在 基于 目录 的 机 器 中 ， 基 于 更 新 的 一 致 性 方案 相对 来 说 与 顺序 同一 性 模型 不 兼容 ? 
9.2 第 7 章 讨论 的 Intel Paragon 机 每 个 节点 有 两 个 处 理 单元 ， 其 中 之 一 总 是 以 内 核 模式 运行 
来 支持 通信 。 能 否 把 这 个 处 理 器 当 作 Stanford FLASH 或 Sequent NUMA-Q 的 可 编程 通信 
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9.3 


9.4 


9.5 


9.6 


9.7 


9.8 


9.9 


辅助 部 件 那样 有 效 使 用 ， 以 支持 硬件 的 块 粒度 的 高 速 缓存 一 致 性 吗 ? 

在 第 8 章 讨 论 的 Origin 协议 中 ， 当 请 求 者 仍 有 悬而未决 的 作废 ， 即 对 作废 的 应 管 尚未 

到 达 之 前 ， 其 他 的 读 请 求 和 写 请 求 可 以 到 达 该 请 求 者 。 

1) 对 于 延迟 排他 应 答 ， 这 是 否 可 能 ”有 无 问题 ”对 于 积极 的 排他 应 答 呢 ”如果 有 问 

题 ， 解 决 问题 的 最 简单 的 办 法 是 什么 ? 

假设 你 确实 想 允 许 具 有 未 决 作 废 的 请 求 者 处 理 外 来 的 读 和 写 请 求 。 首 先 考 虑 写 请 

求 ， 请 构造 一 个 会 出 问题 的 例子 。( 提 示 : 考虑 下 列 情况 : P, 对 单元 4 BA, P, 先 

对 单元 B 然后 对 flag 5, P, 在 对 flag 踏步 等 待 之 后 读 单元 B 的 值 .) 你 如 何 既 允许 

对 外 来 的 写 进行 处 理 同时 又 保持 正确 性 ?作废 应 答 由 宿主 收集 (如 Stanford 的 

FLASH 所 做 的 那样 ) 或 由 请 求 者 收集 (如 Origin 协议 中 那样 ) 哪 一 种 更 易于 实现 上 

述 功能 ? 

3) 对 外 来 的 读 回 答 2) 中 的 问题 。 

4) 如 果 你 使 用 基于 更 新 的 协议 呢 ? 当先 前 对 一 个 块 的 写 引 起 的 更 新 尚未 完成 时 ， 要 处 
理 外 来 的 对 该 块 的 请 求 会 产生 什么 复杂 性 ? 你 如 何 解决 它们 ? 

5) 总 体 上 说 ,你 是 会 选择 在 作废 或 更 新 未 决 时 允许 还 是 拒绝 处 理 外 来 的 请 求 的 做 法 ? 

假定 一 个 块 的 作废 尚未 完成 时 要 对 它 写 回 ， 这 是 否 安全 ? 有 无 问题 ”如 果 有 问题 ， 你 

如 何 解 决 这 个 问题 ? 

积极 的 独占 应 答对 于 SC 模型 是 否 有 用 ”如果 处 理 器 与 MIPS 10000 不 同 ， 本 身 就 允许 存 

储 器 操作 的 乱 序 结束 ， 积 极 的 排他 应 答 是 否 还 有 任何 用 处 ? 

如 果 使 用 积极 的 而 不 是 延迟 的 排他 应 答 ， 在 宿主 或 在 请 求 者 处 收集 应 答 两 者 之 间 的 折 

中 是 否 会 改变 ? 

如 果 处 理 器 的 存储 器 模型 是 SC 而 编译 器 根据 WO 改变 访问 的 次 序 ， 在 程序 员 接口 处 的 

同一 性 模型 是 什么 ? 如果 编 译 器 是 SC 并 且 不 改变 存储 器 操作 的 次 序 ， 但 处 理 器 实现 

RMO， 程 序 员 接 口 处 的 同一 性 模型 又 是 什么 呢 ? 

除了 像 本 章 例 9.1 所 讨论 的 那样 改变 存储 器 操作 ( 读 和 写 ) 的 次 序 之 外 ， 编 译 器 的 寄 

存 器 分 配 也 能 完全 消除 存储 器 访问 。 考 虑 下 列 代码 段 的 例子 。 说 明 寄 存 器 分 配 如 何 违 

JET SC。 单 处 理 器 编译 器 能 这 样 做 吗 ? 你 如 何在 你 常用 的 编译 器 中 避免 这 一 点 ? 


Py P2 


2 


— 





A=1 while (flag == 0); 
flag = 1 u =A 


考虑 本 章 中 讨论 的 所 有 规范 。 将 它们 按 弱化 程度 排列 ， 即 在 模型 之 间 画 弧 线 ， 从 模型 
A 到 模型 8 的 弧 线 表示 4 比 8 强 ( 即 任何 在 A 下 正确 的 执行 在 B 下 也 是 正确 的 ， 但 反 
过 来 就 不 一 定 )。 


9.10 “PC 和 TSO 哪 一 个 更 适合 于 基于 更 新 的 目录 协议 ?为 什么 ? 
9.11 你 能 不 像 入 口 同一 性 那样 明确 地 把 数据 与 同步 结合 ， 而 描述 一 种 比 释 放 同 一 性 更 为 放 


松 的 系统 规范 吗 ? 它 是 否 要 求 超出 RC 的 额外 的 编程 上 的 注意 ? 


9.12 你 能 为 WO 描述 一 组 更 为 放松 的 充分 条 件 吗 ? RC BE? 
9.13 使 用 DEC Alpha 提供 的 隔 栅 操作 和 Sparc 的 RMO 同一 性 规范 ， 说 明 你 需要 如 何 插入 这 
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9.14 


9,15 


9.16 


些 操 作 来 保证 程序 遵循 下 面 每 一 种 模型 : RCL WO. PSO, TSO 和 SC。 你 认为 以 这 种 

方式 ， 哪 一 种 能 有 效 地 实现 ? 哪 一 种 不 能 ， 为 什么 ? 

一 个 写 隔 栅 (write-fence) 操作 (RIM Alpha 体系 结构 中 的 写 存储 器 顶 障 ) 在 处 理 器 先 

前 所 有 写 操作 结束 之 前 ， 阻 塞 后 续 的 写 操 作 。 一 个 全 隔 栅 (full fence) 在 所 有 先前 的 

存储 回 操 作 结 束 之 前 阻塞 处 理 回 。 

D 在 下 列 代 码 中 插入 最 少 的 隔 机 指令， 使 其 成 为 顺序 同一 的 ， 假 定 如 不 这 样 做 ， 系 
统 不 保持 任何 程序 原 序 。 当 写 隔 棚 能 满足 要 求 时 不 要 使 用 全 隔 机 。 

ACQUIRE LOCK1 

LOAD A 

STORE A 

RELEASE LOCK1 

LOAD B 

STORE B 

ACQUIRE LOCK1 

LOAD C 

STORE C 

RELEASE LOCK1 


2) 重复 1) 的 工作 以 保证 释放 同一 性 。 

给 定 下 列 代码 段 ，SC 不 允许 Cu., v, w, x) 值 的 哪些 组 合 ? 在 这 些 情况 下 ，IBM 
370, TSO, PSO, PC. RC 和 WO 这 些 模型 能 否 不 播 入 次 序 指令 或 标记 而 保持 SC 语义 
吗 ?( 除 了 在 按 程序 原 序 先 于 读 的 写 完成 之 前 不 允许 读 返 回 该 写 操 作 写 人 的 值 之 外 ， 
IBM 370 同一 性 模型 与 TSO 很 相像 。) 如 果 不 可 以 ， 播 和 人 必要 的 隔 栅 指令 使 其 符合 SC。 
假设 在 到 达 该 代码 段 之 前 ， 所 有 变量 的 值 为 0。 


> 
- 
N 
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考虑 使 用 释放 同一 性 的 以 基于 存储 器 的 目录 协议 连接 基于 侦 听 的 SMP 的 两 级 一 致 性 
协议 。 在 对 于 一 个 存储 器 块 的 写 的 作废 应 答 尚未 到 达 时 ， 能 够 安全 地 把 数据 提交 给 另 
一 处 理 器 蚂 ? 设 另 一 处 理 器 位 于 1) 同一 SMP 节点 ,或 2) 不 同 的 SMP 节点 。 验 证 你 
的 答案 并 说 明 任何 假设 条 件 。 

一 个 没有 适当 标记 的 程序 能 在 一 个 支持 释放 同一 性 的 系统 中 正确 运行 吗 ? 如 果 能 ， 如 
何 做 ? 如 果 不 能 ， 为 什么 ? 

为 什么 Sun Spare V9 规范 中 存储 器 栅 障 指令 有 4 个 风格 位 ? 为 什么 不 能 只 使 用 两 位 ， 
用 其 中 之 一 等 待 所 有 前 面 的 写 结束 ， 而 用 另 一 位 等 待 前 面 的 读 结束 呢 ? 

为 了 与 硬件 交换 标记 信息 〈( 即 存储 器 操作 被 标记 为 获取 或 释放 )， 有 两 种 选择 : 其 一 
是 将 标记 与 存储 单元 的 地 址 结合 ; 另 一 种 是 将 标记 与 代码 中 特殊 的 操作 相 结合 。 它 们 
之 间 的 折 中 是 什么 ? 
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9.20 


P, AIP, 这 两 个 处 理 器 在 顺序 同一 性 (SC) 和 释放 同一 性 (RC) 模型 下 执行 以 下 代码 段 。 


Pi P2 
LOCK (L1) LOCK (L1) 
A= 1 X = A 
B = 2 Y = B 
UNLOCK (LL) xl = A 

UNLOCK (L1) 
x2 = B 


假设 某 一 种 体系 结构 ， 读 和 写 扑 空 都 需要 100 个 周期 完成 。 但 是 ， 你 能 假设 允许 在 间 

一 性 模型 下 重要 的 访问 确实 完全 重 肆 。 从 其 他 处 理 器 获取 一 个 空闲 的 锁 或 释放 一 个 锁 

花费 100 个 周期 ， 来 自 同一 处 理 器 的 加 锁 和 解锁 操作 不 能 重 谷 。 再 假设 所 有 的 变量 和 

锁 初 始 没 在 高 速 缓存 中 ， 所 有 的 锁 初 始 都 未 锁定 ， 所 有 存储 器 单元 初始 化 为 0， 所 有 

存储 器 单元 地 址 都 不 同 并 映射 到 高 速 缓存 的 不 同 索引 ( 即 不 同 的 高 速 缓存 行 )。 

1) Æ SC F xiy 可 能 的 输出 是 什么 ? 在 RC 下 呢 ? 

2) 假定 P, 先 获 得 锁 。 在 P, 的 锁定 操作 开始 后 多 久 P, 能 完成 它 所 有 的 操作 ， 同 时 满 
ER 5 章 所 述 SC 的 充分 条 件 ? 如 果 满 足 本 章 所 述 的 RC 的 充分 条 件 又 会 如 何 呢 ? 

给 定 下 列 代 码 段 ， 我们 希望 计算 在 各 种 存储 器 同一 性 模型 下 它 的 执行 时 间 。 假 设 具 有 

任意 深 的 写 缓存 的 处 理 器 体系 结构 。 所 有 的 指令 均 占 一 个 周期 ， 扳 略 存 储 器 系统 的 影 

响 。 读 和 写 扑 空 都 需要 100 个 周期 来 完成 〈 即 全 局 执行 )。 锁 可 进 高 速 缓存 ， 取 是 非 

阻塞 的 。 假 设 所 有 变量 和 锁 初 始 都 不 在 高 速 缓存 内 ， 所 有 的 锁 都 未 锁定 。 进 一 步 假 设 

一 个 行 一 旦 被 装 和 人 高 速 缓存 ， 它 在 代码 执行 期 间 不 会 被 作废 。 另 外 ， 访 问 的 所 有 存储 

器 单元 都 是 可 区 别 的 ， 它 们 上 映射 到 不 同 的 高 速 缓存 行 。 

1) 如 果 保 持 顺 序 同 一 性 的 充分 条 件 ， 执行 这 段 代码 将 花费 多 少 周期 ? 

2) 对 弱 序 重复 1) 的 工作 。 

3) 对 释放 同一 性 重复 1) 的 工作 。 


LOAD A 
STORE B 
LOCK (L1) 
STORE C 
LOAD D 
UNLOCK (L1) 
LOAD E 
STORE F 


在 积极 进取 动态 调度 的 单 指令 发 出 处 理 器 上 执行 下 列 代码 。 处 理 器 能 够 有 多 个 未 决 操 
E. 高 速 缓存 允许 多 个 未 决 的 扑 空 ， 写 缓存 能 隐藏 存储 的 延迟 当然， 这 些 特 性 只 有 
在 存储 器 同一 性 模型 允许 条 件 下 才能 使 用 ) 

假设 锁 不 缓存 ， 能 在 发 出 请 求 50 个 周期 后 或 释放 结束 后 20 个 周期 获得 〈 取 两 者 
较 晚 的 时 刻 )。 释 放 的 完成 需要 50 个 周期 。 读 命中 花费 一 个 周期 完成 ， 写 花费 一 个 周 
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9.23 


9.24 


9.25 


9.26 


9.27 


9.28 


处 理 器 1 : 处 理 器 2 : 
sendSpecial(int value) { receiveSpecial() { 
A=1 LOCK (L); 
LOCK (L); if (READY) 1 
C = D*3; D = C+1; 
E = F*10 F = E*G; 
G = value; } 
READY = 1; UNLOCK (L); 
UNLOCK (L); } 


期 放 入 写 缓冲 区 。 读 共享 变量 的 读 扑 空 需 要 50 个 周期 来 完成 ， 写 的 完成 需要 50 个 周 

期 。 处 理 器 的 写 缓冲 区 足够 大 ， 因 此 从 来 不 会 填 满 。 仅 仅 计算 对 共享 变量 (那些 大 写 

的 变量 ) 和 锁 的 读 和 写 的 时 延 。 初 始 时 所 有 共享 变量 不 在 高 速 缓存 中 ， 且 值 为 0。 假 

设 处 理 器 1 首先 获得 锁 。 

1) 在 SC 下， 从 处 理 器 1 进入 sendSpecial () 例 程 到 处 理 器 2 离开 receiveSpe- 
cial () 有 多 少 周期 ? 请 验证 你 的 答案 。 还 要 注意 各 个 同步 事件 的 产生 和 结束 时 刻 。 

2) 在 释放 同一 性 下 从 receivespecial () 返回 将 花费 多 少 个 周期 ? 

在 积极 释放 同一 性 协议 中 ， 差 异 在 释放 时 刻 生 成 并 传播 ， 这 与 写 提 示 类 似 ; 而 在 惰性 

释放 同一 性 中 ， 它 们 在 释放 时 刻 生成 ， 但 在 获取 时 刻 〈 即 当 获取 同步 请 求 来 到 处 理 器 

时 ) 才 被 传播 。 一 般 来 说 ， 数 据 可 以 像 写 提示 一 样 以 不 同 的 惰性 程度 传播 。 

1) 描述 在 全 软件 惰性 释放 同一 性 下 生成 、 传 播 和 实施 差异 的 其 他 可 能 的 时 刻 (考虑 
释放 时 刻 、 获 取 时 刻 或 访问 缺 页 时 刻 )。 你 能 设计 出 的 惰性 最 大 的 方案 是 什么 ? 

2) 在 实现 各 个 惰性 更 大 的 方案 时 的 复杂 性 如 何 ? 你 选择 实现 哪个 方案 ? 为什么? 

人 硬件 一 致 性 系统 也 可 以 把 作废 的 传播 推迟 到 释放 点 或 甚至 下 一 个 获取 点 (如 惰性 释放 

同一 性 那样 )。 为 什么 不 在 硬件 一 致 性 系统 中 使 用 LRC? 把 作废 推迟 到 释放 点 (而 不 

是 获取 点 ) 有 何 优 点 吗 ? 

假定 在 全 软件 的 SVM 系统 中 你 有 一 个 执行 差异 的 生成 和 实施 的 协 处 理 器 ， 所 以 不 需 

要 在 主 处 理 器 上 执行 这 些 动作 。 考 虑 在 习题 9.23 中 你 设计 的 积极 释放 同一 性 和 惰性 

协议 的 变型 ， 试 评价 协议 处 理 动作 与 主 处 理 器 的 计算 重 又 的 程度 。 夯 出 时 间 坐 标 来 说 

明 主 处 理 器 和 协 处 理 器 能 做 什么 。 你 期 望 性 能 会 有 很 大 改善 吗 ? 你 认为 在 协 处 理 器 上 

执行 所 有 的 协议 处 理 和 管理 的 主要 优点 和 主要 复杂 性 是 什么 ? 

为 什么 TreadMarks 风格 的 惰性 释放 同一 性 下 的 废料 收集 要 比 积 极 释放 同一 性 下 的 更 为 

重要 和 复杂 ? 在 基于 宿主 的 惰性 释放 同一 性 下 呢 ? 设计 一 个 进行 周期 性 废料 收集 的 方 

案 〈 讨 论 时 刻 和 方法 ) 并 讨论 复杂 性 。 

在 像 Blizzard-S 和 Shasta 这 样 以 修改 软件 中 的 读 和 写 操作 来 提供 细 粒 度 访问 控制 的 系统 

中 ， 主 要 的 性 能 目标 是 降低 修改 部 分 的 开销 。 试 说 明 你 可 能 使 用 的 某 些 技术 。 你 认为 

在 何 种 程度 上 ， 这 些 技术 能 由 编译 器 或 由 能 产生 可 执行 修改 代码 的 工具 自动 实现 ? 

在 软件 的 共享 存储 器 系统 中 〈 不 论 是 细 粒 度 的 还 是 粗 粒 度 的) ， 当 消息 〈 例 如 页 请 求 

或 锁 请 求 ) 到 达 一 个 节点 时 ， 在 不 存在 可 编程 的 通信 辅助 部 件 情况 下 ， 有 两 种 主要 的 

处 理 方法 。 其 一 是 中 断 主 处理 器 ， 另 一 种 是 让 主 处 理 器 轮 询 消息 。 
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9.29 


9.30 


9.31 


1) 这 两 种 方法 之 间 主 要 的 折 中 是 什么 ? 

2) 你 如 何 管理 主 处 理 器 的 轮 询 ?” 特别 是 何 时 去 查询 ? 

3) 你 认为 对 于 基于 页 面 的 虚拟 存储 器 哪 一 种 方法 性 能 更 好 ? 为 什么 ”对 于 细 粒 度 的 
软件 共享 存储 融 呢 ? 应 用 的 哪些 特征 对 你 的 决定 的 影响 最 大 ?” 

4) 如 果 每 个 节点 是 一 个 SMP 而 不 是 单 处 理 器 ， 会 有 什么 新 间 题 ? 折 中 会 发 生 什 么 变化 ? 

5) 你 将 考虑 如 何 安排 SMP 节点 的 消息 处 理 ? 即 ， 进 入 的 消息 在 何 处 处 理 及 如 何 管理 
消息 提示 ? 

列 出 所 有 你 能 想 出 的 基于 差异 ( 非 基 于 宿主 ) 的 和 基于 自动 更 新 (基于 宿主 ) 的 LRC 

之 间 的 折 中 。 你 认为 哪 一 个 性 能 更 好 ?” 基于 差异 的 宿主 型 LRC 和 基于 自动 更 新 的 宿 

主 型 LRC 相 比 又 如 何 呢 ? 

是 否 能 保证 适当 标记 的 程序 在 LRC 下 的 正确 运行 ? E ERC FE? 在 RC 下 呢 ? 在 ERC 

下 能 正确 运行 的 程序 一 定 能 在 LRC 下 正确 运行 吗 ” 它 一 定 能 保证 是 适当 地 标记 了 了 吗 ? 

〈《 即 未 适当 标记 的 程序 能 在 ERC 下 正确 运行 吗 ?) 在 LRC 下 能 正确 运行 的 程序 一 定 能 

在 ERC 下 正确 运行 吗 ? 

考虑 单 写 信者 的 基于 释放 的 协议 。 在 释放 点 ， 节 点 是 否 需 要 从 当前 拥有 者 那里 获得 自 

从 上 一 次 释放 以 来 它 修改 过 的 每 一 个 页 的 最 新 共享 表 吗 ?或 仅仅 根据 自己 版 本 的 共享 

表 ， 向 其 他 节点 送出 各 个 修改 过 的 页 面 的 写 提示 ?解释 为 什么 。 

考虑 没有 目录 情况 下 的 页 版 本 号 。 它 能 避免 在 单 写 人 者 的 基于 释放 的 协议 中 向 同一 副 

本 发 送 多 个 作废 的 问题 吗 ? 解释 为 什么 ， 或 给 出 一 个 反例 。 

跟踪 1) 纯 CC-NUMA，2) 扁平 COMA，3) 带 自动 更 新 的 SVM，4) 不 带 自动 更 新 的 

SVM, 5) 简单 COMA 中 写 访 问 的 路 径 (提示 : 见 本 章 中 读 访问 是 如 何 做 的 )。 

你 正在 用 下 述 四 种 应 用 进行 体系 结构 研究 ;， Ocean、LU、 在 本 地 行 计算 之 间 采 用 矩阵 

转 置 的 FFT (见习 题 8.23) 和 Bames-Hut。 对 每 一 个 应 用 ， 回 答 下 列 问题 。 假 设 是 页 

粒度 的 SVM 系统 (在 第 8 章 针 对 CC-NUMA 问 了 这 些 问 题 )。 

1) 你 将 对 数据 结构 或 数据 分 布 做 何 变动 或 改进 来 保证 扩展 的 存储 器 层次 间 的 良好 的 
交互 ? 

2) 就 方法 学 而 言 ， 对 于 以 高 速 缓存 尺寸 或 以 分 配 、- 一 致 性 和 通信 粒度 的 交互 ， 哪 些 
是 需要 特别 小 心地 表示 或 不 去 表示 ?哪些 新 交互 在 CC-NUMA 中 不 那么 重要 而 在 
SVM 系统 中 变 得 重要 了 ? 刀 些 交互 相对 于 其 他 变 得 不 太 重 要 了 ? 

3) 以 高 速 缓存 粒度 的 交互 在 SVM 中 还 像 它们 在 CC-NUMA 中 那么 重要 么 ? 如果 它们 
有 不 同 的 重要 性 ， 说 明 为 什么 。 

考虑 如 习题 8.23 PIRI EER EY FFT 运算 。 假 定 你 在 基于 页 面 的 SVM 系统 上 

运行 这 个 程序 ， 使 用 全 软件 的 、 基 于 宿主 的 多 写 人 者 协议 。 

1) 你 是 愿意 使 用 让 处 理 器 读本 地 分 配 的 数据 ， 写 远 地 分 配 的 数据 这 样 的 方法 来 实现 
转 置 ， 还 是 使 用 处 理 器 读 远 地 数据 写本 地 数据 的 方法 来 实现 转 置 呢 ? 

2) 现在 假定 你 为 了 进一步 加 速 基于 宿主 协议 ， 以 硬件 支持 自动 的 更 新 传播 。 这 会 改 
变 你 的 折 中 吗 ? 

3) 协议 的 什么 部 分 限制 了 性 能 ? 你 能 想 出 什么 样 的 协议 优化 ， 从 而 大 大 提高 这 种 或 
其 他 方案 的 性 能 。 





第 10 章 互连网 络 设计 





从 本 书 我 们 已 经 了 解 到 可 扩展 高 性 能 互连网 络 处 于 并 行 计算 机 体系 结构 的 核心 。 广 义 并 
行 机 有 三 个 基本 组 成 部 分 : 处 理 器 - 存储 器 节点 、 节 点 至 网 络 的 接口 和 连接 各 部 件 的 网 络 。 
通过 前 面 几 音 已 经 基本 了 解 了 对 并 行 机 互连网 络 的 要 求 ， 本 章 将 深入 考察 并 行 机 的 高 性 能 互 
连 网 络 的 设计 。 这 些 网 络 在 基本 概念 和 技术 上 与 局 域 网 (LAN) 和 广域网 (WAN) 类 似 , 许 
多 读者 可 能 已 经 很 熟悉 了 ， 但 由 于 互连网 络 工作 于 完全 不 同 的 时 间 尺 度 ， 它 的 设计 原则 和 折 
中 很 不 一 样 。 

并 行 计算 机 网 络 涉及 如 此 多 的 不 同 侧面 ， 因 此 是 一 个 丰富 多 彩 的 有 趣 主题 ， 但 其 丰富 多 
彩 也 使 这 个 主题 总 体 上 说 难以 理解 。 例 如 ， 并 行 计算 机 网 络 一 般 以 有 规律 的 模式 连接 。 这 些 
网 络 的 拓扑 结构 有 着 优美 的 数学 性 质 ， 所 以 拓扑 结构 和 重要 并 行 算法 的 基础 通信 模式 之 间 有 
着 深刻 的 关系 。 然 而 ， 伪 随机 的 线路 连接 模式 有 着 另 一 组 不 同 的 良好 的 数学 性 质 ， 它 倾向 于 
获得 更 均匀 的 性 能 ， 不 会 有 特别 好 或 特别 坏 的 通信 模式 。 考 察 这 个 抽象 层次 ， 我 们 可 以 看 到 
范围 宽广 的 有 意思 的 折 中 ， 大 量 研究 论文 的 注意 力 完全 集中 在 网 络 设计 的 这 个 侧面 。 另 一 方 
面 ， 在 两 个 独立 的 异步 设备 之 间 经 由 电 或 光 的 链 路 传递 信息 产生 了 复杂 的 工程 性 问题 。 这 些 
问题 导致 了 标准 化 的 工作 。 从 第 三 个 观点 看 ， 多 个 竞争 通信 资源 的 信息 流 之 间 的 交互 作用 对 
性 能 有 微妙 的 效应 ， 这 些 效应 受到 很 多 因素 的 影响 。 网 络 的 性 能 模型 是 另 一 个 理论 和 实践 研 
究 的 巨大 领域 。 真 实 网 络 的 设计 涉及 每 一 个 层次 的 问题 。 本 章 的 目标 是 提供 对 并 行 计算 机 网 
络 的 诸多 侧面 的 整体 理解 ， 这 样 读者 可 以 在 由 应 用 需求 驱动 的 并 行 机 设计 这 一 更 大 的 问题 中 
观察 到 更 为 广阔 的 网 络 设计 空间 。 

与 其 他 所 有 的 设计 一 样 ， 网 络 设计 涉及 对 权衡 的 理解 和 折 中 的 选择 ， 从 而 使 解决 方案 在 
全 局 意义 上 接近 最 优 ， 而 不 是 追求 对 某 一 特定 的 感 兴趣 的 部 分 的 优化 。 许 多 相互 作用 的 侧面 
对 性 能 的 影响 可 能 相当 微妙 。 此 外 ， 在 合适 的 网 络 代价 模型 方面 并 不 存在 清晰 的 一 致意 见 ， 
因为 折 中 可 能 在 非常 不 同 的 技术 之 间作 出 ; 例如 ， 在 链 路 的 带宽 和 交换 机 的 复杂 性 之 间 可 能 
作出 折 中 。 建 立 用 于 评价 网 络 设计 的 良好 定义 的 工作 负载 也 是 非常 困难 的 ， 因 为 程序 需求 在 
提交 给 网 络 之 前 会 受到 系统 其 他 各 个 层次 的 影响 。 这 种 情况 通常 产生 不 同 的 “设计 阵营 ”而 
不 是 热烈 的 辩论 ， 从 而 往往 忽视 了 基本 假设 中 的 区 别 。 本 章 在 展开 计算 机 网 络 的 概念 的 过 程 
中 指出 了 代价 模型 和 工作 负载 的 选择 会 如 何 导致 各 种 各 样 重要 的 设计 点 ， 它 们 反映 了 关键 的 
技术 假设 。 

前 几 章 已 经 阐明 了 网 络 设计 的 驱动 因素 。 如 果 处 理 器 要 保持 一 定 的 计算 速度 ， 程序 中 通 
信 与 计算 的 比 对 网 络 所 必须 提供 的 数据 带宽 提出 了 要 求 。 但 是 ， 不 同 程序 的 负载 变化 很 大 ， 
信息 的 流动 在 物理 上 可 以 是 局 部 的 或 分 散 的 ， 在 时 间 上 可 能 是 阵 发 的 或 是 相当 均匀 的 。 此 
外 ， 程 序 的 等 待 时 间 受到 网 络 延 迟 的 严重 影响 ， 等 待 花费 的 时 间 影 响 带 宽 的 需求 。 我 们 已 经 
看 到 不 同 编程 模型 的 实现 使 用 不 同 的 通信 粒度 〈 这 会 影响 网 络 所 看 到 的 数据 传输 的 尺寸) , 
为 了 实现 更 高 层 的 编程 模型 ， 它 们 在 网 络 事务 层 使 用 不 同 的 协议 。 

本 章 首先 给 出 作为 所 有 网 络 基础 的 一 组 基本 的 定义 和 概念 。10.2 节 建 立 了 通信 延迟 和 
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带宽 的 简单 模型 以 便 揭示 网 络 设计 风格 上 的 核心 差别 。10.3 节 具 体 说 明了 构成 网 络 的 关键 
RIT 10.4 节 说 明了 在 公共 框架 下 互 连 拓扑 结构 的 丰富 空间 ，10.5 节 在 基本 的 工作 负荷 假 
设 下 建立 了 设计 取 售 与 代价 、 延 迟 和 带宽 之 间 的 联系 。10.6 节 阅 明了 在 网 络 拓扑 中 各 种 避 
免 死 锁 的 消息 路 由 的 方法 ， 并 说 明了 路 由 对 通信 性 能 的 进一步 影响 。 为 了 帮助 读者 更 精确 地 
理解 对 各 种 选择 的 工程 性 折 中 以 及 支撑 更 抽象 的 网 络 概念 的 机 制 ，10.7 节 深 入 讨论 了 构成 
网 络 的 基本 构造 模块 即 交 换 机 的 硬件 组 成 。10.8 节 探 索 了 网 络 内 流 控 的 不 同 途径 。 以 上 述 
论述 为 基础 ，10.9 节 通 过 一 系列 案例 分 析 综 合 了 全 部 论点 ， 考 察 了 并 行 计算 机 网 络 技术 向 
其 他 网 络 体系 的 转移 ， 包 括 正在 出 现 的 系统 域 网 络 (SAN). 


10.1 基本 定义 


并 行 机 中 互连网 络 的 任务 是 从 任何 源 节点 向 任何 目的 节点 传输 信息 ， 支 持 用 以 实现 编程 
模型 的 网 络 事务 处 理 。 它 必须 以 尽 可 能 小 的 延迟 完成 这 个 任务 ， 并 允许 大 量 这 样 的 传输 并 发 
地 发 生 。 此 外 ， 相 对 于 机 器 其 他 部 分 的 成 本 来 说 ， 它 必须 是 便宜 的 。 

图 10-1 是 我 们 的 广义 大 规模 并 行 体系 结构 的 展开 图 示 ， 它 说 明了 一 台 并 行 机 中 的 互 连 
网 络 的 结构 。 源 节点 的 通信 和 辅助 部 件 通 过 把 信息 推 向 网 络 接口 (NI) 而 启动 网 络 事务 处 理 。 
根据 所 支持 的 通信 抽象 ， 这 些 事务 在 目的 节点 由 通信 辅助 部 件 、 处 理 器 或 存储 器 控制 器 处 理 。 





可 扩展 互连网 络 





图 10-1 广义 的 并 行 机 互连网 络 。 通 信和 辅助 部 件 CA 代表 处 理 器 或 存储 器 ， 通 过 网 络 接口 启动 网 络 事 
务 处 理 ， 使 信息 经 过 一 系列 链 路 和 交换 机 的 传输 ， 到 达 远 程 的 节点 ， 在 那里 发 生 网 络 事务 处 理 


网 络 由 链 路 和 交换 机 组 成 ， 它 提供 了 从 源 节点 到 目的 节点 导 引 信息 的 手段 。 链 路 本 质 上 
是 传送 模拟 信号 的 一 束 导 线 或 光纤 。 为 了 使 信息 沿 链 路 流动 ， 一 端的 发 送 器 把 数字 信息 转换 
成 模拟 信和 号， 模拟 信号 经 驱动 在 链 路 上 传送 ， 由 另 一 端的 接收 器 再 转换 成 数字 的 符号 。 在 数 
字符 号 流 和 模拟 信号 流 之 间 进 行 转换 的 物理 协议 构成 网 络 设计 的 最 低层 。 发 送 器 、 链 路 和 接 
收 器 构成 了 与 链 路 相连 的 交换 机 (或 NID) 之 间 数 字 信 息 流动 的 通道 。 链 路 层 协议 把 穿越 通 
道 的 符号 流 分 割 成 称 做 数据 包 (packet) 或 消息 (message) 的 较 大 的 逻辑 单元 ， 交 换 机 对 这 
些 单元 进行 解释 ， 以 便 将 每 一 个 从 输入 通道 到 达 的 单元 转发 到 合适 的 输出 通道 。 处 理 节点 经 
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由 一 系列 链 路 和 交换 机 进行 通信 。 节 点 层 的 协议 把 对 远程 通信 辅助 部 件 的 命令 嵌入 在 节点 间 
交换 的 数据 包 或 消息 之 中 ， 完 成 网 络 事务 处 理 。 

我 们 可 以 将 并 行 机 的 互连网 络 形式 化 地 描述 成 一 个 图 ， 这 里 顶点 V 是 由 通信 通道 
CCVxV 连 接 的 处 理 主机 或 交换 机 单元 。 通 道 是 主机 或 交换 机 单元 之 间 的 一 条 物理 链 路 ， 包 
括 保存 传送 数据 的 缓冲 器 。 通 道 宽 度 为 mw， 信号 速率 为 /= Vt (rt 是 周期 时 间 )， 它 们 一 起 
决定 了 通道 带宽 b = ufo 在 一 个 周期 中 链 路 上 传输 的 数据 的 量 叫做 一 个 物理 单元 ， 或 phi 。 
交换 机 在 固定 数量 的 输入 和 输出 通道 之 间 建 立 连 接 ， 这 个 数量 叫做 交换 机 的 度 。 典 型 情况 
下 ， 主 机 与 单个 交换 机 相连 ， 但 也 可 以 与 多 个 独立 的 通道 连接 。 消 息 沿 一 条 路 径 或 路 由 ， 通 
过 网 络 从 源 主机 传输 到 目的 主机 ， 路 径 由 一 系列 通道 和 交换 机 组 成 。 

由 街道 和 交叉 路 口 组 成 的 道路 系统 是 一 个 有 用 的 比喻 。 每 条 街 有 它 的 速度 限制 ， 具 有 几 
条 车 道 ， 这 决定 了 它 的 峰值 带宽 。 街 道 可 以 是 单 向 或 双向 的 。 交 叉 路 口 允许 旅行 者 在 数量 固 
定 的 街道 之 间 进 行 切 换 。 每 一 次 旅行 中 ， 一 组 人 员 从 源 地 点 出 发 沿 一 条 路 线 旅行 到 目的 地 。 
他 们 可 以 在 多 条 可 能 的 路 线 、 多 种 交通 工具 和 应 付 途中 可 能 遇 到 的 交通 拥挤 的 多 种 不 同方 法 
中 做 出 选择 。 在 一 个 城市 中 ， 大 量 的 这 样 的 旅行 会 同时 发 生 ， 它 们 各 自 的 路 线 可 能 交叉 ,也 
可 能 共享 路 线 上 的 某 些 路 段 。 

网 络 的 特征 由 其 拓扑 结构 、 路 由 算法 、 交 换 策略 和 流 控 机 制 所 刻画 。 
拓扑 结构 是 网 络 图 的 物理 互 连 结构 ， 它 可 以 是 规则 的 ， 如 二 维 的 网 格 〈 许 多 中 心 都 
市 的 典型 结构 )， 也 可 以 是 非 规 则 的 。 大 多 数 并 行 机 采用 高 度 规则 的 网 络 。 通 常 我 们 
区 别 直接 或 间接 网 络 ， 直 接 网 络 使 主机 与 每 一 个 交换 机 连接 ， 而 间接 网 络 中 主机 仅 
与 特定 的 交换 机 子 集 相 连 ， 这 一 子 集 形成 了 网 络 的 边沿 。 许 多 机 器 使 用 混合 的 策略 ， 
所 以 更 重要 的 是 要 区 别 两 类 节点 : 主机 可 以 产生 和 吸收 流量 ， 而 交换 机 仅仅 传递 经 
过 的 流量 。 

路 由 算法 决定 了 消息 在 网 络 图 中 沿 哪 一 条 路 径 移 动 。 路 由 算法 把 可 能 的 路 径 集合 限 
制 为 较 小 的 合法 路 径 集 。 存 在 许多 不 同 的 路 由 算法 ， 提 供 不 同 的 保证 和 各 异 的 性 能 
折 中 。 例 如 ， 继 续 我 们 前 面 城市 交通 的 比喻 ， 一 个 城市 为 了 消除 网 格 中 的 死 锁 ， 可 
能 会 立法 ,规定 汽车 在 到 达 目 的 地 的 惟一 一 次 南北 方向 的 转弯 之 前 必须 保持 东西 方 
向 行驶 ， 而 不 能 之 字形 地 穿 过 城市 。 我 们 将 看 到 这 一 措施 的 确 消除 了 死 锁 ， 但 是 也 
限制 了 司机 避免 途中 交通 拥挤 的 能 力 。 在 并 行 机 中 ， 我 们 仅仅 关心 主机 到 主机 的 路 径 。 
交换 策略 决定 了 消息 中 的 数据 如 何 穿越 它 的 路 径 。 有 两 种 基本 的 交换 策略 。 在 电路 
交换 中 ， 在 源 和 目的 之 间 建 立 一 条 路 径 并 一 直 保持 到 消息 通过 电路 为 止 。( 这 个 策略 
有 点 像 预 约 一 条 游行 路 线 ， 这 有 利于 大 量 人 员 的 通过 ， 但 是 它 需 要 预先 计划 ， 而 且 
对 想 要 穿 过 或 共享 预约 路 线 的 路 段 的 任何 交通 来 说 ， 都 可 能 是 不 愉快 的 ， 因 为 即使 
在 看 不 到 游行 队伍 时 也 不 能 通行 。 这 也 是 电话 系统 使 用 的 策略 ， 它 为 每 次 通话 建立 
一 条 线路 ， 可 能 要 经 过 许多 交换 机 。) 另 一 种 策略 是 数据 包 交 换 ， 它 将 消息 分 割 成 一 
系列 数据 包 。 数 据 包 包含 路 由 、 序 列 信息 和 数据 。 数 据 包 被 逐个 从 源 引导 到 目的 地 。 





O ”因为 很 多 网 络 异 步 地 操作 而 不 是 由 单一 全 局 时 钟 控制 ， 网 络 “周期 ”这 一 概念 并 不 像 周期 在 处 理 器 中 用 得 那天 
广泛 。 我 们 可 以 等 价 地 把 网 络 周期 定义 为 传输 最 小 的 信息 物理 单元 ， 即 phit， 所 需 的 时 间 。 对 于 并 行 体系 结构 而 
言 ， 可 以 方便 地 按 常用 术语 来 理解 处 理 器 周期 时 间 和 网 络 周期 时 间 。 的 确 ， 这 两 个 技术 体系 越 来 越 相 像 了 。 
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(一 个 显而易见 的 比喻 是 把 人 们 分 成 小 组 ， 分 乘 小 轿车 旅行 。) 数据 包 交换 允许 我 们 
更 好 地 利用 网 络 资源 ， 因 为 链 路 和 缓冲 器 只 有 在 数据 包 通过 时 才 被 占用 。 

。 流 控 机 制 决 定 消息 或 消息 的 一 部 分 ， 何 时 在 它 的 路 径 上 运动 。 当 两 个 或 更 多 的 消息 
试图 同时 使 用 同一 网 络 资源 (例如 ， 一 个 通道 ) 时 ,特别 需要 流 控 。 可 以 让 其 中 某 
个 数据 流 原 地 暂停 ， 或 令 其 分 流 进入 缓冲 器 ， 或 迁 回 到 另 一 条 路 径 ， 或 简单 地 丢弃 
它 。 每 一 种 选择 都 对 交换 机 的 设计 提出 特殊 的 要 求 ， 并 影响 到 通信 子 系统 的 其 他 方 
面 。( 在 交通 系统 的 比喻 中 ， 丢 奔 交 通 流量 显然 是 不 可 取 的 。) 能 在 链 路 上 传输 、 接 
受 或 拒绝 的 最 小 信息 单位 叫做 流 控 单位 ， 或 称 Alito EALAR phit 一 样 小 ， 也 可 能 和 
数据 包 或 消息 一 样 大 。 

为 了 说 明 phit 和 Mit 之 间 的 区 别 ， 让 我 们 考察 7.1.4 节 中 的 nCUBE 实例 。 链 路 的 宽度 是 
1 比特 ， 所 以 phit 是 1 比特。 但 是 ， 交 换 机 接纳 以 36 比特 (32 比特 的 数据 加 上 4 比特 的 奇偶 
校 验 位 ) 的 块 为 单元 的 消息 。 只 有 当 缓 冲 器 能 容纳 36 比特 时 ， 它 才 人 允许 下 一 个 36 比特 到 
来 ， 所 以 fit 的 尺寸 是 36 比特 。 在 很 多 更 为 现代 的 机 器 如 T3D 中 ，phit 和 fit 是 相同 的 。 

拓扑 的 一 个 重要 的 性 质 是 网 络 的 直径 ， 它 是 任何 两 个 节点 之 间 最 短路 径 当 中 最 长 的 一 条 
路 径 的 长 度 。 一 对 节点 之 间 的 路 由 距离 等 于 途中 穿 过 的 链 路 的 数量 ， 这 至 少 与 节点 间 的 最 短 
路 径 一 样 长， 也 可 能 更 长 。 平 均 距离 是 所 有 节点 对 之 间 路 由 距离 的 平均 值 ， 它 也 是 随机 的 节 
点 对 之 间 的 期 望 距离 。 在 一 个 直接 网 络 中 ， 必 须 在 每 一 对 交换 机 之 间 提 供 路 径 ， 而 在 间接 网 
络 中 ， 只 需要 在 主机 之 间 提 供 路 径 。 如 果 从 网 络 中 去 掉 一 组 链 路 或 交换 机 ， 某 些 主机 之 间 不 
再 有 路 径 连 接 的 话 ， 该 网 络 是 可 分 割 的 。 

本 章 大 多 数 的 讨论 都 涉及 到 数据 包 ， 因 为 大 多 数 现代 的 并 行 机 网 络 使 用 数据 包 交 换 。 当 
涉及 电路 交换 的 特别 重要 的 性 质 时 ， 我 们 会 特别 指出 。 数 据 包 是 自分 界 的 数字 符号 的 序列 ， 
逻辑 上 由 图 10-2 所 说 明 的 三 部 分 组 成 : 数据 包头 、 有 效 负 载 和 数据 包 尾 。 数 据 包 头 位 于 数 
据 包 的 前 部 ， 通 常 包含 路 由 和 控制 信息 ; 当 数 据 包 到 来 时 ， 交 换 机 和 网 络 接口 能 根据 数据 包 
头 决定 对 数据 包 做 什么 事情 。 数 据 包 的 有 效 负 载 部 分 包含 网 络 上 传输 的 数据 。 数 据 包 尾 是 数 
据 包 的 结尾 ， 通 常 包含 当 消息 进入 链 路 时 生成 的 差错 校 验 码 。 数 据 包头 也 可 以 包含 一 个 独立 
的 差错 校 验 码 。 
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在 通道 上 传输 的 符号 序列 


图 10-2 数据 包 的 典型 格式 。 数 据 包 是 沿 着 路 径 由 交换 机 控制 的 信息 的 逻辑 单位 。 它 由 三 
部 分 组 成 : 数据 包头 、 有 效 数 据 负载 和 数据 包 尾 。 当 数据 包 沿 路 径 前 进 时 ， 数 据 
包头 和 数据 包 尾 由 交换 机 解释 ， 但 有 效 负载 不 会 。 节 点 层次 的 协议 由 有 效 负载 携带 


在 网 络 环境 下 建立 抽象 的 两 个 基本 机 制 是 封装 和 分 片 。 封 装 是 指 在 给 定 层次 的 消息 格式 
中 携带 不 加 解释 形式 的 更 高 层 协 议 信 息 。 分 片 则 是 将 较 高 层 协议 信息 分 割 成 给 定 层次 的 消息 
序列 。 虽 然 任 何 网 络 都 有 这 些 基本 的 机 制 ， 但 并 行 计算 机 网 络 的 抽象 的 层次 比 起 Internet 这 
样 的 网 络 就 要 浅 得 多 ， 而 相互 高 效 地 配合 是 其 设计 原则 。 为 了 使 这 些 概 念 更 加 具体 ， 让 我 们 
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来 考察 一 下 数据 包 ， 数 据 包 的 头 和 尾 构成 一 种 由 交换 机 解释 的 、 封 装 了 有 效 负载 的 封套 。 与 
节点 协议 有 关 的 信息 包含 在 有 效 负载 之 中 。 例 如 ， 读 请 求 通常 可 以 由 单个 数据 包 传递 给 远 地 
的 存储 器 控制 器 ， 而 回答 的 高 速 缓存 行 又 是 另 一 个 数据 包 。 存 储 器 控制 器 并 不 关心 数据 包 所 
经 过 的 实际 路 由 或 数据 包头 和 尾 的 格式 。 同 样 ， 网 络 也 不 关心 在 数据 包 有 效 负 载 里 的 远程 读 
请 求 的 格式 。 大 块 的 数据 传输 一 般 不 能 由 单个 数据 包 完 成 ， 而 是 要 把 它 分 成 几 个 数据 包 。 每 
一 个 数据 包 都 需要 包含 说明 把 数据 送 到 哪里 以 及 它 携带 整个 数据 序列 中 的 哪 一 片 这 样 的 信 
息 。 向 下 一 个 层次 ， 每 一 个 数据 包 在 链 路 层 又 被 分 割 成 一 系列 符号 ， 依 次 经 由 链 路 发 送 ， 所 
以 不 需要 序列 信息 。 较 高 层 的 信息 通过 一 个 或 多 个 由 较 低 层 协议 解释 的 封套 所 携带 的 情况 在 
网 络 设计 的 每 一 个 层次 都 会 发 生 。 


10.2 基本 的 通信 性 能 


网 络 设计 四 个 主要 方面 中 的 任何 一 个 方面 都 有 很 多 东西 要 理解 ， 但 是 在 进入 这 些 方面 的 
细节 之 前 ， 对 它们 之 间 如 何 相 互 作用 ， 决 定 整个 通信 子 系统 的 性 能 和 功能 的 状况 有 个 一 般 性 
的 了 解 是 有 益 的 。 基 于 第 7 章 对 网 络 的 简要 讨论 ， 让 我 们 从 时 延 和 带宽 两 个 侧面 来 观察 性 能 。 


10.2.1 时 延 


为 了 建立 有 助 于 理解 网 络 的 基本 性 能 模型 ， 我 们 可 以 扩展 从 第 1 章 起 就 一 直 沿用 的 通信 
时 间 的 模型 。 从 源 到 目的 地 传送 个 字 节 的 信息 所 需 的 时 间 由 如 下 4 个 部 分 组 成 : 


时 间 (nn)s.p = 额外 开销 + 路 由 延迟 + 通道 占用 度 + 竞争 延迟 (10-1) 


额外 开销 (overhead) 和 实际 传输 的 端点 如 何 将 消息 引入 和 引出 网 络 有 关 ， 前 面 章节 中 
论 及 网 络 接口 时 已 经 对 它 进 行 了 广泛 的 讨论 。 我 们 知道 有 些 机 器 的 设计 依据 是 所 传送 的 块 的 
大 小 等 于 高 速 缓存 行 的 尺寸 ， 而 另 一 些 机 器 则 针对 较 大 消息 的 DMA 传输 进行 了 优化 。 关 于 
其 他 几 个 部 分 ， 路 由 延迟 (routing delay) 和 和 通道 占用 度 (channel occupancy) 已 在 前 面 的 章节 
中 被 有 效 地 概括 为 网 络 对 于 典型 尺寸 的 消息 的 无 负载 时 延 (unloaded latency) ， 而 竞争 却 在 很 
大 程度 上 被 忽略 了 。 这 几 个 部 分 是 本 章 的 重点 。 

通道 占用 度 方便 地 提供 了 通信 时 延 的 下 界 ， 它 与 消息 的 走向 及 网 络 中 发 生 的 其 他 事情 无 
关 。 当 我 们 更 深入 地 考察 网 络 设计 时 ， 我 们 将 看 到 每 条 链 路 的 占用 度 受 到 通道 宽度 、 信 号 速 
率 和 控制 信息 量 的 影响 ， 而 后 者 又 受到 拓扑 结构 和 路 由 算法 的 影响 。 前 面 的 章节 涉及 的 是 从 
网 络 外 部 观察 到 的 通道 占用 度 ， 即 经 过 路 由 中 的 瓶颈 通道 传送 消息 的 时 间 ; 而 从 网 络 内 部 
看 ， 通 道 占用 度 与 沿路 由 的 每 一 步 相关 。 通 信和 辅助 部 件 的 占用 时 间 周 期 从 接受 来 自 处 理 器 或 
存储 器 控制 器 的 通信 请 求 起 直到 将 数据 包 送 和 人 网络 为 止 。 数 据 包 在 途中 经 过 的 每 一 个 通道 都 
被 数据 包 占 用 一 段 时 间 ， 目 的 地 的 通信 和 辅助 部 件 也 一 样 。 

例如 ， 我 们 需要 了 解 的 一 个 问题 是 数据 包 编 码 的 效率 。 数 据 包 封装 提高 了 占用 度 ， 因 为 
源 节点 附加 了 数据 包头 和 尾 符号 ， 而 目的 节点 要 把 它们 剥离 。 所 以 ， 对 于 大 小 为 n 的 有 效 
负载 ， 通 道 的 占用 度 是 





























n+ ty 


b 
这 里 ns 是 封装 的 尺寸 ，6 是 通道 的 原始 带宽 。 这 个 问题 可 以 从 “外 观 ” 上 通过 说 明 链 路 的 
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有 效 带 宽 来 论述 的 ， 至 少 对 于 固定 大 小 的 数据 包 来 说 ， 有 效 带 宽 与 原始 带宽 的 比率 是 


n 
n+ng 


但 是 ， 在 网 络 内 部 ， 数 据 包 的 效率 仍然 是 一 个 设计 要 考虑 的 问题 。 对 小 的 数据 包 来 说 ， 其 影 
响 更 为 突出 ， 但 它 也 取决 于 路 由 是 如 何 完 成 的 。 

从 网 络 外 部 看 到 的 路 由 延迟 是 从 源 到 目的 地 传送 一 个 特定 符号 ， 比 如 说 消息 的 第 一 个 比 
特 ， 所 需 的 时 间 。 从 网 络 内 部 看 ， 沿 路 径 的 每 一 步 都 发 生路 由 延迟 ， 它 们 积累 起 来 成 为 外 部 
观察 到 的 延迟 。 路 由 延迟 是 路 径 中 通道 数量 ， 称 为 路 由 距离 h， 和 每 个 交换 机 选择 正确 输出 
端口 所 产生 的 延迟 A 的 函数 。( 就 产生 路 由 延迟 来 说 ， 我 们 可 以 方便 地 把 节点 至 网 络 的 接口 
等 同 于 交换 机 。) 路 由 距离 取决 于 网 络 拓 扑 、 路 由 算法 以 及 特定 的 源 和 目的 节点 对 。 整 体 延 
迟 受到 交换 和 路 由 策略 的 很 大 影响 。 

如 图 10-3a 所 示 ， 对 于 数据 包 交 换 的 存储 转发 式 路 由 ， 交 换 机 接收 整个 数据 包 ， 然 后 才 
将 它 转发 到 下 一 条 链 路 上 去 。 大 多 数 广域网 和 几 个 早期 的 并 行 计算 机 使 用 这 个 策略 。 对 于 一 
个 包括 封装 的 n 个 字 节 的 数据 包 ， 使 用 存储 转发 路 由 ， 网 络 无 负载 时 延 是 





Ty (n, h) =h( 240) (10-2) 


这 里 A 是 每 一 跳 的 额外 路 由 延迟 。 
存储 转发 路 由 
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图 103 包 交 换 网 中 存储 转发 路 由 与 直通 路 由 的 比较 。 一 个 4 flit 的 数据 包 在 存储 转发 和 直通 路 由 下 从 源 
到 目的 地 穿 过 三 跳 。 直 通 根据 第 一 个 fit 做 出 路 由 决定 灰 箭 头 )， 并 使 数据 包 流 水 地 通过 各 个 
交换 机 ， 从 而 实现 较 低 的 时 延 。 存 储 转发 要 积累 整个 数据 包 ， 然 后 才 将 它 送 往 通 向 目的 地 的 路 由 
A (10-2) 告诉 我 们 网 络 拓扑 在 决定 网 络 时 延 中 极为 重要 ， 因 为 拓扑 结构 从 根本 上 决定 
了 路 由 距离 h。 事 实 上 ， 问 题 要 比 这 更 复杂 。 
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AGA ERR, IT ARR, FATT ER Sl 成 比例 ， 包 括 建立 线路 ， 
配置 路 线 上 的 每 一 个 交换 机 ， 通 知 源 节点 路 径 已 经 建立 。 从 这 以 后 ， 数 据 沿 着 线路 传送 的 时 
HE n/6 加 上 与 产 成 比例 的 额外 的 小 的 延迟 。 所 以 ， 当 一 个 个 字 节 的 消息 在 一 个 电路 交 
换 网 络 中 传送 距离 为 h， 以 网 络 周期 时 间 + 为 单位 的 无 负载 时 延 是 


Ts (n, h) =F +hd (10-3) 


式 (10-3) F, 电路 建立 延迟 和 路 由 延迟 是 相 加 关系 ， 与 消息 的 大 小 无 关 。 所 以 ， 当 消 
SAREE IAT, SFE RD ( 即 拓 扑 结构 ) 成 为 无 负载 通信 时 延 中 不 显著 的 部 分 。 电 路 交换 
传统 上 用 于 电信 网， 因为 通话 的 建立 与 通话 的 持续 时 间 相 比 是 很 短 的 。 它 也 少量 用 于 并 行 计 
算 机 网 络 ， 包 括 Meiko CS-2 和 BBN Butterfly。 一 个 重要 的 区 别 是 ， 并 行 计算 机 中 电路 的 建立 
是 通过 引导 消息 通过 网 络 并 占据 路 径 使 其 为 一 条 电路 。 更 为 传统 的 方式 是 在 路 径 的 一 端 计算 
路 由 ， 对 交换 机 进行 配置 ， 然 后 在 电路 上 传输 信息 。 

我 们 也 可 能 既 保 持 包 交换 ， 又 降低 单纯 存储 转发 路 由 的 无 负载 时 延 。 式 (10-2) 中 的 关 
键 在 于 延迟 是 路 由 距离 和 整个 消息 的 占用 度 的 乘积 。 但 是 ， 可 以 把 一 个 长 的 消息 分 片 成 几 个 
小 的 数据 包 ， 以 流水 的 形式 流 过 网 络 。 在 这 种 情况 下 ， 无 负载 时 延 成 为 


Ty (n, h, n) s5 n( Hoa) (10-4) 
这 里 n 是 分 片 的 大 小 。 实 际 的 路 由 延迟 是 与 数据 包 的 尺寸 而 不 是 消息 的 尺寸 成 正比 。 这 是 
因特网 这 样 的 传统 的 数据 通信 网 所 采用 的 基本 方式 (用 软件 实现 )。 

在 并 行 计算 机 网 络 中 ， 路 由 和 通信 流水 执行 的 概念 被 被 进一步 发 挥 。 大 多 数 并 行 机 使 用 
直通 路 由 的 数据 包 交换 ， 这 里 交换 机 在 检查 了 数据 包头 的 前 几 个 phit 后 就 做 出 路 由 的 决策 ， 
让 数据 包 的 其 余部 分 从 输入 到 输出 通道 间 直 通 ， 如 图 10-3 所 示 ， 这 样 即 使 单个 数据 包 的 传 
输 也 能 流水 执行 。( 如 果 回 到 我 们 的 车 辆 的 比喻 的 话 ， 直 通路 由 就 像 火车 在 轨道 上 碰 到 道 贫 
所 发 生 的 情形 类 似 ， 火 车 头 被 引导 到 正确 的 轨道 ， 后 面 的 车 厢 跟 着 走 。 与 此 对 照 ， 存 储 转发 
路 由 与 车 站 上 发 生 的 情形 类 似 ， 火 车 的 所 有 车 啉 到 达 并 停留 ， 直 到 车 头 牵引 它们 继续 向 下 一 
WER) 对 于 直通 路 由 ， 无 负载 时 延 具 有 如 下 与 电路 交换 类 似 的 形式 ， 虽 然 由 于 两 者 的 处 
理 机 制 有 相当 大 的 差异 ， 路 由 系数 A 可 能 不 同 。 


Ta (n, h) = +h (10-5) 


注意 在 直通 路 由 下 ， 单 个 消息 可 能 占据 从 源 到 目的 地 的 整个 路 径 ， 与 电路 交换 很 类 似 。 消 息 
的 头 在 向 其 目的 地 移动 时 建立 起 路 径 ， 当 尾 通过 后 路 径 被 清除 。 

前 面 对 通 信 时 延 的 讨论 谈 的 是 在 路 途中 不 遭遇 其 他 通信 流量 的 情况 下 消息 从 源 到 目的 地 
的 流动 。 在 这 种 无 负载 的 情况 下 ， 可 以 简单 地 把 网 络 看 作 一 个 流水 线 ， 具 有 启动 开销 、 流 水 
深度 和 每 级 的 时 间 等 参数 。 不 同 的 交换 和 路 由 策略 会 改变 流水 线 的 有 效 结构 ， 而 拓扑 结构 、 
链 路 带宽 和 分 片 决定 了 流水 深度 和 每 级 的 时 间 。 当 然 ， 网 络 的 魅力 在 于 它们 不 是 简单 的 流水 
线 ， 而 是 很 多 流水 线 的 交织 物 。 使 用 网 络 而 不 是 总 线 的 动机 就 是 允许 多 个 数据 传输 同时 发 
生 。 这 意味 着 一 个 消息 流 可 能 与 其 他 消息 流 发 生 冲 突 ， 竞 争 资源 。 从 根本 上 说 ， 网 络 必须 提 
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供 处 理 竞争 的 机 制 。 盟 然 竞争 状态 下 的 行为 取决 于 网 络 设计 的 几 个 侧面 : 拓扑 结构 、 交 换 策 
略 和 路 由 算法 ， 但 是 基本 的 一 点 是 : 在 任何 给 定 的 时 刻 ， 一 个 通道 只 能 被 一 个 消息 占用 。 如 
果 两 个 消息 试图 同时 使 用 相同 的 通道 ， 其 中 之 一 必须 被 推迟 。 典 型 的 做 法 是 ， 由 每 个 交换 机 
为 输出 通道 提供 某 种 仲裁 的 手段 。 所 以 ,交换 机 从 竞争 各 个 输出 的 输入 数据 包 中 选 出 一 个 ， 
而 其 他 的 则 以 某 种 方式 推迟 。 

一 个 贯穿 始终 的 网 络 设计 问题 是 如 何 处 理 竞 争 。 这 个 问题 在 本 章 中 反复 出 更， 所 以 让 我 
们 首先 看 一 看 它 对 时 延 意味 着 人 什么。 显然， 竞争 增加 了 节点 所 经 历 的 通信 时 延 。 它 究竟 如 何 
增加 时 延 取决 于 处 理 网 络 内 竞争 所 用 的 机 制 ， 而 这 种 机 制 又 根据 基本 的 网 络 设计 策略 而 不 相 
同 。 例 如 ， 对 于 数据 包 交 换 ， 各 个 交换 机 都 可 能 经 历 竞争 。 使 用 存储 转发 路 由 ， 如 果 在 交换 
机 中 缓存 的 多 个 数据 包 需 要 使 用 相同 的 输出 通道 ， 数 据 包 之 一 会 被 选中 ， 其 他 的 数据 包 在 组 
存 中 阻塞 ， 直 至 它们 被 选中 为 止 。 因 此 ， 竞 争 在 基本 的 路 由 延迟 之 上 增加 了 排队 延迟 。 对 于 
电路 交换 ， 竞 争 的 效应 在 试图 建立 电路 时 出 现 ， 典 型 的 做 法 是 ， 一 个 路 由 探 针 向 目的 地 伸 
展 ， 当 过 到 一 个 已 被 预定 的 通道 就 缩 回 来 。 在 一 段 时 延 之 后 ， 网 络 接 口 再 次 尝试 建立 电路 。 
所 以 ， 在 竞争 情况 下 ， 获 得 对 网 络 访问 的 启动 开销 增加 了 ， 但 是 一 旦 电路 建立 起 来 了 ， 整 个 
消息 将 以 全 速 传输 。 

对 于 直通 数据 包 交 换 ， 有 两 种 可 用 的 数据 包 阻 塞 的 选择 。 虚 拟 直 通 (virtual cut-through) 
方式 把 阻塞 的 输入 数据 包 送 入 缓存 ， 这 样 在 竞争 条 件 下 其 行为 降级 为 存储 转发 路 由 。 盯 孔 方 
法 只 在 交换 机 中 缓存 几 个 fit， 而 将 消息 的 尾部 原 地 留 在 路 径 上 。 消 息 的 阻塞 部 分 很 像 在 网 
络 中 保持 的 一 条 电路 。 

交换 机 中 只 有 有 限 的 供 数据 包 使 用 的 缓存 ， 所 以 在 持续 竞争 的 情况 下 ， 交 换 机 中 的 缓存 
可 能 被 填 满 。 如 果 在 交换 机 中 已 没有 缓存 空间 来 保存 输入 的 数据 包 怎么 办 ? 在 传统 的 数据 通 
信 网 络 中 ， 链 路 很 长 ， 在 通道 的 两 端点 之 间 很 少 有 反馈 发 生 ， 所 以 典型 的 做 法 是 琅 弃 数据 
包 。 因 此 ， 在 竞争 条 件 下 ， 网 络 变 得 很 不 可 靠 ， 要 在 节点 中 使 用 复杂 的 协议 〈 例 如 TCP/IP 
慢 启动 ) 使 请 求 的 通信 和 负载 与 网 络 能 提供 的 能 力 相 匹 配 ， 不 要 引起 高 丢弃 率 。 大 多 数 ATM 
交换 机 也 使 用 缓存 溢出 丢弃 的 策略 ， 即 使 它们 是 被 用 来 建造 紧密 集成 的 机 群 系统 。 与 广域网 








的 情况 一 样 ， 源 节点 收 不 到 任何 关于 它 的 数据 包 丢失 的 指示 ， 所 以 它 必 须 依赖 于 某 种 超时 机 


制 来 推测 问题 的 发 生 。 

在 并 行 计 算 机 网 络 中 ， 处 理发 往 已 满 缓存 的 数据 包 的 典型 做 法 是 原 地 阻塞 ， 而 不 是 于 
F: 这 要 求 在 链 路 上 输出 端口 和 输入 端口 间 有 握手 交互 ， 也 就 是 说 ， 要 有 链 路 级 的 流 控 。 在 
持续 拥塞 的 情况 下 ， 从 网 络 中 发 生 资源 竞争 的 点 起 ， 朝 着 向 该 点 推送 流量 的 源 会 发 生 流量 
“堆积 ”"。 最 终 源 节 点 会 感受 到 来 自 网 络 的 堆积 压力 ( 当 网 络 拒绝 接受 数据 包 时 )， 这 使 得 进 
人 网 络 的 数据 流 的 速率 放 慢 到 能 通过 瓶颈 。 在 网 络 中 增加 缓存 的 量 能 允许 竞争 坚持 更 长 时 
间 而 不 在 源 节 点 引起 堆积 压力 ; 但 是 当 竞争 确实 发 生 时 ， 这 也 提高 了 网 络 中 潜在 的 排队 
JER. 

对 于 采用 消息 阻塞 的 网 络 有 一 个 问题 值得 重视 ， 即 堆积 可 能 会 影响 那些 并 不 是 流向 高 度 





号 ”这 个 情形 和 多 个 车 道 的 车 流 汇 罕 到 一 个 奖 窜 的 隧道 或 桥梁 的 情况 完全 一 样 。 当 交通 流量 低 于 赔 道 的 流通 能 力 时 ， 
几乎 不 会 发 生 延 迟 ， 但 是 当 进 入 的 车 流 超过 隧道 的 带宽 时 ， 交 通 就 会 阻塞 。 当 交通 拥塞 用 尽 了 道路 的 容纳 能 力 
时 ， 向 前 移动 的 平均 流量 会 足够 慢 ， 使 得 平均 的 带宽 等 于 膀 道 的 带宽 。 
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竞争 的 输出 点 的 流量 。 假 定 某 个 节点 由 于 保持 着 广泛 使 用 的 重要 全 局 变量 而 成 为 网 络 流量 经 
常 流向 的 目的 地 ， 这 被 称 为 “热点 "。 如 果 以 那个 输出 为 目的 地 的 流量 的 总 量 超过 了 输出 带 
宽 的 话 ， 该 流量 将 在 网 络 内 积压 。 如 果 这 种 情形 持续 下 去 ， 积 压 会 经 由 指向 该 目的 地 的 通道 
树 反 向 传播 ， 这 被 称 为 树 饱 和 (Pfister and Norton 1985)。 跨 越 该 树 的 任何 流量 都 会 被 延迟 。 
在 虫 孔 路 由 网 络 中 ,阻塞 消息 的 男 一 种 有 趣 的 方法 是 丢弃 消息 ,但 将 拥塞 的 情况 通知 源 节 
点 。 例 如 ， 在 BBN Butterfly 机 中 ， 源 节点 在 消息 头 到 达 目 的 地 ( 即 形成 电路 ) 之 前 扣压 消息 
的 尾 ， 如 果 在 途中 发 生 了 冲突 ， 忠 整个 缩 回 其 源 节点 《Rettberg and Thomas 1986)。 这 大 大 减 
轻 了 树 饱 和 的 影响 。 

我 们 能 从 以 上 简要 的 讨论 中 看 到 ， 网 络 设计 的 所 有 方面 一 一 链 路 带宽 、 拓 扑 结构 、 交 换 
策略 、 路 由 算法 和 流 控 一 一 综合 决定 了 每 个 消息 的 时 延 。 我 们 也 应 该 清楚 地 了 解 到 在 时 延 和 
带宽 之 间 存 在 关系 。 如 果 程序 所 要 求 的 通信 带宽 与 可 用 的 网 络 带 宽 相 比较 低 ， 很 少 会 有 冲突 
发 生 ， 缓 存 趋向 于 空 ， 时 延 也 低 ， 直 通路 由 特别 如 此 。 当 要 求 的 带宽 增加 ， 由 于 竞争 时 延 将 
会 上 升 。 

重要 的 但 经 常 被 忽略 的 一 点 是 并 行 计算 机 网 络 是 一 个 有 效 的 闭合 系统 ， 网 络 对 流量 的 
源 有 反馈 。 对 网 络 施加 的 负载 取决 于 处 理 节 点 请 求 通信 的 速率 ， 该 速率 又 取决 于 网 络 以 多 快 
的 速度 提供 通信 。 当 程序 涉及 某 种 依赖 关系 时 ， 程 序 性 能 受 时 延 的 影响 最 大 。 依 赖 关 系 表 现 
为 : 程序 必须 等 待 ， 直 到 读 操作 完成 或 接收 到 一 个 消息 为 止 ， 当 它 等 待 时 ， 提 交 到 网 络 的 负 
载 被 丢弃， 时 延 降低 。 这 种 情形 与 国家 范围 内 的 文件 传输 完全 不 同 ， 因 为 那 是 不 相关 的 流量 
在 竞争 。 在 并 行 机 中 ， 程 序 主要 与 其 自身 竞争 通信 资源 。 如 果 以 多 道 程序 的 形式 使 用 计算 
机 ， 并 行程 序 之 间 也 会 互相 竞争 ; 但 是 ， 当 网 络 的 服务 速率 由 于 竞争 而 降低 时 ， 每 道 程序 的 
请 求 速率 将 会 降低 。 因 为 对 于 并 行程 序 的 性 能 来 说 低 时 延 的 通信 是 关键 的 ， 本 章 的 重点 将 放 
在 直通 数据 包 交 换 网 络 上 。 


10.2.2 带宽 


网 络 带宽 对 并 行程 序 性 能 是 决定 性 的 因素 ， 部 分 原因 是 较 高 的 带宽 降低 占用 率 ， 也 因为 
较 高 的 带宽 降低 了 竞争 的 可 能 性 ， 还 因为 程序 某 些 阶段 可 能 推出 大 量 数 据 而 不 必 等 待 各 个 数 
据 的 传输 结束 。 由 于 网 络 的 行为 像 流水 线 ， 所 以 即使 在 大 时 延 情况 下 它 也 可 能 提供 高 带宽 。 

以 两 个 观点 观察 带宽 是 有 用 的 : 通过 网 络 对 所 有 节点 可 用 的 “全 局 ” 娟 合 的 带宽 和 对 一 
个 节点 可 用 的 “局 部 ”个 体 带 宽 。 如 果 一 个 程序 的 总 通信 量 是 M 个 字 节 而 网 络 的 聚合 通信 
带宽 是 每 秒 有 个 字 节 ， 那 么 显然 通信 时 间 至 少 是 M/B s。 但 另 一 方面 ， 如 果 所 有 的 通信 和 是 指 
向 或 来 自 单个 节点 ， 该 估计 显然 是 过 于 乐观 了 ， 通 信 时 间 应 由 通过 该 节点 的 带宽 所 决定 。 

首先 考察 单个 节点 可 用 的 带宽 并 了 解 它 如 何 受 到 网 络 设计 的 影响 。 前 面 已 经 看 到 了 有 效 
局 部 带宽 由 于 数据 包 编 码 密度 而 比 原始 链 路 带宽 降低 ， 成 为 
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进而 ， 如 果 交 换 机 在 做 出 其 路 由 决定 时 将 数据 包 阻塞 了 A 个 周期 的 路 由 延迟 时 间 ， 那 么 有 
效 局 部 带宽 进一步 降低 为 
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因为 wA 是 传输 在 链 路 阻塞 时 丢失 数据 的 机 会 。 所 以 ， 数 据 包 格式 和 路 由 算法 这 样 的 网 络 设 
计 问 题 将 影响 单个 节点 可 以 看 到 的 带宽 。 如 果 多 个 节点 同时 通信 并 产生 竞争 ， 那 么 可 以 看 到 
的 局 部 带宽 将 进一步 降低 〈 时 延 会 上 升 )。 如 果 多 个 节点 向 同一 节点 发 送 消息 ， 任 何 网 络 中 
都 会 在 端点 发 生 竞争 ， 但 竞争 也 可 能 在 网 络 内 部 发 生 。 网 络 拓扑 结构 和 路 由 算法 的 选择 对 网 
络 内 部 的 竞争 的 可 能 性 会 有 影响 。 

如 果 许 多 节点 同时 通信 ， 我 们 不 仅 要 了 解 每 个 个 体 节 点 可 用 的 带宽 ， 也 要 注意 网 络 能 够 
支持 的 全 局 带宽 。 首 先 ， 我 们 应 该 明确 网 络 聚 合 通信 带宽 的 概念 。 最 常用 的 聚合 带宽 的 概念 
是 对 分 带宽 ， 它 是 网 络 中 存在 通道 的 最 小 集合 ;如果 去 掉 这 些 通道 ， 就 会 将 网 络 分 成 两 个 相 
等 的 非 连接 的 节点 集合 ， 这 个 最 小 集合 中 的 通道 的 带宽 的 总 和 就 是 对 分 带宽 。 这 是 一 个 有 价 
值 的 概念 ， 因 为 如 果 通 信 模 式 是 完全 均匀 的 ， 两 个 方向 都 有 一 半 的 消息 会 跨越 对 分 边界 。 后 
面 将 看 到 对 不 同 的 网 络 拓扑 结构 平均 每 节点 的 对 分 带宽 变化 很 大 。 但 是 ， 对 分 带宽 作为 聚合 
网 络 带 宽 的 尺度 来 说 ， 并 不 能 完全 令 人 满意 ， 因 为 通信 不 一 定 非得 是 均匀 分 布 在 整个 机 器 
中 。 如 果 通 信 是 局 部 化 的 而 不 是 均匀 的 ， 对 分 带宽 将 给 出 通信 时 间 的 悲观 的 估计 。 适 应 局 部 
化 通信 模式 的 另 一 个 全 局 带宽 的 概念 是 从 节点 到 网 络 的 链 路 带宽 的 总 和 。 这 个 全 局 带宽 概念 
担心 的 是 网 络 的 内 部 结构 可 能 不 支持 它 。 显 然 ， 网 络 的 平均 聚合 带宽 依赖 于 通信 的 模式 ， 特 
别 是 它 依赖 于 数据 包 移 动 多 远 ， 所 以 应 该 更 细致 地 考察 这 个 关系 。 

网 络 中 所 有 通道 〈 或 链 路 ) 的 总 带宽 是 通道 的 数量 C 与 每 个 通道 的 带宽 的 乘积 ， 即 每 
秒 Cl 个 字 节 ， 每 周期 Cw 个 比特 或 每 周期 C 个 phit。 如 果 NN 个 主机 中 的 每 一 个 主机 每 条 个 
周期 发 出 一 个 平均 路 由 距离 为 h 的 数据 包 ， 那 么 每 个 数据 包 平均 占用 户 个 通道 ， 占 用 时 间 
为 1= n/w 个 周期 ， 网 络 的 总 负载 是 每 周期 NU/M 个 phit。 链 路 的 平均 利用 率 至 少 是 


-ME 
e=M Np (10-6) 


显然 这 必然 小 于 1。 认 识 这 一 点 的 一 种 办 法 是 每 个 节点 的 链 路 数 C/N 反映 了 每 个 节点 可 用 
的 平均 带宽 (每 节点 每 周期 的 phit 数 )。 该 带宽 的 消耗 与 路 由 距离 和 消息 尺寸 直接 成 比例 。 
每 节点 的 链 路 数 是 拓扑 结构 的 静态 性 质 。 平 均 路 由 距离 由 拓扑 结构 、 路 由 算法 、 程 序 通信 模 
式 和 程序 对 机 器 的 映射 决定 。 好 的 通信 局 部 性 可 能 产生 小 的 六 ， 而 随机 的 通信 将 产生 平均 的 
路 由 距离 ， 实 在 太 坏 的 通信 模式 则 会 导致 消息 穿越 整个 直径 。 消 息 的 大 小 是 程序 行为 和 通信 
抽象 所 决定 的 。 一 般 地 ， 式 (10-6) 中 的 聚合 通信 的 需求 表明 当 机 器 规模 扩大 ， 每 个 节点 的 
通道 数量 必须 随 着 时 延期 望 值 上 升 而 增加 。 

在 实践 中 ， 几 个 因素 限制 了 通道 利用 率 p， 使 它 比 1 小 很 多 。 各 个 链 路 的 负载 可 能 不 是 
完全 平衡 的 。 即 使 它 是 平衡 的 ， 路 由 算法 可 能 使 程序 所 使 用 的 特定 的 通信 模式 无 法 利用 所 有 
的 链 路 。 即 使 所 有 的 链 路 都 可 以 利用 并 且 在 程序 持续 的 整个 期 间 负载 是 平衡 的 ， 也 会 发 生 负 
载 的 随机 变化 和 对 低层 资源 的 竞争 。 所 有 这 些 因素 影响 了 网 络 的 他 和 点 ， 网 络 侈 和 点 代表 了 
网 络 能 有 效 地 交付 的 全 部 通道 带宽 。 正 如 图 10-4 所 说 明 的 ， 如 果 处 理 器 对 网 络 提 交 的 带宽 
需求 〈 称 作 建议 带宽 ) 不 大 ， 时 延 保持 低 ， 交 付 带宽 随 建议 带宽 的 增加 而 上 升 。 但 是 ， 在 某 
一 点 ， 要 求 更 多 的 带宽 仅仅 加 剧 了 资源 的 竞争 ， 使 时 延 急 剧 上 升 。 网 络 本 质 上 只 能 传送 它 能 
应 付 的 流量 ， 额 外 的 请 求 只 能 在 缓存 中 积聚 起 来 。 增 加 建议 带宽 并 不 能 增加 交付 带宽 。 我 们 
所 设计 的 并 行 计算 机 应 尽量 避免 使 网 络 饱和 ， 这 可 以 通过 提供 足够 的 通信 带宽 或 者 通过 限制 
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处 理 器 所 提交 的 需求 来 解决 。 


时 延 


交付 带宽 





交付 带宽 建议 带宽 


图 10-4 ”典型 的 网 络 饱 和 行为 。 当 请 求 的 带宽 大 大 低 于 网 络 所 能 交付 的 带宽 时 ， 网 络 能 
提供 低 时 延 的 传输 。 在 这 种 形态 下， 交付 带宽 随 请 求 线性 增长 。 但 是 ， 在 某 
一 点 ， 网 络 饮 和， 人 额外 的 负载 导致 时 延 急剧 上 升 ， 但 不 能 产生 额外 的 交付 带宽 

关于 图 10-4 所 说 明 的 当 网 络 负载 接近 饱和 时 ， 延 迟 急 剧 上 升 的 现象 有 一 点 应 注意 ,图 
中 所 说 明 的 行为 是 假设 向 系统 施加 的 负载 与 响应 时 间 无 关 的 所 有 排队 系统 (和 网 络 ) 的 典型 
特征 。 源 一 直 以 高 于 系统 能 服务 的 速度 向 系统 推送 消息 ， 以 致 于 在 某 处 形成 任意 长 度 的 队 
列 ， 时 延 随 该 队列 的 长 度 而 上 升 。 换 名 话说， 这 种 简单 分 析 假 设 了 一 个 开放 系统 ， 而 在 真实 
世界 中 ， 并 行 机 是 闭合 的 系统 。 网 络 中 只 有 有 限 的 缓存 能 力 ， 通 常 在 网 络 接口 只 有 有 限 的 通 
信 缓 存 。 所 以 ， 如 果 这 些 “ 队 列 ” 已 被 填 满 ， 源 就 会 放 慢 送 出 消息 的 速度 ， 降 低 它 们 对 服务 
速率 的 需求 ， 因 为 在 从 队列 中 移 走 一 个 数据 包 之 前 没有 地 方 存放 下 一 个 数据 包 。 流 控 机 制 影 
响 源 和 链 路 之 间 的 耦合 。 此 外 ， 并 行程 序 中 所 固有 的 相关 性 实际 建立 了 某 种 程度 的 端 到 端的 
流 控 ， 因 为 处 理 器 必须 先 要 收 到 远程 的 信息 才能 继续 依赖 于 这 些 信息 的 工作 ， 再 产生 额外 的 
通信 流量 。 不 过 ， 重 要 的 是 要 认识 到 ， 即 使 是 在 最 佳 的 场合 ， 也 不 能 期 望 像 网 络 链 路 这 样 的 
共享 资源 能 达到 100% 的 利用 率 。 

这 个 并 行 机 网 络 的 简略 的 性 能 模型 说 明 真实 网 络 的 时 延 和 带宽 取决 于 网 络 设计 的 所 有 方 
面 ， 我 们 将 在 本 章 的 剩余 部 分 详细 地 考察 这 些 方 面 。 网 络 性 能 建 模 本 身 是 一 个 有 着 大 量 文献 
的 丰富 领域 , 感 兴趣 的 读者 应 该 把 参阅 下 列 参 考 文献 作为 他 们 的 出 发 点 ，Agarwal (1991), 
Dally (1990b), Karol et al. (1987), Kermani and Kleirock (1979), Kruskal and Snir (1983) 以 及 
Peterson and Davie《〈1996)。 此 外 ， 人 懂得 性 能 并 不 是 网 络 设 计 中 惟一 的 驱动 性 因素 也 是 重要 
的 。 成 本 和 容错 是 另外 两 个 关键 性 的 指标 。 例 如 ， 在 几 种 大 型 的 机 器 中 ， 网 络 的 连 线 复杂 度 
成 为 关键 的 问题 。 因 为 这 些 问 题 在 相当 大 程度 上 依赖 于 设计 的 特殊 细节 以 及 所 采用 的 拓扑 结 
构 ， 将 在 考察 不 同 的 设计 方案 时 再 讨论 它们 。 

10.3 组 织 结构 

本 节 概 述 并 行 计算 机 网 络 的 基本 组 织 结构 。 一 个 有 用 的 方法 是 依据 我 们 所 熟悉 的 处 理 器 

组 织 结构 和 可 采用 的 工程 约束 来 考虑 这 个 问题 。 我 们 -一般 认 为 处 理 器 由 数据 通路 、 控 制 逻辑 


和 存储 器 接口 组 成 ， 或 许 还 包括 存储 器 层次 结构 中 的 片 内 部 分 。 数 据 通路 还 可 以 进一步 分 为 
ALU、 寄 存 器 组 、 流 水 线 锁 存 器 ， 等 等 。 控 制 逻辑 是 建立 在 对 数据 通路 上 发 生 的 数据 传输 的 
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考察 基础 之 上 的 。 数 据 通路 内 部 的 局 部 连接 都 很 得 ， 且 可 以 随 着 VLSI 技术 的 改进 而 很 好 地 
扩展 ， 而 控制 线 和 总 线 则 相当 长 ， 随 着 芯片 密度 的 增加 ， 它 们 跟 不 上 门 电路 的 速度 。 一 个 非 
常 类 似 的 分 解 和 组 装 的 概念 适用 于 网 络 。 可 扩展 的 互连网 络 由 三 个 基本 成 分 组 成 : 链 路 、 交 
换 机 和 网 络 接口 。 对 这 些 组 成 元 素 、 它 们 的 性 能 特征 和 它们 固有 的 成 本 的 基本 理解 是 评价 不 
同 网 络 设计 的 基础 。 这 些 组 成 元 素 所 执行 的 操作 相当 有 限 ， 基 本 上 就 是 把 数据 包 传 送 到 它们 
想 去 的 目的 地 。 


10.3.1 链 路 


一 条 链 路 是 由 一 条 或 多 条 电线 或 光纤 组 成 的 缆 线 ， 两 端 各 有 一 个 与 交换 机 或 网 络 接口 端 
口 相连 的 连接 器 。 它 允许 模拟 信号 从 一 端 开 始 传送 ， 在 另 一 端 接收 ， 通 过 采样 获得 原本 的 数 
字 信 和 号 流 。 在 实践 中 ， 链 路 的 电气 和 有 具体 工程 的 实现 多 种 多 样 ， 但 是 它们 基本 的 逻辑 性 质 可 
以 用 三 个 彼此 独立 的 维度 来 刻 划 : 长 度 、 宽 度 和 定时 。 

1) 上 短 链 路 是 同时 只 能 传递 单个 逻辑 值 的 链 路 ; 长 链 路 可 以 被 看 作 人 允许 多 个 逻辑 值 以 光 
速 几 分 之 一 的 速度 〈 每 纳 秒 1~2 英 尺 ， 由 特定 的 介质 决定 ) 同时 沿 一 条 链 路 传播 的 传输 线路 。 

2) 窒 链 路 是 将 数据 、 控 制 和 定时 信息 在 各 条 线路 上 多 路 复 用 传输 的 链 路 ， 例 如 单条 惠 
行 链 路 ; 宽 链 路 是 能 同时 传输 数据 和 控制 信息 的 链 路 。 在 这 两 种 情况 下 ， 网 络 链 路 一 般 要 比 
处 理 器 内 部 的 数据 通路 窗 ， 比 如 说 4~ 16 比特 宽 。 

3) 时 钟 可 以 是 同步 或 异步 的 。 在 同步 情况 下 ， 源 和 目的 地 以 同一 个 全 局 时 钟 操 作 ， 所 
以 接收 端 根据 公共 时 钟 对 数据 采样 ; 在 异步 情况 下 ， 源 节点 以 某 种 方式 把 自己 的 时 钟 编码 到 
被 传输 的 模拟 信号 之 中 ， 目 的 地 节点 从 信号 中 恢复 源 时 钟 ， 并 将 该 信息 转换 到 自己 的 时 钟 域 。 

一 条 短 电气 链 路 的 行为 和 数字 部 件 之 间 的 传统 连接 相 类 似 。 信 号 速率 本 质 上 是 由 对 导线 
充电 ， 直 到 其 两 端 表示 同一 逻辑 值 的 时 间 决 定 的。 如 果 使 用 足够 大 的 功率 来 驱动 链 路 的 话 ， 
该 时 间 仅 随 链 路 长 度 对 数 增长 。 此 外 ， 还 必须 对 导线 进行 适当 的 终端 匹配 ， 以 避免 反射 。 
这 就 是 为 什么 链 路 是 点 对 点 的 ， 而 不 是 像 总 线 那样 是 多 点 式 的 原因 。 

CRAY T3D 提供 了 一 个 宽 、 短 、 同 步 的 链 路 设计 的 很 好 的 例子 。 每 一 条 双向 链 路 在 两 个 
方向 各 包含 24 比特 : 16 比特 数据 ，4 比特 控制 ， 另 外 4 比特 反 向 提供 链 路 的 流 控 ， 从 而 交 
换 机 不 会 力图 向 满 的 缓存 发 送 流 控 单元 (flit)。 整 台 机 器 在 同一 个 150 MHz 时 钟 下 工作 。 一 
个 流 控 单元 等 于 一 个 16 比特 的 物理 单元 (phit)。 控 制 位 中 有 两 位 标识 物理 单元 的 类 型 (00 
是 无 信息 ，01 是 路 由 标签 ，10 是 数据 包 ，11 是 数据 包 的 结尾 ) 。 

在 一 条 长 导线 或 光纤 上 ， 信 和 号 沿 链 路 从 源 向 目的 地 传播 。 对 于 长 链 路 而 言 ， 延 迟 显然 与 
导线 的 长 度 成 线形 关系 。 信 号 速率 是 由 接收 端 能 对 信和 号 正确 采样 的 时 间 决 定 的 ， 因 此 导线 长 
度 是 由 信和 号 沿 链 路 的 衰减 所 限制 的 。 如 果 链 路 存在 一 根 以 上 的 导线 ， 信 和 号 速率 和 导线 长 度 受 
到 多 根 导线 上 信号 扭 斜 的 限制 。 

我 们 可 以 把 正确 采样 的 模拟 信号 看 作 一 段 时 间 内 从 源 向 目的 地 传送 的 数字 符号 (phit) 
的 流 。 每 条 导线 上 的 逻辑 值 是 由 电 平 的 高 低 或 电 平 的 跳 变 所 表示 的 。 一 般 对 数字 符号 进行 纺 
码 ， 使 得 常见 的 故障 (如 粘 附 故障 和 连接 开路 ) 易于 发 现 ， 也 容易 维持 时 钟 。 我 们 必须 在 符 








O 导线 的 RC 延 述 随 长 度 的 平方 而 增长 ， 所 以 对 于 固定 的 信号 驱动 功率 ， 网 络 的 周期 时 间 主 要 受 导线 长 度 的 影响 。 
但 是 ， 如 果 使 用 驱动 树 增加 驱动 器 的 驱动 强度 ， 在 较 长 的 导线 上 驱动 负荷 的 时 间 仅 对 数 地 增长 。( 如 果 ,是 基 
本 门 电路 的 传输 延迟 ， 则 长 度 为 1 的 短 导 线 的 净 传播 延迟 的 增长 为 1, = Kt,log!) 
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号 流 中 识别 出 一 个 个 的 数据 包 。 所 以 ， 分 帧 是 链 路 的 信号 传输 惯例 的 一 部 分 ， 它 标明 数据 包 
的 头 和 尾 物 理 单元 。 在 一 条 宽 链 路 中 ， 可 以 用 独立 的 控制 线 来 标识 头 和 尾 物理 单元 。 例 如 ， 
当 数据 包头 的 第 一 个 物理 单元 到 来 时 某 一 条 线 的 电 平 变 为 高 ， 在 数据 包 尾 的 最 后 一 个 物理 单 
元 到 来 之 前 ， 它 一 直 保 持 为 高 。 在 T3D 中 ， 路 由 标签 物理 单元 和 数据 包 结 束 物理 单元 提供 
了 数据 包 的 分 帧 功能 。 在 异步 串 行 链 路 中 ， 还 必须 从 输入 的 模拟 信号 中 提取 时 钟 ， 这 通常 是 
以 一 系列 二 进 制 值 中 的 特殊 同步 簇 实现 的 (Peterson and Davie 1996) 。 

CRAY T3E 的 网 络 提供 了 一 种 与 T3D 的 方便 的 对 照 。 它 使 用 长 、 宽 、 异 步 的 链 路 设计 。 
它 的 链 路 每 个 方向 为 14 比特 宽 ， 工 作 于 375 MHz 的 频率 。 每 个 “比特 ”是 以 用 低 电 平 的 差 
分 信号 (LVDS) 输送 的 ， 一 对 导线 上 额定 的 摆 幅 为 600 mV; 即 接收 器 检测 两 条 导线 的 电 平 
差异 而 不 是 相对 地 电 平 的 电位 的 高 低 。 时 钟 与 数据 一 起 传输 。 最 大 传输 距离 大 约 是 om, 但 
即使 在 这 个 长 度 ， 多 个 位 可 以 在 导线 上 同时 传输 。 一 个 流 控 单元 包含 5 个 物理 单元 ， 所 以 交 
换 机 以 75 MHz 频率 对 70 比特 操作 ， 这 70 比特 中 有 一 个 64 比特 的 字 加 上 一 些 控 制 信息 。 流 
控 信 息 由 反方 向 链 路 上 的 数据 包 和 空闲 符号 携带 。 流 控 单 元 序列 被 组 装 成 单字 和 8 字 的 读 和 
写 请 求 数据 包 、 消 息 数据 包 和 其 他 特殊 数据 包 。 链 路 的 最 大 数据 带宽 是 500 MBps. 

一 般 来 说 ， 帧 内 数据 包 的 编码 是 由 挂 在 链 路 上 的 节点 解释 的 。 典 型 的 做 法 是 ， 交 换 机 为 
了 完成 路 由 和 差错 校 验 要 解释 数据 包 的 封装 ， 对 有 效 负 载 不 加 处 理 传送 到 其 目的 地 主机 ， 在 
那里 再 对 进一步 的 分 层 或 内 部 的 封装 进行 解释 并 剥离 。 然 而 ， 目 的 地 节点 可 能 需要 通知 源 节 
点 它 是 否 能 保持 数据 。 这 需要 某 种 有 别 于 实际 通信 的 节点 对 节点 的 信息 。 对 于 宽 链 路 而 言 ， 
可 以 设置 两 个 方向 的 控制 线 来 提供 这 种 信息 。 而 罕 链 路 几乎 总 是 双向 的 ， 所 以 可 以 像 TBE 
所 做 的 那样 ， 在 反 向 的 流 之 中 插入 特殊 的 流 控 信号 人 。 

可 扩展 的 一 致 接口 (SCI) 定义 了 一 条 长 而 宽 的 铜 线 链 路 和 一 条 长 而 窄 的 光纤 链 路 。 链 
路 是 单 向 的 ， 节 点 总 是 组 织 成 环形 。 钢 线 链 路 由 18 对 导线 组 成 ， 在 250 MHz 时 钟 的 上 下 沿 
都 使 用 差分 信号 。 它 携带 16 比特 数据 、 时 钟 和 一 个 标签 位 。 光 纤 链 路 是 串 行 的 ， 工 作 于 
1.25 Gbps。 数 据 包 由 一 系列 16 个 比特 的 物理 单元 组 成 ， 它 的 头 包含 一 个 目标 节点 号 物理 单 
元 和 一 个 命令 物理 单元 。 它 的 尾 由 一 个 32 位 的 CRC (循环 元 余 校 验 码 ) 字 组 成 。 标 签 位 通 
过 区 分 空闲 符号 和 数据 包 物理 单元 而 实现 数据 包 的 分 帧 。 在 连续 的 数据 包 之 间 至 少 要 有 一 个 
空闲 的 物理 单元 。 

很 多 网 络 评价 工作 把 链 路 按 固定 的 成 本 处 理 。 常 识 告 诉 我 们 ， 该 成 本 随 链 路 的 长 度 和 宽 
度 的 增长 而 增长 。 这 个 问题 实际 上 是 该 领域 争论 的 焦点 之 一 ， 因 为 不 同 网 络 的 相对 质量 取决 
于 在 评价 中 使 用 的 成 本 模型 。 成 本 中 的 一 大 部 分 是 连接 器 和 连接 它们 所 涉及 的 劳动 力 的 成 
本 ， 所 以 固定 的 成 本 是 基本 的 。 连 接 器 的 成 本 随 宽度 而 上 升 ， 而 导线 的 成 本 随 宽度 和 长 度 增 
加 。 在 很 多 情况 让， 关键 的 约束 条 件 是 链 路 集束 的 横 截 面积 ， 比 如 在 对 分 位 置 ， 成 本 随 宽度 
而 增加 。 


10.3.2 交换 机 


如 图 10-5 所 示 ， 一 个 交换 机 由 一 组 输入 端口 、 一 组 输出 端口 、 一 个 将 每 个 输入 与 每 个 输 








〇 ”这 种 链 路 内 在 的 流 控 的 观点 与 更 传统 的 网 络 应 用 中 的 流 控 观点 有 相当 不 同 ， 那 里 流 控 是 由 特殊 数据 包 在 链 路 层 
协议 之 上 实现 的 。 
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出 连接 起 来 的 内 部 “交叉 开关 ”、 内 部 缓冲 器 和 在 每 个 时 间 点 影响 输入 /输出 连接 的 控制 逻辑 
组 成 。 通 常 ， 输 入 端口 的 数量 等 于 输出 端口 的 数量 ， 这 称 为 交换 机 的 度 ” 。 每 个 输出 端口 包 
含 一 个 驱动 链 路 的 发 送 器 。 每 个 输入 端口 包括 一 个 匹配 接收 器 。 大 多 数 设 计 中 的 输入 端口 有 
一 个 同步 器 ， 它 将 输入 的 数据 与 交换 机 的 本 地 时 钟 域 对 齐 。 这 本 质 上 是 一 个 先进 先 出 队列 
(FIFO)， 所 以 自然 要 对 每 个 输入 端口 提供 某 种 程度 的 缓冲 。 输 出 端口 也 可 能 有 缓冲 ， 或 者 整 
个 交换 机 共享 一 个 缓冲 。 控 制 逻辑 的 复杂 性 取决 于 路 由 和 调度 算法 ， 后 面 将 讨论 它们 。 至 
少 ,控制 逻辑 的 复杂 性 必须 能 决定 各 个 输入 数据 包 所 要 求 的 输出 端口 ， 并 且 能 在 要 求 连接 同 
一 输出 端口 的 多 个 输入 端口 之 间 做 出 仲裁 。 











A 
控制 
( 路由， 调度 ) 


图 10-5 交换 机 的 基本 组 织 。 一 组 输入 端口 通过 交叉 开关 与 一 组 输出 
端口 相连 接 。 控 制 逻辑 在 每 个 时 间 点 影响 输入 /输出 的 连接 
很 多 网 络 评价 工作 把 交换 机 的 度 当 作 它 的 成 本 考虑 。 这 显然 是 .- 个 主要 的 因素 ， 但 也 存 
在 争论 。 交 换 机 的 某 些 部 分 的 成 本 与 它 的 度 成 线性 关系 ， 如 发 送 器 、 接 收 器 和 端口 缓冲 。 但 
是 ， 内 部 连接 的 成 本 随 它 的 度 的 平方 而 增长 。 内 部 缓冲 的 数量 和 路 由 逻辑 的 复杂 性 也 超出 线 
性 增长 。 对 现代 的 VLSI 交换 机 而 言 ， 主 要 的 约束 条 件 是 芯片 的 引 脚 ， 它 与 端口 数量 和 每 个 
端口 的 宽度 的 乘积 成 正比 。 


10.3.3 网 络 接口 


网 络 接口 (NI) 包含 一 个 或 多 个 在 通信 辅助 部 件 指导 下 发 出 数据 包 和 从 网 络 接收 数据 包 
的 输入 /输出 端口 ， 我 们 在 前 面 的 章节 已 经 知道 网 络 接口 与 处 理 节点 相连 。 网 络 接口 或 者 主 
机 节点 的 行为 与 交换 机 节点 有 很 大 不 同 ， 它 们 可 以 通过 特殊 的 链 路 连接 。NI 组 织 数 据 包 的 
格式 ， 构 造 路 由 和 控制 信息 。 与 交换 机 比较 ， 它 可 以 有 较 多 的 输入 和 输出 缓存 。 它 可 以 执行 
端 到 端的 差错 校 验 和 流 控 。 显 然 ， 它 的 成 本 受 其 存储 容量 、 处 理 复杂 度 和 端口 数量 的 影响 。 








咏 ， 和 大 多 数 规则 一 样 ， 存 在 一 些 例外 。 比 如 ，BBN Monarch 的 设计 使 用 了 两 种 不 同 的 交换 机 ， 它 们 有 着 不 等 数量 的 
输 人 和 输出 端口 【Rettberg et a，1990)。 基 于 数据 包头 中 的 路 由 信息 将 数据 包 引 导 到 其 输出 端口 的 开关 所 具有 的 
输出 可 能 多 于 输入 。 另 一 种 叫做 集中 器 的 装置 将 数据 包 引导 到 任何 输出 端口 ， 它 的 输出 端口 数量 少 于 输入 端口 
的 数量 ， 而 且 所 有 输出 端口 都 通 向 同一 节点 。 
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10.4 互 连 拓扑 结构 


至 此 我 们 已 经 理解 了 决定 网 络 的 性 能 和 代价 的 基本 因素 ， 能 够 考察 与 这 些 因 素 相关 的 设 
计 空 间 的 各 个 主要 的 维度 了 。 本 节 的 内 容 覆 盖 了 一 组 重要 的 互 连 拓扑 结构 。 每 种 拓扑 实际 上 
是 一 类 随 主机 节点 数量 N 扩展 的 网 络 ， 因 此 我 们 想 知道 作为 N 的 函数 的 每 一 类 关键 特征 。 
在 实践 中 ， 像 距离 这 样 的 拓扑 特性 并 不 是 完全 独立 于 像 长 度 和 宽度 这 样 的 物理 特性 的 ， 因 为 
茶 些 拓 扑 结构 在 组 合成 物理 体 时 ， 本 质 上 需要 较 长 的 导线 ， 所 以 对 这 两 个 方面 都 有 所 理解 是 
重要 的 。 


10.4.1 全 连接 网 络 


全 连接 网 络 本 质 上 是 把 所 有 的 输入 与 输出 连接 起 来 的 单个 交换 机 。 其 直径 是 1 个 链 路 ， 
度数 为 N。 交 换 机 的 失效 将 使 整个 网 络 不 复 存 在 ， 但是， 一 条 链 路 的 失效 只 会 丢失 一 个 节 
点 。 这 样 的 网 络 的 一 个 例子 是 简单 的 总 线 ， 我 们 可 以 利用 它 来 作为 描述 这 种 网 络 基本 特征 的 
参考 点 。 它 的 一 个 良好 的 性 质 是 其 成 本 随 规模 的 扩展 按 0 (N) 上 升 。 不 幸 的 是 ， 总 线 上 同 
时 只 发 生 一 次 数据 传输 ， 所 以 整个 带宽 是 0 (1)， 对 分 带宽 也 是 如 此 。 事 实 上 .带宽 的 扩展 
比 0 (1) 还 差 ， 因 为 随 着 端口 的 增加 ，RC 延迟 使 得 总 线 的 时 钟 频率 下 降 。( 以 太 网 实际 上 
是 一 个 位 串 连 的 分 布 总 线 ; 它 的 工作 频率 足够 低 ， 从 而 允许 大 量 的 物理 连接 。) 另 一 种 全 连 
接 的 网 络 是 交叉 开关 。 它 提供 O (N) 的 带宽 ,但 是 互 连 的 成 本 和 交叉 点 的 数量 成 正比 ,或 
者 说 O(N) 。 在 这 两 种 情况 下 ， 全 连接 网 络 实际 上 都 不 是 可 扩展 的 。 这 并 不 等 于 说 它们 不 
重要 。 独 立 的 交换 机 内 部 通常 是 全 连接 的 ， 为 更 大 的 网 络 提供 了 基本 的 构造 模块 。 网 络 技术 
进步 的 一 个 关键 指标 是 效能 成 本 合算 的 交换 机 的 度 。 随 着 VLSI 芯片 密度 的 上 升 ， 能 够 被 一 
个 有 着 效能 成 本 合算 的 交换 机 全 连接 的 节点 的 数量 正在 上 升 。 


10.4.2 线性 阵列 和 环 


最 简单 的 网 络 是 由 双向 链 路 连接 连续 编号 的 节点 0，…，N - 1 构成 的 线性 阵列 。 其 直 
径 为 N ~ 1, 平均 距离 大 约 是 23N， 去 掉 一 条 链 路 就 分 割 了 网 络 ， 因 此 它 的 对 分 宽度 是 1 条 
链 路 。 这 样 的 网 络 中 的 路 由 是 简单 的 ， 因 为 在 任何 一 对 节点 之 间 只 有 一 条 路 径 。 为 了 描述 从 
市 点 4 到 节点 B 的 路 由 ,我们 定义 R= 8B 一 4 为 从 4 出 发 到 8B 的 相对 地 址 ， 这 个 带 符号 的 长 
度 为 logN 比特 的 数字 是 从 4 到 8 所 跨越 的 链 路 数目 ， 以 离开 节点 0 为 正方 向 。 因 为 在 一 对 
市 点 之 间 存 在 惟一 的 路 径 ， 该 种 网 络 显然 不 提供 容错 能 力 。 该 类 网 络 由 N - 1 条 链 路 组 成 ， 
能 很 容易 地 在 O(N) 的 空间 内 以 短 导 线 进 行 布 线 。 任 何 连续 的 节点 段 都 是 具有 与 整个 网 络 
相同 拓扑 结构 的 子 网 。 

通过 将 阵列 的 两 端 简单 连接 就 形成 了 环 (ring) 或 者 花环 (ioms)。 采 用 单 向 链 路 ， 直 径 
是 w-1， 平均 距离 是 N/2， 对 分 剖面 宽度 是 1 条 链 路 ， 在 任何 一 对 节点 间 有 一 条 路 径 。 从 
A 出 发 到 有 的 相对 地 址 是 (BA) mod N。 若 采用 双向 链 路 ， 直 径 是 N/2， 平均 距离 是 N/3， 
节点 的 度 是 2， 对 分 剖面 是 2。 在 一 对 节点 间 存 在 两 条 路 径 (两 个 相对 地 址 )， 因 此 网 络 能 够 
在 一 条 链 路 故障 的 情况 下 性 能 降级 工作 。 如 图 10-6 所 示 ， 通 过 将 环 对 折 ， 该 网 络 能 很 容易 
HE O (y) 的 空间 内 只 使 用 短 导 线 进行 布线 。 可 以 将 该 网 络 分 割 为 较 小 的 子 网 但是, F 
网 成 为 线性 阵列 而 不 是 环 。 
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图 10-6 线性 和 环 拓扑 结构 。 线 性 阵列 和 花环 易于 用 均匀 的 短 导线 来 布 
， 线 。 距 离 和 成 本 按 O(N ) 增长 ， 而 聚合 的 带宽 仅仅 为 0(1) 
虽然 这 些 一 维 的 网 络 从 实际 意义 上 说 不 是 可 扩展 的 ， 但 它们 从 概念 上 及 在 实践 中 是 重要 
的 构造 模块 。 环 的 简单 的 路 由 和 低 硬 件 复杂 性 使 得 它们 在 局 域 互 连 中 非常 流行 ， 包 括 FDDI, 
光 通 道 仲 裁 环 〈FiberChannel Arbitrated Loop) 和 可 扩展 的 一 致 接口 (Scalable Coherent Interface, 
SCUD) 。 因 为 可 以 用 非常 短 的 导线 对 它们 布线 ， 因 此 有 可 能 使 链 路 变 得 非常 宽 。 例 如 ，KSRI1 
使 用 32 节点 的 环 作为 构造 模块 ， 链 路 宽度 为 128 比特 。SCI 使 用 16 比特 宽 的 链 路 获得 其 带宽 。 


10.4.3 多 维 网 格 和 多 维 花 环 


可 以 很 自然 地 将 环 和 阵列 推广 到 更 高 的 维 数 ， 包 括 2D 的 网 格 和 3D 的 立方 体 ， 它 们 可 
以 具有 或 没有 首尾 的 连接 。 一 个 d 维 的 阵列 由 N = hy x… x 个 节点 组 成 ， 每 个 节点 由 它 
的 d 元 坐标 向 量 (iy). 7, ip) 来 标识 ,这 里 0a<i6a%1,，0<j<d-1。 图 10-7 说 明了 二 
维和 三 维 的 一 般 形式 。 为 简单 起 见 ， 假 定 各 维 的 长 度 相 等 ， 所 以 N= i’ (k=/N, d= 
logi N)” o RIZA d k 元 网 烙 。( 在 实践 中 ， 工 程 上 的 约束 经 常 导 致 非 均 匀 的 维度 ， 但 
我 们 可 以 很 容易 扩展 该 理论 来 处 理 那些 情况 。) 每 个 节点 是 一 个 交换 机 ， 它 通过 以 上 为 基 的 
d 维 坐标 的 向 量 寻 址 ， 它 所 连接 的 节点 的 地 址 仅 在 一 个 坐标 上 相差 1。 节 点 的 度 在 4 和 2d 
之 间 变 化 ， 包括 d 和 2d。 网 格 中 部 的 节点 具有 完全 的 度数 ， 而 位 于 角 上 的 节点 具有 最 小 的 
度数 。 





图 10-7 ”网 格 、 多 维 环 和 立方 体 拓 扑 结构 。 网 格 、 多 维 环 和 立方 体 是 不 元 立方 体 网 络 的 特殊 形式 , 开元 
dd- 立方 体 网 络 是 d 个 维度 每 一 个 都 由 下 个 节点 组 成 。 可 以 用 短 导 线 在 物理 空间 中 很 好 地 布置 低 维 网 络 

对 于 一 个 d 维 k 元 的 花环 来 说 ,边沿 节点 向 各 个 面 卷 回 ， 所 以 每 个 节点 的 度数 都 是 2d 
(在 双向 的 情况 下 )， 并 与 各 维 中 坐标 相差 1 (mod k) 的 节点 相连 接 。 我 们 将 把 阵列 和 多 维 花 
环 统称 为 网 格 。d 维 元 单 向 花环 是 一 类 非常 重要 的 网 络 ， 通 常 叫做 元 d- 立 方 体 ， 它 在 现 
代 并 行 计算 机 中 被 广泛 使 用 。 这 些 网 络 一 般配 置 为 直接 网 络 ， 所 以 若 要 求 每 个 交换 机 与 主机 





名 ”原文 是 r=loggN. 一 一 译 者 注 
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之 间 的 双向 连接 ， 交 换 机 需要 增加 一 个 额外 的 度 。 一 般 它们 的 度数 不 高 ， 为 2 或 3， 所 以 网 
络 通过 增加 某 些 维 或 所 有 维 的 元 数 来 扩展 。 

为 了 定义 在 d 维 阵列 中 从 节点 4 到 节点 B 的 路 由 , 令 R= (ba-i -aani ‘7, bo- ay) 
为 从 ABIB 的 相对 地 址 。 一 条 路 径 必 须 在 各 维 i PER = b -a 条 链 路 ， 这 里 符号 说 明了 
适当 的 方向 。 最 简单 的 方法 是 依次 穿越 各 个 维 ， 所 以 对 于 i =0… 4 - 1 在 第 i 维 穿行 Bk 
与 此 对 应 的 是 驾车 在 都 市 道路 网 格 的 两 地 间 旅 行 ， 首 先 沿 东西 方向 开 ， 转 一 次 弯 ， 沿 南北 方 
向 开 到 目的 地 。 当 然 ， 我 们 也 可 以 先 沿 南北 再 沿 东西 ， 或 者 走 之 字形 的 路 径 到 达 同 一 目的 
地 。 一 般 地 ， 我 们 把 源 点 和 目的 地 点 看 作 子 阵列 的 角 点 ， 从 源 到 目的 地 可 以 沿 角 点 间 的 任何 
路 径 ， 只 要 每 一 跳 都 能 对 指向 目的 地 的 相对 地 址 进行 约 减 。 

网 络 的 直径 是 d (4 -1)。 平均 距离 是 各 维 的 平均 距离 的 和 ， 大 约 是 


2 
dh 


如 果 是 偶数 ，4a 维 左 元 阵列 的 对 分 面 有 名 -条 双向 链 路 。 这 是 简单 地 用 一 个 与 阵列 某 -- 维 
垂直 的 E) 平面 切入 阵列 的 中 央 而 获得 的 。 (如 果 上 是 奇数 ， 对 分 面 会 稍 大 一 些 。) 对 于 
单 向 的 花环 ， 所 有 的 节点 的 度数 为 d (加 上 连接 主机 的 度数 )， 在 各 个 方向 上 都 有 A! RE 
路 穿 过 网 络 中 部 。 

显然 ,使 用 短线 可 以 在 平面 的 O(N ) 大 的 空间 内 对 二 维 网 格 布线 ， 在 自由 空间 的 
OCN ) 体 积 中 对 三 维 网 格 布线 。 在 实践 中 ， 工 程 因素 会 起 作用 ， 建 造 巨大 的 二 维 结构 是 不 实 
际 的 ， 在 如 何 利 用 三 维 空间 方面 会 出 现 结构 上 的 问题 ， 例 10.1 说 明了 这 些 情况 。 

例 10.1 使 用 像 Intel 的 Paragon 机 那样 的 直接 二 维 网 格 拓扑 ， 这 里 一 个 机 柜 内 装 64 个 
处 理 器 ， 构 成 宽 为 4， 高 为 16 的 节点 阵列 (每 个 节点 包含 一 个 消息 处 理 器 和 1 ~4 个 计算 处 
理 器 ) ， 如 果 只 用 短线 ， 要 建造 一 台大 机 器 ， 你 如 何 安排 机 柜 ? 

解答 : 虽然 有 许多 可 能 的 方案 ，Intel 所 用 的 方案 在 第 1 章 的 图 1-24 中 已 经 说 明 。 机 柜 
竖立 在 地 板 上 ， 大 配置 的 方法 是 把 这 些 机 柜 并 排 连接 ， 形 成 一 个 16 x 的 阵列 。 最 大 的 配置 
是 Sandia 国家 实验 室 的 1 824 个 节点 的 机 器 ， 构 成 一 个 16 x 114 的 阵列 。 对 分 带宽 是 由 跨越 
机 柜 的 16 条 链 路 决定 的 。 国 

其 他 的 机 器 采取 另外 的 策略 来 处 理 实际 装配 的 限制 。MIT 的 J-machine 是 一 个 三 维 的 花 
环 ， 每 一 块 主板 包含 了 前 两 维 中 的 一 个 8 x 16 的 花环 。 将 这 些 主板 一 块 块 相 邻 堆 琶 ， 板 间 的 
连接 提供 了 第 三 维 的 链 路 。 具 有 4 536 个 计算 节点 的 Intel 的 ASCI Red 机 有 85 THLE, EF 
许 长 导线 在 各 维 中 跨越 机 柜 。 对 于 高 维 的 网 格 ，-- 般 是 使 用 长 线 将 几 个 逻辑 维 圣人 在 各 个 物 
理 的 维 中 。 图 10-8 显示 了 一 个 6x3x2 的 阵列 和 财 人 在 平面 上 的 四 维 3 元 阵列 。 显 然 ， 对 于 
给 定 的 物理 维度 ， 导 线 的 平均 长 度 和 导线 的 数量 随 逻 辑 维 的 增加 而 增加 。 


10.4.4 f 


网 格 的 直径 和 平均 距离 随 N 的 d 次 方 根 增长 。 有 许多 其 他 的 拓扑 结构 ， 它 们 的 路 由 上 距 
离 仅 按 对 数 上 升 。 最 简单 的 一 种 拓扑 结构 是 树 。 一 个 二 叉 树 的 度数 为 3。 一 般 树 作为 间接 的 
网 络 使 用 ， 以 主机 作为 叶子 ， 所 以 对 N 个 叶子 的 树 ， 直 径 是 2logN。 (这 样 的 拓扑 结构 也 能 
作为 具有 N = klogk 个 节点 的 直接 网 络 使 用 。) 在 间接 网 络 情况 下 ， 我 们 可 以 把 各 个 节点 的 
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图 10-8 在 二 维 物理 空间 嵌入 多 个 逻辑 维 。 一 个 较 高 维 的 元 d- 立 方 体 可 以 二 

维 布线 ， 这 是 通过 将 二 维 的 片 重 复 布 置 ， 然 后 跨越 剩余 的 维 连接 这 些 

片 而 实现 的 。 从 图 中 我 们 很 容易 看 出 这 些 较 高 维 的 网 络 连 线 复杂 度 
二 进 制 地 址 当 作 d = logN 位 的 向 量 处 理 ， 它 说 明了 从 树 的 根 到 该 节点 的 一 条 路 径 一 一 最 高 
位 指示 该 节点 是 在 根 节点 的 左 子 节点 还 是 右 子 节点 之 下 ， 治 树 的 层次 向 下 依次 类 推 。 树 的 层 
次 直接 对 应 网 络 的 “ 维 "。 从 节点 4 到 节点 召 的 一 种 路 由 方法 是 从 4 一 直 向 上 湖 到 根 节点 ， 
然后 沿 着 由 B 的 地 址 说 明 的 路 径 向 下 到 B。 当 然 ， 我 们 实际 上 仪 需要 向 上 走 到 两 个 节点 的 第 
一 个 公共 的 父 节点 即 可 以 向 下 走 了 。 $ R= 8@4， 即 节点 地 址 的 按 位 异 或 形成 4 和 B 的 相 
对 地 址 ，i 为 R 中 为 1 的 最 高 位 的 位 置 。 从 节点 4 到 节点 B 的 路 径 是 向 上 i+ 1 跳 ， 接 着 向 

下 i+1 跳 ,在 每 个 分 支点 所 取 的 方向 由 B 地 址 的 低 i+1 位 说 明 。 

以 形式 化 方式 描述 ， 一 个 完全 的 间接 二 叉 树 是 一 个 具有 2N - 1 个 节点 的 网 络 ， 其 节点 


组 织 成 4+1=log N+ 1 层 。 主 机 节点 占据 第 0 层 并 由 一 个 d 位 的 地 址 4 = ai, = ao 标 
识 。 一 个 交换 机 节点 是 由 它 的 层次 i WEHI d- i Hrs A” = adio a 标识 。 交 换 机 节 
Li, AO] 与 父 节点 Ciel, ACP) 和 两 个 子 节点 [i- 1， AP 10] 和 [i-1, a? | 


1] 相连 接 ， 这 里 垂直 的 双 线 “外 ”代表 按 位 的 拼接 。 在 任何 一 对 节点 间 存 在 惟一 的 路 径 ， 
即 向 上 走 到 最 近 的 公共 祖先 结 点 ， 因 此 ， 不 存在 容错 能 力 。 平 均 距离 几乎 和 直径 一 样 大 ， 树 
可 划分 为 子 树 。 树 的 一 个 优点 在 于 它 能 很 容易 地 支持 一 个 节点 对 多 个 节点 的 广播 和 多 播 
操作 。 

显然 ， 提 高 树 的 分 支 因子 可 以 降低 路 由 距离 。 在 一 个 元 树 中 ， 每 个 节点 有 个 子 节 
点 ， 树 的 高 度 是 d = logsN; 主机 的 地 址 由 以 大 为 基 ， 长 度 为 d 的 坐标 向 量 来 说 明 ， 它 描述 
了 从 根 节点 向 下 的 路 径 。 

树 的 一 个 潜在 问题 是 它们 需要 长 线 。 不 管 怎样 ， 当 我 们 在 平面 上 画 一 棵 树 时 ， 靠 近 根 方 
向 的 线 的 长 度 通常 随 层 数 按 指数 增长 ， 图 10-9 的 上 半 部 分 说 明了 这 一 情况 ， 这 导致 在 
O(Nlog N) 的 布线 中 要 使 用 0(N ) 根 长 线 。 这 实际 上 是 你 如 何 观 察 它 的 问题 。 使 用 递归 的 
“H- 树 ”模式 ， 可 以 把 同一 个 16 节点 的 树 紧凑 地 布置 在 二 维 空间 ， 它 允许 在 O(N ) 的 布线 
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中 仅仅 使 用 0 VNR 根 长 线 (Bhatt and Leiserson 1982)。 我 们 可 以 想象 在 芯片 内 的 多 个 节点 间 ， 
在 主板 上 的 节点 《或 子 树 ) 间 ， 以 及 在 机 柜 之 间 使 用 H- 树 模式 ， 但 是 主板 之 间 必 须 使 用 线 
性 布线 。 


图 109 二 又 树 。 树 是 具有 对 数 深度 的 简单 网 络 ， 使 用 HH 树 可 以 在 二 维 空 间 有 效 地 布置 
树 。 树 的 路 由 简单 ， 它 们 包含 作为 子 网 络 的 树 。 但 是 ， 对 分 带宽 仅仅 是 O (1) 


树 的 更 严重 的 问题 在 于 其 对 分 面 。 去 除 靠近 根 的 单条 链 路 会 将 网 络 对 分 。 计 算 机 科学 家 
的 树 的 概念 很 滑稽 ， 真 正 的 树 是 越 靠 近 树 干 变 得 越 粗 。 一 个 更 好 的 比喻 是 人 类 循环 系统 ， 这 
里 心脏 构成 根 ， 细 胞 构成 叶子 。 血 液 细胞 向 上 经 过 静脉 到 达 根 ， 向 下 经 过 动脉 到 达 细 胞 。 穿 
过 各 个 层次 的 带宽 本 质 上 是 不 变 的 ， 从 而 使 血 流 均匀 。 树 形 网 络 的 一 个 叫做 胖 树 的 有 趣 变型 
利用 了 这 个 概念 ， 这 里 朝向 父 节点 的 向 上 链 路 的 带宽 是 朝向 子 节点 的 链 路 带宽 的 两 倍 。 当 
然 ， 数 据 包 和 血液 细胞 的 行为 并 不 太 相像 ， 所 以 如 何 真 正 实现 这 种 连 线 还 要 弄 清楚 一 些 问 
题 。 这 些 将 很 容易 从 蝶 网 (butterfly) 得 到 结果 。 


10.4.5 py 


如 果 具 有 “许多 根 ” 的 话 ， 可 以 避免 树 结构 在 根 位 置 的 收缩 。 一 种 叫做 蝶 网 的 重要 的 对 
数 型 网 络 提供 了 这 一 特性 。 ( 蝶 形 拓扑 出 现在 很 多 文献 中 。 它 是 逐 元 素 层次 的 FFT、Batcher 
奇偶 合并 排序 和 其 他 重要 的 并 行 算法 的 固有 的 通信 模式 。 它 与 文献 中 包括 Omega 和 SW-Ban- 
yan 网 络 在 内 的 一 些 拓扑 结构 是 同 构 的 ， 并 且 与 混 洗 -交换 网 络 和 超 立 方 体 密切 相关 ， 我 们 将 
在 后 面 讨论 它们 。) 如 图 10-10 的 上 部 所 示 ， 对 给 定 的 2 x2 的 交换 机 ， 线 对 中 各 引出 一 根 线 
简单 地 交叉 就 获得 了 蝶 网 的 基本 构造 模块 。 这 成 为 对 于 相对 地 址 的 一 位 进行 校正 的 工具 ， 直 
传 保持 该 位 不 变 ， 交 叉 则 使 该 位 翻转 。 按 图 10-10 下 半 部 的 16 个 节点 蝶 网 所 说 明 的 方法 ， 有 
规律 地 改变 交叉 的 边沿 引出 线 ， 可 以 将 这 些 2x 2 的 蝶 形 结构 在 一 个 N = 22 个 节点 的 网 络 中 
KHER log N 层 的 交换 机 。 这 种 组 态 说 明了 一 个 具有 向 上 单 向 链 路 的 间接 网 络 ， 主 机 把 数据 
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包 传人 第 0 层 ， 从 第 d 层 接 收 数 据 包 。 每 一 层 都 校正 相对 地 址 的 一 位 。 在 第 d 层 的 每 个 节 
点 都 成 为 一 棵 树 的 根 ， 该 树 以 所 有 的 主机 为 叶子 ， 而 从 每 个 主机 出 发 又 是 到 达 第 d 层 的 每 
个 节点 的 一 棵 路 径 树 。 


蝶 网 的 基本 构造 模块 





16 节点 的 蝶 网 





图 10-10 蝶 网 。 蝶 网 是 一 个 具有 对 数 深度 的 网 络 ， 它 由 能 够 校正 一 位 相 
对 地 址 的 2x2 模 块 组 成 。 我 们 可 以 把 它 看 作 一 棵 有 多 个 根 的 树 

一 个 d 维 的 间接 蝶 网 有 N = 24 个 主机 节点 和 ad27! 个 度数 为 2 的 交换 机 节点 ， 这 些 交 换 
机 组 织 成 d 层 ， 每 层 具 有 N/2 个 节点 。 一 个 位 于 层 i 的 交换 机 节点 [i:，A4] 的 输出 与 节点 
[i+1, A] A [i+l, AQË] 连接 。 为 了 找到 从 A 到 B 的 路 径 ， 计 算 相对 地 址 R= A@B, 
ER ija, WR x 是 0， 使 用 “ 直 传 ”引线 ， 否 则 ， 使 用 交叉 引线 。 该 网 络 直 径 是 JogN。 事 
实 上 ， 所 有 的 路 径 的 长 度 都 是 logN。 对 分 带宽 是 WM2。( 如 果 每 个 边沿 交换 机 只 接 一 台 主 机 ， 
公式 略 有 区 别 ， 对 分 带宽 为 NWN， 但 每 层 的 交换 机 数 加 倍 ， 层 数 多 1。) 

使 用 度数 为 的 交换 机 可 以 获得 一 个 a 维 元 蝶 网 应 是 2 的 寡 。 节 点 的 地 址 是 以 大 
为 基 的 d 维 坐 标的 向 量 ， 所 以 每 一 层 校 正 相对 地 址 中 的 log NV 位 。 在 这 种 情况 下 ， 记 次 数 为 
logsN。 事 实 上 ， 这 是 把 相 邻 的 层次 融合 成 为 一 个 较 高 基数 的 蝶 网 。 

从 每 个 主机 的 输出 到 每 个 主机 的 输入 只 有 一 条 路 径 ， 因 此 这 种 基本 的 拓扑 不 提供 内 在 的 
容错 。 但 是 ， 与 断 开 一 条 链 路 就 使 网 络 分 割 的 1 维 网 格 和 树 不 同 ， 蝶 网 有 容错 的 潜力 。 例 
W, MA 4 到 8 的 路 径 可 能 断 开 , 但 有 另 一 条 路 径 从 4 通 到 C， 从 C 通 到 8B。 人 们 已 经 提出 
了 许多 通过 增加 少量 额外 的 链 路 而 使 旦 网 容错 的 建议 。 一 -个 简单 的 方法 是 给 蝶 网 增加 额外 的 
一 层 从 而 使 每 个 源 到 每 个 目的 地 有 两 条 链 路 。BBN T2000 采用 了 这 一 途径 。 

蝶 网 似乎 是 一 种 比 网 格 和 树 可 扩展 性 更 好 的 网 络 ， 因 为 每 个 数据 包 要 跨越 logN 条 链 路 ， 
而 网 络 中 共有 NlogN 条 链 路 ;因此 平均 来 讲 ， 所 有 的 节点 有 可 能 同时 向 任何 地 方 发 送 消 息 。 
与 此 对 比 ， 二 维 的 花环 或 树 每 个 节点 只 有 两 条 链 路 ， 所 以 节点 只 能 偶尔 向 远 距离 发 送 消 息 ， 
邻近 的 节点 非常 少 。 关 于 对 分 带宽 也 有 类 似 的 争论 。 对 于 在 NN 个 节点 间 的 数据 的 随机 置换 ， 
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每 个 方向 上 穿 过 对 分 面 的 消息 的 期 望 数 为 W2。 蝶 网 有 N/2 条 链 路 跨越 对 分 面 ，d 维 的 网 格 
穿越 对 分 面 的 只 有 

NY 
条 链 路 ， 而 树 只 有 一 条 链 路 穿越 对 分 面 。 所 以 ， 当 机 器 规模 扩大 时 ， 蝶 网 的 一 个 给 定 节点 能 
每 隔 一 个 消息 向 机 器 另 一 全 的 一 个 节点 发 送 一 个 消息 ， 二 维 网 格 中 的 一 个 节点 只 能 每 

TN 

y? 
个 消息 向 另 一 侧 的 节点 发 送 一 个 消息 ， 而 树 只 能 每 N 个 消息 向 另 一 侧 的 节点 发 送 一 个 消息 。 

但 是 这 一 分 析 有 两 个 潜在 的 问题 。 第 一 个 是 成 本 问题 。 对 于 树 和 d 维 的 网 格 ， 网 络 的 
成 本 占 机 器 成 本 的 比例 固定 ， 因 为 对 应 每 个 主机 节点 有 一 个 交换 机 和 d 条 链 路 。 对 于 蝶 网 ， 
每 个 节点 的 网 络 成 本 随 节 点 的 数量 增加 而 上 升 ， 因 为 对 应 每 个 主机 有 log 个 交换 机 。 所 以 ， 
两 者 的 可 扩展 性 都 不 是 完美 的 。 实 际 中 的 问题 是 ， 相 对 于 处 理 器 而 言 交换 机 的 成 本 如 何 ? 我 
们 打算 把 机 器 整个 成 本 的 多 大 比例 投入 网 络 才能 提供 一 定 的 通信 性 能 ?如果 交换 机 和 链 路 的 
成 本 是 节点 成 本 的 10% ， 那 么 对 于 1 024 个 处 理 器 的 机 器 ， 蝶 网 的 成 本 仅仅 是 全 部 成 本 的 一 
半 。 另 一 方面 ， 如 果 交 换 机 的 成 本 与 节点 成 本 相同 ， 我 们 就 不 太 可 能 考虑 二 维 以 上 的 网 络 。 
相反 ， 如 果 我 们 降低 网 络 的 维 数 ， 我 们 就 可 能 为 每 个 交换 机 投入 更 多 。 

第 二 个 问题 是 ， 即 使 蝶 网 具有 足够 多 的 链 路 ， 能 支持 随机 置换 要 求 的 带宽 x 距离 的 乘 
积 ,但 蝶 网 的 拓扑 结构 不 允许 N 个 节点 之 间 N 个 消息 的 任意 置换 的 无 冲突 路 由 。 从 一 个 输 
人 到 一 个 输出 的 一 条 路 径 阻 寨 了 许多 其 他 输入 /输出 对 的 路 径 ， 因 为 存在 共享 的 交换 机 引出 
线 。 事 实 上 ， 即 使 允许 两 次 通过 蝶 网 ， 也 还 存在 着 路 由 冲突 的 置换 。 但 是 ， 如 果 把 两 个 蝶 网 
背靠背 地 放置 ， 从 而 消息 正 向 通过 一 个 ， 反 向 通过 另 -一 个 ， 那 么 对 于 任何 置换 ， 总 是 存在 一 
种 允许 无 冲突 置换 路 由 的 中 间 位 置 的 选择 。 这 种 背靠背 的 蝶 网 叫做 Benes 网 络 (Benes 1965; 
Leighton 1992) ， 由 于 其 优美 的 理论 性 质 ， 人 们 对 它 曾经 开展 了 广泛 的 研究 。 但 我 们 常常 发 现 
它 的 实际 重要 性 并 不 大 ， 因 为 计算 中 间 位 置 的 成 本 太 高 ， 而 且 必 须 预先 知道 置换 。 另 一 方 
面 ， 另 一 个 有 趣 的 理论 结果 揭示 在 蝶 网 上 可 以 〈 以 高 概率 ) 找到 冲突 非常 少 的 任何 置换 的 路 
由 ; 做 法 是 把 每 个 消息 首先 发 往 一 个 随机 的 中 间 节 点 ， 然 后 再 把 消息 路 由 到 希望 的 目的 节点 
(Leighton 1992)。 在 下 面 介绍 的 胖 树 中 ， 这 两 种 结果 以 非常 精巧 的 实际 方式 走 到 了 一 起 。 

图 10-11 显示 ， 将 一 个 d Hk JERI Benes 网 络 从 高 阶 维度 向 本 身 折 回 就 形成 了 一 个 4 维 
元 胖 树 。 在 第 i 层 的 N/2 个 交换 机 的 集合 被 看 作 N :个 “ 胖 节 点 "， 每 个 胖 节 点 包 售 25-1 
个 交换 机 。 正 向 蝶 网 的 边沿 向 上 通 向 根 ， 反 向 蝶 网 向 下 通 往 叶子 。 为 了 从 A 到 达 B, ZEA 
Al B 最 近 的 公共 祖先 胖 节点 中 随机 选中 一 个 节点 C， 沿 惟一 的 树 路 径 从 A 到 达 C， 再 沿 惟一 
的 树 路 径 从 C 向 下 到 达 B。 令 i 为 区 别 4 和 B 的 最 高 的 维 ， 那 么 有 2 个 根 节点 可 供 选择 ， 
所 以 路 由 距离 越 长 ， 越 能 把 流量 分 布 开 。 这 种 拓扑 结构 显然 有 大 量 容错 路 径 ， 它 具有 蝶 网 的 
对 分 带宽 ， 树 的 分 割 性 质 ， 允 许 所 有 的 置换 路 由 而 只 发 生 非常 少 的 竞争 。 它 在 Connection 
Machine CM-5 和 Meiko CS-2 中 得 到 应 用 。 在 CM-5 中 ， 向 上 路 径 的 随机 选择 是 由 交换 机 动态 
完成 的 ; 在 CS-2 中 ， 由 源 节点 选择 其 祖先 节点 。 节 点 的 度数 固定 ， 与 网 络 的 规模 无 关 是 蝶 
网 和 有 翌 树 的 一 个 特别 重要 的 实用 性 质 。 这 个 性 质 允 许 我 们 用 同样 的 交换 机 构造 任意 大 小 的 网 
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络 。 如 图 10-11 所 示 ， 胖 树 或 任何 与 蝶 网 类 似 的 网 络 的 较 高 层次 的 实际 连 线 复杂 度 成 为 问题 
的 关键 ， 因 为 需要 大 量 的 长 线 连 接 不 同 的 位 置 。 
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图 10-11 Benes 网 络 和 胖 树 。 一 个 Benes 网 络 本 质 上 是 通过 把 两 个 蝶 网 背靠背 连接 而 构成 的 。 它 的 

一 个 有 趣 的 性 质 是 ， 如 果 可 以 脱 机 计算 路 由 的 话 ， 它 能 以 无 冲突 的 方式 实现 任何 置换 路 

由 。 两 个 正 向 的 蝶 网 合 起 来 并 不 具有 这 个 性 质 。 把 Benes 网 络 的 第 二 个 一 半 折 回 它 本 身 

777 并 融合 两 个 方向 就 得 到 了 一 个 胖 树 ， 这样 它 能 在 任何 层 转向 。 交 换 机 的 组 合成 为 胖 节 点 


10.4.6 BLA 


蝶 网 中 的 直 传 引线 还 有 优化 的 潜力 ， 因 为 它们 将 一 个 数据 包 直 传 到 同一 列 的 下 一 层 。 
让 我 们 考虑 如 果 把 一 列 中 的 所 有 交换 机 压缩 成 一 个 度数 为 logN 的 交换 机 会 发 生 什 么 情况 。 
这 会 带 给 我 们 闭合 的 回路 ， 成 为 一 个 d 维 2 元 花环 ! 实际 上 ， 我 们 需要 把 一 列 中 的 交换 机 
分 成 两 半 ， 并 将 它们 与 相 邻 两 个 的 节点 结合 。 这 叫做 超 立 方 体 或 二 进 制 所 立方 体 。 其 N= 
2 个 节点 中 的 每 一 个 都 与 另外 4 个 节点 相连 接 ， 它 的 地 址 与 这 4 个 节点 的 地 址 只 有 一 位 不 
同 。 相 对 地 址 尺 (A, B) =AÐB 规定 了 从 4 到 B 必须 穿越 的 维度 。 显 然 ， 路 径 的 长 度 等 
于 相对 地 址 中 的 1 的 个 数 。 可 以 按 任何 次 序 校正 维度 〈 对 应 跨越 子 立方 体 对 角 的 不 同 的 路 
径 )， 蝶 网 的 路 由 正好 与 维 序 路 由 对 应 ， 这 在 超 立方 体 的 文献 中 称 为 e 立方 体 路 由 。 胖 树 路 
由 则 是 在 由 相对 地 址 最 高 位 1 所 定义 的 子 立 方 体 中 随机 选取 一 个 节点 ， 把 数据 包 向 “上 ”发 
送 到 该 随机 节点 ， 然 后 掉头 向 “下 ”到 达 目 的 地 。 注 意 胖 树 在 两 个 方向 上 使 用 不 同 的 链 路 集 
合 ， 在 超 立 方 体 中 ,为 了 获得 相同 的 性 质 ， 需 要 在 节点 间 使 用 一 对 双向 链 路 。 

超 立方 体 是 一 种 重要 的 拓扑 结构 ， 因 此 引起 理论 文献 的 广泛 的 注意 。 例 如 ， 通 过 选择 节 
点 的 适当 标记 ， 可 以 把 低 维 网 格 一 一 对 应 地 幢 人 到 超 立 方 体 中 。 让 我 们 回忆 一 下 数字 设计 的 
方法 ， 格 雷 码 序列 按 某 种 规则 排列 从 0 到 2° :的 数字 ， 使 得 相 邻 的 数字 只 有 -位 不 同 。 这 党 
明了 如 何 把 一 维 的 网 格 艇 人 到 d 立方体 ， 而 且 可 以 扩展 到 任意 的 维 数 (见习 题 10.7)。 显 
然 ， 蝶 网 、 混 洗 - 交 换 网 等 也 能 容易 地 嵌入 。 (有 趣 的 是 ， 一 个 4 立方 体 无 法 正好 嵌入 到 一 
个 qd -1 层 的 树 ， 因 为 在 d- 立 方 体 中 多 一 个 节点 。) 
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其 实 ， 超 立方 体 只 被 用 于 很 多 早期 的 大 规模 并 行 计算 机 ， 包 括 Cal Tech 的 研究 原型 
(Seitz 1985) 、Intel 的 前 三 代 iPSC 机 (Ratner 1985) 和 三 代 nCUBE 机 。 较 晚 的 大 规模 机 器 ， 包 
括 Intel 的 Delta, Intel 的 Paragon 和 CRAY T3D, 都 使 用 低 维 的 网 格 。 这 种 转移 的 原因 之 一 是 ， 
在 实践 中 ， 超 立方 体 拓扑 强迫 设计 者 使 用 具有 能 支持 最 大 可 能 配置 度数 的 交换 机 。 在 较 小 的 
配置 中 ， 端 口 被 浪费 了 。 天 元 d -立方体 的 方法 提供 了 实用 的 可 扩展 性 ， 它 允许 使 用 指定 的 
部 件 集 ， 也 就 是 说 ， 使 用 度数 固定 的 交换 机 来 构造 任意 大 小 的 配置 。 然 而 ， 这 带 来 了 下 述 问 
a: 什么 是 需要 的 度数 ? 

并 行 机 网 络 设计 的 一 般 趋 势 是 使 用 能 用 于 任何 拓扑 结构 连接 的 交换 机 。 例 如 ， 我 们 在 
IBM 的 SP-2, SGI 的 Origin, Myricom 网 络 和 大 多 数 ATM 交换 机 中 看 到 了 这 一 点 。 设 计 者 可 以 
选择 某 一 特定 的 规则 的 拓扑 结构 ， 或 把 不 同 尺寸 的 配置 按 不 同方 法 连接 在 一 起 。 在 任何 时 
候 ， 像 引 脚 引 出 和 芯片 面积 这 样 的 技术 因素 限制 了 最 大 可 能 的 度数 。 


10.5 对 网 络 拓扑 设计 折 中 的 评价 


元 中 立方 体 提供 了 一 个 评价 直接 网 络 不 同 设计 方案 的 方便 的 框架 。 我 们 可 以 以 两 种 方 
式 提出 设计 问题 。 给 定 选择 的 维 数 ， 交 换 机 的 设计 确定 ,我 们 可 以 探求 机 器 规模 如 何 扩展 。 
或 者 ， 对 于 感 兴趣 的 机 器 规模 ， 即 N = 所 ， 可 以 问 一 下 在 明确 的 成 本 约束 条 件 下 ， 最 好 的 维 
数 是 什么 。2D 的 花环 处 于 一 个 极端 超 立方 体 处 于 另 一 个 极端 在 这 之 间 是 网 络 的 谱系 。 
和 体系 结构 的 大 多 数 方面 一 样 ， 评 价 设计 取舍 的 关键 是 定义 成 本 模型 和 性 能 模型 ， 然 后 根据 
它们 优化 设计 。 网 络 拓扑 在 并 行 体系 结构 的 历史 上 是 有 争论 的 热点 。 在 很 大 程度 上 ， 是 因为 
在 不 同 的 成 本 模型 下 不 同 的 选择 有 其 意义 ， 而 技术 一 直 在 进步 。 一 旦 决定 了 交换 机 的 维 (或 
度数 )， 可 供 选 择 的 网 络 类 型 空间 受到 相对 的 约束 ， 所 以 问题 在 于 值得 努力 去 获得 的 度 有 
多 大 。 

让 我 们 把 对 元 二 立方 体 这 类 网 络 的 参数 收集 到 一 起 。 不 管 其 度数 是 多 少 ， 交 换 机 的 
总 数 是 N; 但 是 ， 交 换 机 的 度数 是 4， 所 以 链 路 的 总 数 是 C = Nd ， 每 个 节点 有 2wd 个 引 脚 。 
平均 路 由 距离 是 

(>) 


直径 是 d (k -1)， 从 各 个 方向 穿越 对 分 面 的 链 路 条 数 是 k = NIk (为 偶数 )。 所 以 有 
2Nw/ k 根 导线 穿 过 网 络 的 中 部 。 

如 果 我 们 主要 关心 路 由 距离 ， 那 么 我 们 倾向 于 使 维 数 最 大 来 建造 一 个 超 立方 体 。 这 可 能 
是 存储 -转发 路 由 的 情况 ， 假 设 交换 机 的 度 和 链 路 的 数量 不 是 主要 的 成 本 因素 。 此 外 ， 我 们 
还 可 以 拥有 它 精巧 的 机 械 性 质 。 因 此 ， 这 是 大 多 数 第 一 代 大 规模 并 行 机 选择 的 拓扑 结构 。 但 
是 ， 对 于 直通 路 由 和 更 实际 的 硬件 成 本 模型 ， 这 个 选择 的 理由 就 不 那么 明显 了 。 如 果 链 路 的 
数量 或 交换 机 的 度 是 占 主导 地 位 的 成 本 ， 我 们 倾向 于 使 维 数 最 小 而 建造 一 个 网 格 。 为 了 使 评 
价 有 意义 ， 我 们 希望 比较 成 本 大 致 相同 的 不 同 设计 的 性 能 。 关 于 系统 的 哪 一 方面 成 本 最 高 的 
不 同 假设 会 导致 非常 不 同 的 结论 。 

假设 的 通信 模式 也 影响 设计 决策 。 如 果 观 察 一 下 各 种 网 络 的 最 坏 的 流量 模式 ， 我 们 倾向 
于 高 维 网 络 ， 其 所 有 路 径 都 是 短 的 。 如 果 我 们 观察 各 个 节点 只 与 一 个 或 两 个 相 邻 节点 通信 这 
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样 的 模式 ， 我 们 将 选择 低 维 网 络 ， 因 为 只 有 少数 的 维度 被 实际 使 用 。 
10.5.1 无 负载 时 延 


图 10-12 显示 了 使 用 直通 路 由 ， 当 机 器 的 规模 扩展 时 ， 二 维 、 三 维和 四 维 立 方 体 以 及 二 
进 制 立方 体 (上 =2) 的 平均 无 负载 时 延 的 增加 。 它 假定 每 级 为 单位 路 由 延迟 (A = 1)， 消 
息 大 小 为 各 和 140 字 节 ，w = 工 字 节 。 底部 的 线 是 由 通道 占用 度 产生 的 时 延 部 分 。 正 如 我 们 
所 预料 的 ， 对 较 小 的 消息 〈 或 每 级 较 大 的 路 由 延迟 )， 低 维 网 络 的 扩展 性 较 差 ， 因 为 消息 平 
均 要 经 历 较 多 的 路 由 步 。 但 是 ， 当 我 们 比较 图 中 的 曲线 时 ， 实 际 默 认 交 换 机 的 度 的 区 别 不 是 
系统 成 本 的 主要 成 分 。 此 外 ，1 个 周期 的 路 由 是 非常 冒进 的 假设 ， 对 高 性 能 交换 机 而 言 ， 更 
为 典型 的 值 是 4~ 8 个 网 络 周期 ( 见 表 10-1)。 另 一 方面 ， 较 大 的 消息 也 是 常见 的 。 
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图 10.12 具有 固定 链 路 宽度 不 同 维度 的 网 络 的 无 负载 时 延 的 尺度 。 线 n/w 说 明 消 息 传输 的 通道 占用 度 分 
量 ， 即 消息 的 比特 通过 单个 通道 的 时 间 ， 它 与 网 络 的 拓扑 无 闫 。 曲 线 显 示 了 由 路 由 引起 的 额外 时 延 


表 10-1 各 种 并 行 机 网 络 的 链 路 宽度 和 路 由 延迟 





机 器 拓扑 周期 时 间 (ns) 通道 宽度 (位 ) ”路 由 延 尖 (周期 ) Fi (数据 位 ) 
nCUBE/2 超 立 方 体 25 1 40 32 
TMC CM-5 胖 树 25 4 10 4 
IBM SP-2 Banyan 25 8 5 16 
Intel Paragon 2D 网 格 11.5 16 2 16 
Meiko CS-2 胖 树 20 8 7 8 
CRAY T3D 3D 花环 6.67 16 2 16 
DASH 花环 30 16 2 16 
J-Machine 3D 网 格 31 8 2 8 
Monsoon a a] 20 16 2 16 
SGI Origin 超 立 方 体 2.5 20 16 160 
Myricom 任意 6.25 16 50 16 
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为 了 把 我 们 的 注意 力 集中 到 网 络 的 维 数 这 一 设计 问题 上 来 ， 我 们 把 成 本 模型 和 反映 我 们 
设计 出 发 点 的 节点 数量 固定 ， 考 察 以 固定 成 本 和 不 同 的 d 情况 下 网 络 的 性 能 特征 。 图 10-13 
显示 了 在 四 种 规模 的 机 器 的 条 件 下 ， 短 消息 的 无 负载 时 延 作为 维 数 的 函数 的 情况 。 对 大 的 机 
器 ， 路 由 下 迟 在 低 维 网 络 中 起 主导 作用 。 对 较 高 的 维度 ， 时 延 趋 近 于 通道 时 间 。 这 种 “相同 
节点 数量 ”的 成 本 模型 被 广泛 使 用 ， 以 支持 低 维 网 络 扩展 性 不 好 这 一 观点 。 

在 图 10-13 的 成 本 模型 下 ， 高 维 网 络 的 优越 性 能 并 不 令 人 惊奇 ， 因 为 在 这 个 模型 下 ， 交 
换 机 的 度 、 通 道 数量 和 通道 长 度 的 增加 无 须 付 出 代价 。 高 维 网 络 的 连 线 和 引 脚 的 数量 比 低 维 
网 络 多 得 多 ， 其 交换 机 也 比 低 维 网 络 的 交换 机 要 大 。 对 于 图 10-13 中 曲线 最 右 端 所 代表 的 网 
络 设计 是 不 实际 的 。 网 络 的 成 本 占 了 大 规模 并 行 机 成 本 的 很 大 部 分 ， 所 以 在 适当 的 技术 假设 
下 比较 成 本 相等 的 设计 才 是 有 意义 的 。 随 着 芯片 的 尺寸 和 密度 改善 ， 交 换 机 内 部 组 成 不 再 是 
主要 的 成 本 部 分 ， 而 引 脚 和 连 线 仍 然 是 关键 因素 。 在 极端 情况 下 ， 导 线 的 物理 体积 成 为 限制 
可 能 实现 的 互 连 的 根本 因素 。 所 以 让 我 们 在 物理 连 线 复杂 度 相 等 的 假设 下 比较 这 些 网 络 。 一 
种 有 意义 的 比较 是 保持 每 个 节点 的 连 线 总 数 为 常数 ， 也 就 是 说 ， 固 定 引 脚 的 数量 为 24w。 让 
我 们 以 通道 宽度 w = 32 的 二 维 立 方 体 为 基准 ， 这 样 每 个 节点 就 有 128 条 连 线 。 如 果 维 度 提 
高 ， 通 道 增加 ， 每 个 通道 的 宽度 必须 降低 。 通 道 宽度 可 记 为 由 =| 64/dj。 所 以 对 于 一 个 8 
维 立方 体 , 链 路 就 只 有 8 位 宽 了 。 我们 假设 消息 长 度 为 和 0 和 140 字 节 ， 每 跳 的 路 由 延迟 均 
义 ， 为 两 个 周期 ， 周 期 时 间 均 匀 ， 图 10-14 显示 了 在 同等 引 脚 规模 情况 下 的 无 负载 时 延 。 该 
图 揭示 了 一 种 完全 不 同 的 现象 。 随 着 维 数 的 增加 ， 通 道 变 窗 ， 通 道 时 间 增 大 ; 这 抵消 了 由 较 
小 的 路 由 距离 所 带 来 的 路 由 延迟 的 降低 。 非 常 大 的 配置 在 低 维 情况 下 仍然 会 有 大 的 路 由 延 
B, 不管 通 道 的 宽度 如 何 ， 但 是 所 有 的 配置 在 维 数 较 低 点 都 达到 最 佳 的 无 负载 时 延 。 
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图 10-13 节点 数量 相同 (n= 40 B，A= 2) 的 元 4 立方 体 情况 下 ， 作 为 度数 函数 的 无 负载 时 延 。 当 

链 路 宽度 和 路 由 延迟 固定 ， 由 于 较 长 的 路 由 距离 ， 大 规模 网 络 的 无 负载 时 延 在 低 维 处 急剧 上 逢 

如 果 引 脚 不 是 设计 的 限制 因素 ， 那 么 穿 过 机 器 中 央 的 连 线 数量 就 成 为 连 线 复杂 度 的 关 

键 。 如 果 把 机 器 看 作 在 平面 上 展开 ， 对 分 面 的 物理 宽度 仅 随 面积 的 平方 根 而 增长 ; 在 三 维 空 

间 ， 它 随 体积 的 三 分 之 二 次 方 增长 。 即 使 网 络 具 有 高 的 逻辑 维 数 ， 它 也 必须 殖 人 在 少量 的 物 
理 维 度 中 ， 因 此 设计 者 必须 为 穿 过 中 间 层 面 的 导线 所 占 的 横 截 面积 而 费心 。 
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图 10-14 具有 相等 引 脚 数 的 元 4 立方 体 的 无 负载 时 延 (n= 408 和 n= 140B, A 
=2)。 在 相等 引 脚 数 情况 下 ， 较 高 的 维度 意味 着 较 罕 的 通道 ， 所 以 最 优 的 
设计 点 是 平衡 路 由 延迟 随 维 数 降低 增加 ) 和 通道 时 间 〈 随 维 数 上 升 增加 ) 

我 们 可 以 通过 比较 有 相同 数量 导线 穿 过 对 分 面 的 设计 来 关注 成 本 的 这 个 侧面 。 在 一 个 极 
端 ， 超 立方 体 有 N 条 这 样 的 链 路 。 让 我 们 假设 这 些 链 路 都 具有 单位 尺寸 。 一 个 2D 的 花环 只 
有 2V N 条 链 路 穿越 对 分 面 ， 所 以 每 条 链 路 的 宽度 可 以 是 超 立 方 体 所 用 链 路 宽度 的 V N2 倍 。 
在 对 分 面相 等 的 标准 下 ， 具 有 位 串 行 链 路 的 1 024 节点 的 超 立 方 体 应 该 是 和 使 用 32 位 宽 链 路 
的 相同 节点 规模 的 花环 相 比 较 。 一 般 来 说 ， 与 N 个 节点 的 超 立 方 体 具有 相同 对 分 面 宽 度 的 d 
维 网 格 的 链 路 宽度 是 wi =YN/2 = /2。 假 设 直通 路 由 ， 在 一 个 无 负载 网 络 上 一 个 n 字 节 的 数 
据 包 到 达 一 个 随机 目的 地 的 平均 时 延 是 


T (n, N, d) = 2 aa 与- 


-2 agl Ez] Boa iN -1\ 
= b+ dl 3 ) =z +A (A (10-7) 





所 以 ， 提 高 维 数 会 降低 路 由 延迟 但 增加 通道 时 间 ， 这 和 引 脚 数 相等 的 情况 一 样 。( 读 者 可 以 
验证 当 这 两 项 基本 上 相等 时 达到 最 小 的 时 延 。) 

图 10-15 显示 了 在 假定 A=2 情况 下 ， 长 度 为 40 字 节 的 消息 的 平均 时 延 ， 它 是 一 系列 不 
同 规模 的 机 器 的 维 数 的 函数 。 当 维 数 从 d = 2 开始 增加 时 ， 路 由 延迟 急剧 下 降 ， 而 通道 时 间 
随 着 链 路 变 细 持 续 上 升 。( 对 于 N = 1 M 个 节点 的 情况 没有 显示 d = 2 这 个 点 ， 因 为 它 是 很 可 
笑 的 ， 链 路 会 有 512 位 宽 ， 而 平均 级 跳 数 高 达 1 023.) 对 于 具有 几 千 个 以 内 节点 的 机 器 而 
言 ， YN/2 和 logN 非常 接近 ， 所 以 增加 通道 对 通道 宽度 的 影响 就 成 为 起 主导 作用 的 因素 。 
如 果 考 虑 大 尺寸 的 消息 ， 路 由 的 成 分 就 更 不 显著 。 对 于 大 机 器 来 说 ， 在 这 样 的 衔 量 规则 下 低 
维 网 格 就 变 得 不 实际 了 ， 因 为 链 路 将 变 得 非常 宽 。 

到 目前 为 至 ， 我 们 关心 的 是 连 线 所 占 的 横 截面 积 ， 但 是 还 没有 考虑 连 线 的 长 度 。 如 果 在 
一 个 平面 上 嵌入 GT, RL, ERM ERA d/2 个 维度 ， 并 使 节点 的 中 
心 距 不 变 的 话 ， 那 么 每 增加 一 个 维度 都 会 使 最 长 的 连 线 加 长 KE 倍 。 所 以 ，d -立方体 中 最 长 
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图 10-15 具有 相等 对 分 宽度 的 元 4 立方 体 的 无 负载 时 延 (n =40B, A=2)。 在 相等 对 分 
面 宽度 的 衡量 规则 下 ， 路 由 延迟 和 通道 时 间 之 间 的 平衡 使 低 维 的 网 络 更 为 优越 
的 连 线 的 长 度 是 二 维 立方 体 中 的 ji 一 倍 。 计 算 增 加 的 连 线 长 度 进一步 加 强 了 采用 较 低 维度 
的 论点 。 这 种 计算 可 以 以 三 种 方式 进行 。 如 果 我 们 假定 在 一 条 导线 上 多 个 位 形成 流水 ， 那 么 
长 度 增加 实际 上 提高 了 路 由 延迟 。 如 果 导 线 上 信息 不 是 以 流水 的 方式 传送 ， 那 么 网 络 的 周期 
时 间 随 导线 驱动 时 间 的 加 长 而 增加 ， 导 线 驱动 时 间 与 导线 的 长 度 成 对 数 关系 。 
将 4 维 网 络 嵌 入 较 低 物理 维度 产生 了 能 增强 低 维 效益 的 辅助 效应 。 如 果 把 一 个 高 维 网 
络 系 统 地 嵌入 到 一 个 平面 上 ， 连 线 的 密度 在 靠近 对 分 面 处 最 高 ， 在 靠近 周边 处 最 低 。 一 个 二 
维 的 网 格 各 处 的 连 线 密度 均匀 ， 所 以 它 更 好 地 利用 了 它 所 占据 的 面积 。 
我 们 也 应 该 从 带宽 的 角度 来 观察 网 络 设计 中 的 折 中 。 在 相同 连 线 复杂 度 的 尺度 下 影响 延 
迟 的 关键 因素 是 低 维 网 络 通道 带宽 的 增加 。 如 果 大 多 数 的 流量 来 自 或 发 往 一 个 或 少数 节点 ， 
较 宽 的 通道 是 有 益 的 。 如 果 流 量 是 本 地 化 的 ， 因 而 每 个 节点 只 与 几 个 邻近 节点 通信 ， 只 有 几 
个 维度 被 利用 ， 较 高 的 链 路 带宽 仍然 起 主导 作用 。 如 果 很 多 节点 穿越 整个 机 器 进行 通信 ， 那 
么 我 们 需要 根据 观察 到 的 时 延 对 竞争 效应 建立 模型 ， 并 观察 网 络 在 哪里 饱和 。 
在 结束 对 无 负载 情况 下 时 延 的 折 中 措施 的 考察 之 前 ， 我 们 应 该 注意 到 这 种 评价 对 于 通过 
一 条 导线 和 穿 过 一 个 交换 机 的 相对 时 间 相 当 敏感 。 图 10-16 说 明 ， 如 果 每 个 交换 机 的 路 由 延 
IS 20 倍 于 导线 的 传输 延迟 ， 情 况 就 会 大 不 一 样 。 这 就 是 SGI Origin 为 什么 使 用 较 高 维度 网 络 
的 原因 。 


10.5.2 负载 情况 下 的 时 延 


为 了 分 析 负 载 情况 下 网 络 的 行为 ， 需 要 捕 提 拥塞 对 所 有 其 他 正在 流 过 网 络 的 通信 流量 的 
效应 。 这 些 效应 可 能 是 微妙 而 难以 觉察 的 。 让 我 们 回 到 交通 系统 的 比喻 ， 例 如 ， 当 你 下 一 次 
驶 入 有 交通 负载 的 高 速 公路 时 ， 请 注意 在 两 条 高 速 路 汇合 然后 又 分 开 的 地 方 ， 交 通 的 拥塞 要 
比 经 过 一 系列 斜 线 合并 进入 单条 高 速 路 时 更 糟糕 。 在 交汇 点 ， 司 机 之 间 的 交互 要 多 得 多 ， 当 
达到 某 种 交通 负荷 的 水 平时 ， 整 个 交通 就 停 下 来 了 。 网 络 的 行为 与 此 类 似 ， 但 它 的 交汇 点 要 
多 得 多 。 为 了 对 各 种 拓扑 结构 评价 这 种 效应 ， 必 须 确定 通信 模式 、 路 由 算法 、 流 控 策略 以 及 
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图 10-16 具有 相等 数量 的 引 脚 和 较 大 路 由 延迟 的 上 元 4 立方 体 的 无 负载 时 
XE (n=140 B,，A= 20)。 在 实践 中 我 们 常 发 现 ， 通过 交换 机 的 时 
间 比 通过 导线 的 时 间 大 得 多 ， 此 时 具有 较 高 度 的 交换 机 更 有 吸引 力 


交换 机 内 部 设计 的 许多 细节 。 我们 可 以 为 系统 开发 一 个 排队 模型 ， 或 者 针对 所 建议 的 那些 设 
计 建 立 仿真 器 。 和 计算 机 设计 的 其 他 大 多 数 方面 一 样 ， 其 技巧 在 于 ， 所 发 展 的 模型 应 足够 简 
单 ， 以 便 在 适当 的 设计 层次 上 提供 直观 的 信息 ,但 又 应 足够 精确 ， 以 便 在 改进 设计 的 过 程 中 
提供 有 用 的 指导 。 

对 于 使 用 维 序 的 直通 路 由 和 无 限 内 部 缓存 的 上 元 4d- 立 方 体 ， 我 们 使 用 Agarwal (1991) 
所 发 展 的 封闭 式 的 竞争 延迟 模型 ， 因 此 不 会 出 现 流 控 和 死 锁 的 问题 。 该 模型 的 预测 与 对 于 满 
是 相同 假设 的 网 络 仿真 的 结果 有 很 好 的 对 应 关系 。 这 个 模型 是 基于 Kruskal 和 Snir (1983) 早 
期 对 间接 (Banyan) 网 络 性 能 建 模 的 工作 。 省 略 推导 过 程 ， 其 主要 的 结果 是 能 为 天 元 直立 方 
体 上 大 小 为 ”的 消息 的 随机 通信 建立 时 延 模型 ， 这 里 通道 宽度 为 w， 负 载 水 平 对 应 于 聚合 通 
道 利用 率 为 p， 模 型 表示 为 : 


TOn,k,d,w,p)= + hy (A+ W(n,k,d,w,p)) 
这 里 





ha -1 
Wn, kydsw,p) = he Pe oes, -(1+4) (10-8) 


并 且 这 里 
-4 人 与] 
使 用 这 个 模型 ， 我 们 能 比较 各 种 尺寸 的 低 维 或 高 维 网 络 在 有 负载 情况 下 的 时 延 ， 这 正如 
我 们 对 无 负载 时 延 所 做 的 一 样 。 图 10- 17 显示 了 一 个 1 024 节点 的 32 元 二 维 立 方 体 和 一 个 
1 000 节 点 的 10 元 三 维 立 方 体 上 的 预测 的 时 延 ， 它 是 所 请 求 的 聚合 通道 利用 率 的 函数 ， 假 设 
通道 宽度 相等 ， 消 息 的 尺寸 较 小 ， 为 4、8、16 和 40 个 物理 单元 。 我 们 能 从 曲线 的 右 端 看 
到 ， 这 两 种 网 络 在 大 致 相同 的 通道 利用 率 处 饱和 ; 但 是 ， 人 饱和 点 随 消息 尺寸 而 快速 下 降 。 曲 
线 的 左 端 表 示 无 负载 时 延 。 在 相同 的 通道 时 间 条 件 下 ， 度 数 较 高 的 交换 机 有 着 较 低 的 基本 路 
由 延迟 ， 这 是 因为 跳 数 较 少 ， 通 道 宽度 相等 。 当 负载 增加 时 ， 这 种 区 别 变 得 不 那么 显著 了 。 


IO ZARARI 567 





请 注意 与 无 负载 时 延 相 比 ， 竞 争 延 迟 有 多 大 。 显 然 ， 为 了 给 用 户 程序 提供 低 时 延 的 通信 ， 重 
要 的 问题 是 机 器 的 设计 应 保证 网 络 不 会 轻易 地 进 和 饱和， 这 可 以 通过 提供 过 剩 的 网 络 带宽 或 
调节 处 理 器 的 负载 完成 。 

图 10-17 中 的 数据 提出 了 网 络 设 计 的 一 个 基本 的 折 中 问题 。 网 络 上 的 数据 包 应 该 被 设计 
成 多 大 ? 数据 清楚 地 说 明 网 络 对 小 数据 包 的 传送 效率 比 对 大 数据 包 要 高 。 但 是 ， 较 小 的 数据 
包 的 利用 率 较 差 . 这 是 因为 每 个 数据 包 都 要 包含 路 由 和 控制 信息 ， 对 相同 量 的 数据 传输 而 
言 ， 会 产生 更 多 的 网 络 接口 事件 。 对 于 任何 给 定 的 技术 和 详细 的 设计 ， 存 在 一 个 最 优点 。 
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图 10-17 路 由 延迟 为 2 的 32 元 二 维 立 方 体 和 10 元 三 维 立方 体 的 竞争 时 延 与 负 
载 的 比较 。 以 较 低 的 通道 利用 率 ， 较 高 维 的 网 络 在 通道 宽度 相同 情况 
下 的 时 延 低 得 多 ， 但 是 随 着 利用 率 的 上 升 ， 它 们 向 同一 饱和 点 收敛 


我 们 在 根据 图 10-17 得 出 关于 网 络 维 数 的 选择 的 结论 时 必须 小 心 。 图 中 的 曲线 显示 了 各 
种 网 络 利用 它 可 用 的 通道 集合 的 效率 。 该 图 的 结论 似乎 是 两 者 以 大 致 相同 的 效率 使 用 它们 的 
通道 。 但 是 ， 较 高 维 的 网 络 的 每 个 节点 可 用 的 带宽 要 大 得 多 ; 其 每 个 节点 拥有 的 通道 为 较 低 
维 网 络 节点 的 1.5 倍 ， 而 每 个 消息 使 用 较 少 的 通道 。 在 一 个 元 4 立方 体 中 ， 随 机 通信 情况 
下 每 个 周期 可 用 的 物理 单元 (phit) 数 是 
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或 者 每 周期 每 节点 (Ck - 1) 个 物理 单元 (GAW 20/k - 1 位 )。 假 定 通道 带宽 相等 ， 我 们 
的 例子 中 的 三 维 立方 体 有 4 倍 之 多 的 可 用 带宽 ， 而 通道 利用 率 相 同 。 所 以 ， 正 如 图 10-18 所 
示 ， 如 果 我 们 观察 与 可 提供 带宽 相对 照 的 时 延 ， 情 景 就 会 大 不 一 样 。 二 维 立 方 体 从 一 个 较 高 
的 基础 时 延 开始 ， 在 三 维 立 方 体感 觉 到 负载 之 前 就 饱和 了 。 


350 Fr-~---~-T--------------1----- 


~ 各 一 n8, d3, k10 
whem n8, d2, k32 


250 }-----}-----~--~-~~-~-P--_-- 


300 





wt 


0 0.05 0.1 0.15 0.2 0.25 
AED Ab BESS FS SOO Bp Be PB 


图 10-18 竞争 情况 下 时 延 与 每 周期 物理 单元 数 的 对 照 。 在 每 通道 具有 相等 的 平均 流量 条 件 下 ， 比 较 路 由 延迟 
为 2 的 32 元 二 维 立方 体 和 10 元 三 维 立 方 体 ， 结果 显示 较 高 维 数 的 网 络 在 饱和 之 前 能 处 理 较 大 的 负载 


这 一 比较 使 我 们 回 到 什么 是 合适 的 相等 成 本 比较 的 问题 。 作 为 一 个 习题 ， 你 可 以 研究 这 
些 曲 线 做 出 相等 引出 管 脚 和 相等 对 分 面 的 比较 。 加 宽 通道 降低 了 通道 时 间 从 而 使 基础 时 延 下 
移 ， 提 高 了 总 体 可 用 带宽 ， 因 为 对 每 个 数据 包 服 务 得 更 快 而 降低 了 在 各 交换 机 处 的 等 待 时 
间 。 所 以 ， 结 果 对 于 成 本 模型 是 相当 敏感 的 。 


节点 的 容量 是 


2 


C(N,d) = Wy ~ 


=} 

随机 业务 量 的 聚合 容量 本 质 上 与 维 数 无 关 ! 各 个 主机 在 每 个 网 络 周 期 内 平均 产生 不 到 | 位 。 
这 一 观察 产生 了 低 维 网 络 的 新 的 前 景 。 一 般 来 说 ， 几 个 节点 中 的 每 一 个 都 必须 沿 一 个 方向 将 
消息 引导 相当 长 的 距离 。 所 以 ， 各 个 节点 必然 不 是 频繁 地 送出 数据 包 。 在 固定 对 分 宽度 的 假 
设 下 ， 低 维 情况 下 的 通道 成 为 几 个 节点 共享 的 资源 ， 而 高 维 网 络 为 各 个 不 同 的 维 的 流量 划分 
带宽 资源 。 在 低 维 情况 下 ， 当 一 个 节点 使 用 一 个 通道 时 ， 它 只 在 较 短 的 时 间 内 使 用 它 。 在 大 
多 数 系统 中 ， 轮 询 比 划分 能 产生 更 好 的 利用 率 。 

在 现代 的 机 器 中 ， 节 点 占据 的 面积 比 连 线 的 前 面 所 占 的 面积 大 得 多 ， 而 机 器 的 规模 通常 
限制 在 几 千 个 节点 之 内 。 在 这 样 的 体制 下 ， 机 器 的 对 分 面 通常 由 电缆 集束 构成 。 这 是 个 工程 
上 的 挑战 性 问题 ， 但 并 不 是 对 机 器 设计 的 根本 性 的 限制 。 正 如 表 10-1 所 说 明 的 那样 ， 一 个 
趋势 是 在 具有 较 短 连 线 的 拓扑 结构 中 使 用 更 宽 的 链 路 和 更 快 的 信号 ， 但 是 其 效果 并 不 像 相等 
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对 分 面 扩展 规则 所 建议 的 那么 显著 。 
10.6 路 由 


让 我 们 回忆 一 下 ， 网 络 的 路 由 算法 决定 了 使 用 源 到 目的 地 所 有 可 能 的 路 径 中 哪 一 条 作为 
路 由 ， 也 决定 了 各 个 特定 数据 包 如 何 遵循 该 路 由 。 比 如 ， 我 们 已 经 了 解 到 在 一 个 元 4d- 立 
方 体 中 ,一 组 最 短 的 路 由 完全 是 由 源 和 目的 地 的 相对 地 址 所 描述 的 ， 它 说 明了 在 各 个 维度 上 
需要 穿越 的 链 路 的 数量 。 维 序 的 路 由 限制 了 合法 路 径 的 集合 ， 从 而 从 每 个 源 节点 到 每 个 目的 
节点 只 有 一 条 路 径 ， 即 首先 沿 低 序 维 行 进 适 当 的 距离 ， 然 后 青 沿 下 一 个 维 行进 ， 依 次 类 推 。 
本 节 将 描述 在 现代 机 器 中 使 用 的 不 同 级 别 的 路 由 算法 以 及 好 的 路 由 算法 的 关键 性 质 ， 例 如 生 
成 一 组 免 死 锁 的 路 由 ， 维 持 低 时 延 ， 均 匀 分 布 负 载 和 容错 等 。 


10.6.1 路 由 机 制 


让 我 们 从 基本 概念 谈 起 。 回 忆 一 下 交换 机 的 基本 操作 是 监视 在 其 输入 到 达 的 数据 包 ， 对 
每 个 输入 数据 包 ， 选择 一 个 将 其 送出 的 输出 端口 。 所 以 ， 路 由 算法 是 函数 R: N x NC, 
它 在 各 个 节点 将 目的 节点 n 映射 到 路 由 上 的 下 一 个 通道 。 高 速 交换 机 基本 上 使 用 三 种 机 制 
从 数据 包头 的 信息 来 决定 输出 通道 : 算术 运算 的 、 基 于 源 的 端口 选择 和 查 表 。 在 并 行 计算 机 
的 网 络 中 ， 交 换 机 应 该 能 在 几 个 周期 内 对 它 的 所 有 的 输入 做 出 路 由 的 决定 ， 所 以 这 种 机 制 应 
该 是 简单 快速 的 。 

对 于 大 多 数 规 则 的 拓扑 结构 而 言 ， 简 单 运算 操作 足以 选择 输出 端口 。 例 如 ， 在 2D 网 格 
中 ， 可 以 由 每 个 数据 包 在 其 数据 包头 内 携带 以 带 符号 数 表达 的 在 各 个 维 内 传送 的 距离 
[LAx ，Ay]。 在 交换 机 六 中 的 路 由 操作 由 下 列表 示 给 出 : 


方向 条 件 
西 (-x) Ax <0 
东 (+x) Ax >0 
PA (- y) Ax =0, Ay <0 
Ab (+ y) Ax=0, Ay>0 
本 处 理 器 Ax=0, Ay=0 


为 了 完成 这 类 路 由 ， 交 换 机 需要 测试 数据 包头 中 的 地 址 并 对 一 个 路 由 域 减 1 或 加 1。 网 
格 中 决定 路 由 的 典型 做 法 是 先 沿 Ax 方向 运动 ， 然 后 再 沿 Ay 方向 运动 。 更 为 一 般 的 情况 是 ， 
如 在 天 元 公立 方 体 中 ， 通 过 从 最 低 编号 到 最 高 编号 的 各 个 维 依次 运动 决定 路 由 ， 这 叫 维 序 
路 由 。 对 于 一 个 二 元 立方 体 来 说 ， 交 换 机 计算 出 目的 地 和 本 地 节点 地 址 第 一 个 有 区 别 的 位 的 
位 置 (如 果 数 据 包 携 带 目的 地 相对 地 址 ， 则 是 第 一 个 非 零 位 )， 然 后 穿 过 对 应 维 的 链 路 ， 这 
叫 e- 立 方 体 路 由 。 在 并 行 机 中 ，Intel 和 nCUBE 的 超 立 方 体 、Paragon 机 、 加 州 理 工大 学 的 花 
环 路 由 芯片 (Seitz and Su 1993) 和 J-machine 都 使 用 这 种 机 制 。 

一 种 更 为 通用 的 方法 是 基于 源 的 路 由 ， 在 这 种 方法 中 ， 源 节点 建立 起 一 个 数据 包 的 头 ， 
其 中 包含 了 沿路 由 各 个 交换 机 输出 端口 号 已 ，P ，…，P_1。 各 个 交换 机 只 需 简单 地 从 消 
息 头 中 分 离 端 口号 ， 然 后 把 消息 从 所 指定 的 通道 送出 。 这 种 方法 允许 使 用 非常 简单 的 交换 
机 ， 只 有 很 少 的 控制 状态 ， 其 至 不 需要 支持 任意 拓扑 结构 复杂 的 路 由 功能 的 运算 部 件 。 所 有 
的 智能 都 存在 于 主机 节点 之 中 。 它 的 缺点 是 数据 包头 可 能 会 较 大 ， 而 且 尺 寸 不 固定 。 如 果 人 多 
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许 交 换 机 的 度 为 4， 路 由 长 度 为 hh， 就 需要 数据 包头 携带 hlogd 个 路 由 位 。MIT 的 Pare 和 
Arctic 路 由 器 、Meiko 的 CS-2 和 Myrinet 使 用 这 个 方法 。 

第 三 种 方法 是 一 种 通用 的 方法 ， 允 许 使 用 小 生长 度 固定 的 数据 包头 。 它 采用 表 驱 动 路 
由 ， 每 个 交换 机 包含 一 个 路 由 表 R， 而 数据 包头 包括 一 个 路 由 域 ;， 用 路 由 域 作为 索引 查 表 
来 决定 输出 端口 ， 即 。= 尺 【 门 。 例 如 ，HPPI 和 ATM 交换 机 中 使 用 该 方法 。 一 般 来 说 ， 表 
项 也 给 出 了 党 路 径 下 一 跳 的 路 由 域 一 一 o,， =R {i]， 这 允许 构造 表 的 更 大 的 灵活 性 。 该 
方法 的 缺点 是 交换 机 必须 包含 相当 大 数量 的 路 由 状态 ， 而 且 需 要 用 额外 的 专门 用 于 交换 机 的 
消息 或 其 他 的 机 制 来 建立 路 由 表 的 内 容 。 模 拟 简单 的 路 由 算法 就 需要 相当 大 的 路 由 表 。 这 种 
方法 更 适合 于 LAN 和 WAN， 因 为 同时 只 使 用 节点 集合 间 少 量 的 可 能 路 由 ， 大 多 数 路 由 是 长 
时 间 持 续 的 连接 。 与 此 相对 比 ， 在 并 行 计算 机 中 ， 通 信和 通常 涉及 所 有 的 节点 。 

传统 的 网 络 路 由 器 包括 一 个 全 功能 的 处 理 器 , 它 能 检查 进入 的 消息 ， 执 行 任意 的 计算 来 
选择 输出 端口 ， 并 且 为 该 输出 端口 建立 包含 了 消息 数据 的 数据 包 。 这 一 类 的 方案 通常 在 连接 
完全 不 同 的 网 络 的 路 由 器 (例如 在 以 太 网 、FpDI、ATM 网 之 间 提 供 路 由 的 路 由 器 ) 或 至 少 
是 在 连接 不 同 的 数据 链 路 层 之 间 的 桥接 器 中 使 用 ;从 通信 的 时 间 尺 度 上 看 ， 在 高 性 能 并 行 机 
中 采用 这 类 方案 是 没有 什么 意义 的 。 


10.6.2 确定 性 路 由 


如 果 消 息 所 取 的 路 由 完全 是 由 它 的 源 和 目的 地 决定 的 而 与 网 络 中 其 他 的 流量 无 关 ， 这 种 
路 由 算法 叫做 确定 ( 非 自 适应 ) 性 算法 。 例 如 ， 维 序 路 由 是 确定 性 的 ， 数 据 包 不 管 其 路 径 的 
链 路 是 否 阻塞 都 要 沿 该 路 径 走 下 去 。 维 序 和 e- 立 方 体 路 由 是 确定 性 路 由 算法 的 例子 。 自 适 
应 路 由 算法 允许 路 径 上 的 其 他 流量 影响 数据 包 的 路 由 。 例 如 ， 在 网 格 中 ， 如 果 沿 维 序 路 径 的 
链 路 阻塞 或 出 错 ， 数 据 包 会 沿 锯齿 形 的 路 由 流向 其 目的 地 。 在 胖 树 中 ， 朝 向 公共 祖先 的 向 上 
路 径 可 以 避 开 阻塞 的 链 路 ， 而 不 是 一 定 要 遵循 那 条 在 将 消息 送 入 网 络 时 决定 的 特定 路 径 。 如 
果 路 由 算法 仅 选 择 通 向 目的 地 的 最 短路 径 ， 它 就 是 最 小 化 的 (minimal) ， 否 则 它 就 是 非 最 小 
化 的 (nonminimal)。 显 然 ， 自 适应 (以 及 容错 ) 要 求 源 和 目的 地 之 间 有 多 条 路 由 ， 这 同时 也 
提供 了 在 多 条 链 路 上 分 散 负载 的 机 会 。 这 些 优点 也 可 以 为 基于 源 和 表 驱 动 的 路 由 所 利用 ， 但 
路 径 的 选择 必须 在 数据 包 注入 网 络 时 做 出 。 自 适应 路 由 将 路 径 的 选择 推迟 ， 直 到 数据 包 真正 
在 网 络 中 流动 时 才 选 择 ， 这 显然 会 使 交换 机 更 为 复杂 ， 但 它 可 能 获得 更 好 的 链 路 利用 率 。 

在 研究 自 适应 路 由 之 前 ， 我 们 将 首先 集中 精力 研究 确定 性 算法 ， 理 解 几 种 最 流行 的 提供 
路 由 的 算法 以 及 证 明 它 们 免 死 锁 的 技术 。 


10.6.3 RIE 


在 我 们 关于 网 络 时 延 和 带宽 的 讨论 中 ， 我 们 已 经 隐 含 地 假设 消息 向 前 运动 ， 这 样 谈论 性 
能 才 是 有 意义 的 。 本 节 将 说 明 如 何 证 明 一 个 网 络 是 免 死 锁 的 。 让 我 们 回忆 一 下 ， 死 锁 是 在 一 
个 数据 包 等 待 一 个 不 能 发 生 的 事件 时 发 生 ; 例如 ， 当 消息 系统 的 队列 都 是 满 的 而 且 都 在 等 待 
其 他 系统 让 出 可 用 的 资源 时 ， 任 和 何 消息 都 不 能 向 其 目的 地 前 进 。 这 种 情况 应 与 无 限 推迟 
(indefinite postponement) 相 区 别 ， 后 者 是 在 数据 包 等 待 一 个 能 发 生 但 从 不 发 生 的 事件 时 产生 
的 ， 也 应 与 活 锁 (livelock) 相 区 别 ， 活 锁 是 在 数据 包 的 路 由 不 再 指向 其 目的 地 时 发 后 的 。 无 
限 推迟 主要 与 公平 性 问题 有 关 ， 而 活 锁 只 会 在 自 适应 非 最 小 化 路 由 的 情况 才 会 发 生 。 避 免 死 
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锁 是 良好 设计 的 网 络 的 基本 性 质 ， 它 必须 从 设计 的 最 初 就 予以 注意 。 

死 锁 能 发 生 于 各 种 不 同 的 场合 。 当 两 个 节点 试图 向 对 方 发 送 ， 而 且 每 个 节点 在 对 方 能 接收 
之 前 就 开始 了 发 送 的 话 ， 就 发 生 了 “碰头 ” 死 锁 。 显 然 ， 如 果 它 们 两 者 都 试图 在 转 和 人 接收 之 前 
结束 发 送 ， 没 有 人 能 向 前 进 。 在 使 用 同步 发 送 接收 的 用 户 消息 处 理 层 以 及 在 节点 到 网 络 的 接口 
层 ， 我 们 都 能 看 到 这 种 情况 。 在 网 络 内 部 ， 在 半 双 工 通道 的 场合 ， 或 者 当 交 换 机 控制 器 没有 能 
力 在 双 工 的 通道 上 同时 发 送 和 接收 时 ， 也 会 发 生 这 种 死 锁 。 必 须 把 通道 考虑 为 逐步 获得 的 共享 
的 资源 ， 首 先 在 发 送 端 ， 然 后 在 接收 端 。 在 任 一 种 情况 下 ， 都 应 该 保证 当 节 点 不 再 能 发 送 时 仍 
能 继续 接收 。 一 个 可 靠 的 网 络 只 有 当 其 节点 即使 无 法 送出 数据 包 仍 能 从 网 络 移 去 数据 包 ， 才 是 
免 死 锁 的 。( 另 一 方面 ， 死 锁 的 解除 也 可 以 通过 最 终 检测 到 超时 ， 从 而 去 除 一 个 或 多 个 数据 包 ， 
通过 有 效 地 抢占 共享 资源 的 方法 来 实现 。 但 这 的 确 会 带 来 无 限 推迟 的 可 能 性 ， 我 们 将 在 以 后 讨 
Ro) 这 种 碰头 的 场合 并 不 涉及 路 由 ， 问 题 是 由 交换 机 设计 导致 的 限制 所 产生 的 。 791 

一 种 更 有 趣 的 死 锁 情况 发 生 于 多 个 消息 竞争 网 络 内 的 资源 的 场合 ， 如 图 10-19 所 示 的 路 
由 死 锁 。 这 里 ， 有 几 个 消息 正在 通过 网 络 ， 每 个 消息 包含 几 个 流 控 单 元 Ait) RIZA 
为 网 络 中 每 个 通道 都 与 一 定量 的 缓冲 相 结合 ， 它 们 可 以 是 在 通道 目的 地 的 输入 缓冲 ， 或 在 通 
道 源 的 输出 缓冲 ， 或 者 两 处 此 有 。 在 我 们 的 例子 中 ， 每 个 消息 都 试图 左 转 ， 而 与 4 条 通道 相 
联系 的 所 有 数据 包 缓冲 都 已 经 满 了 。 在 获得 一 个 能 够 进入 的 新 的 数据 包 缓冲 之 前 没有 一 个 消 
息 会 释放 任何 数据 包 缓冲 。 我 们 可 以 将 交换 机 分 割 成 额外 的 交换 机 和 通道 来 细 化 这 个 例子 ， 
但 显然 网 络 中 的 通道 资源 是 逐步 分 配 的 ， 这 是 因 消息 流 过 而 分 布 式 地 进行 的 ， 资 源 是 非 抢 占 
式 的， 至 少 没有 数据 包 丢 失 ; 因此 ， 总 是 可 能 会 产生 死 锁 。 





图 10-19 网 络 路 由 死 锁 的 例子 。4 个 交换 机 每 个 都 有 4 个 输入 端口 和 4 个 输出 端口 。4 个 数据 包 每 -个 
都 获得 了 一 个 输入 端口 、 一 个 输出 缓冲 和 一 个 输出 端口 6 ， 当 这 些 数据 包 左 转 容 时 都 试图 获 
得 下 一 个 输出 缓冲 。 数 据 包 在 它们 能 向 前 移动 之 前 都 不 会 释放 它们 的 缓冲 ， 因 此 谁 也 无 法 前 进 


路 由 死 锁 可 能 发 生 于 存储 -转发 或 直通 路 由 的 情况 ， 虽 然 对 于 直通 来 说 ， 死 锁 的 机 会 更 
大 ， 因 为 每 个 数据 包 都 会 跨 几 个 流 控 单 元 缓冲 。 只 有 数据 包 的 头 流 控 单 元 携带 路 由 信息 ， 因 


O 原 书 为 input por， 有 误 。 一 一 译 者 注 
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此 一 旦 消息 的 头 单元 进入 通道 ， 该 消息 所 有 剩余 的 流 控 单 元 必须 走 同一 通道 。 所 以 ， 单 个 数 
据 包 就 可 能 占据 跨 几 个 交换 机 的 通道 资源 。 这 些 例 子 的 基本 点 是 资源 逻辑 上 与 通道 相关 ， 消 
息 在 通过 网 络 时 引入 了 通道 资源 间 的 依赖 关系 。 

证 明 一 个 网 络 是 无 阻塞 的 基本 技术 是 要 搞 清 楚 当 消息 通过 网 络 时 通道 之 间 的 依赖 关系 ， 
并 且说 明 所 产生 的 通道 依赖 图 中 没有 闭合 回路 ; 这 意味 着 通信 模式 不 会 产生 死 锁 。 完 成 该 任 
务 的 最 常用 的 办 法 是 对 通道 资源 编号 ， 使 每 一 条 合法 的 路 径 都 遵循 单调 升 (或 减 ) 的 顺序 ， 
因此 ， 这 不 会 产生 依赖 关系 的 闭合 回路 。 对 于 蝶 网 ， 这 很 简单 ， 因 为 网 络 本 身 是 无 回路 的 。 
对 于 树 和 胖 树 ， 只 要 向 .上 和 向 下 的 通道 是 独立 无 关 的 ， 做 到 这 一 点 也 是 很 简单 的 。 对 于 通道 
图 中 具有 回路 的 人 网络 来 说 ， 情 况 就 比较 微妙 。 

为 了 说 明显 示 路 由 算法 免 死 锁 的 基本 技术 ， 让 我 们 说 明 在 -元 二 维 阵列 上 的 Ax, Ay 路 
由 是 免 死 锁 的 。 为 证 明 这 一 点 ， 我 们 可 以 把 每 个 双向 通道 都 看 作 是 一 对 独立 编导 的 单 向 通道 。 
将 每 个 x 正 向 通道 <;，y > 一 <i+1，y > 编号 为 ;， 类 似 地 ,将 x 反 向 通道 自 x 方向 编号 最 
大 的 正 边沿 从 0 开始 简单 地 编号 。 将 y 正 向 通道 <x，j >-><x，j+1> 编号 为 N+j， 而 将 y 
反 向 通道 自 y 的 编号 最 大 的 正 边沿 从 N 起 9。 简单 地 编号 。 图 10-20 说 明了 这 种 编号 方案 。 任 
何 包含 了 一 系列 x 方向 的 连续 边 ， 转 弯 % 度 ， 又 包含 了 y 方向 一 系列 连续 边 的 路 径 是 严格 递 
增 的 。 通 道 依赖 图 中 对 网 络 中 每 条 单 向 链 路 有 一 个 节点 ， 如 果 一 个 数据 包 能 够 通过 通道 4 然 
后 通道 8 的 话 ， 从 节点 4 到 节点 B 存在 一 条 边 。 通 道 依赖 图 中 所 有 的 边 都 从 低 编号 节点 指向 
较 高 编号 的 节点 ,这样 在 通道 依赖 图 中 就 没有 闭合 回路 (尽管 在 网 络 中 有 很 多 回路 )。 

通道 依赖 图 


通道 编号 的 单 向 4 元 二 维 阵列 
1 2 3 





图 10-20 ”网 络 图 中 的 通道 编号 和 对 应 的 通道 依赖 图 。 为 了 说 明 路 
由 算法 是 免 死 锁 的 ， 只 要 证 明 通道 依赖 图 中 不 存在 回路 


这 个 证 明 可 以 很 容易 地 推广 到 任意 维 的 情况 ， 因 为 二 进 制 的 4- 立 方 体 的 每 个 维 包含 一 
对 单 向 通道 ， 可 以 说 明 e- 立 方 体 路 由 对 超 立 方 体 来 说 是 免 死 锁 的 。 但是， 在 一 般 情况 下 ， 
该 证 明 对 有 元 二 立方 体 并 不 适用 ， 因 为 通道 编号 在 头 尾 卷 回 边 处 会 递减 。 确 实 ， 不 难说 明 





O 原文 无 写 从 六 起 。 一 -一 译 者 注 
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对 于 >4， 维 序 路 由 在 单 向 花环 (d=1) 上 会 产生 依赖 回路 。 

注意 ， 即 使 每 条 通道 只 有 单个 流 控 单 元 缓冲 ， 免 死 锁 路 由 的 证 明 也 能 适用 。 还 要 注意 对 
于 采用 存储 转发 路 由 的 元 4- 立 方 体 来 说 ， 即 使 有 多 个 数据 包 缓 冲 ， 仍 然 存 在 潜在 的 死 锁 ， 
因为 一 个 消息 可 能 占 满 沿 其 路 径 的 所 有 数据 包 缓 冲 。 但 是 ， 如 果 对 通道 的 使 用 加 以 限制 的 
话 ， 就 可 能 打破 死 锁 。 例 如 ， 考 虑 每 通道 有 多 个 数据 包 缓冲 ， 采 用 存储 转发 路 由 的 单 向 花环 
的 情况 。 假 定 与 每 个 通道 相 联系 的 一 个 数据 包 缓 冲 给 那些 其 目的 节点 的 编号 大 于 其 源 的 编号 
的 消息 而 保留 ， 也 就 是 说 ， 为 那些 不 使 用 卷 回 通道 的 数据 包 而 保留 ， 这 意味 着 那些 向 正方 向 
运动 的 消息 总 是 可 能 前 进 。 虽 然 养 回 的 消息 会 被 推迟 ， 网 络 不 会 死 锁 。 这 是 使 存储 转发 包 交 
换 网 络 免 死 锁 的 一 组 技术 中 的 典型 解决 办 法 。 有 一 个 概念 叫做 结构 化 的 缓冲 池 (在 其 中 , 某 
些 缓冲 有 特定 功能 )， 路 由 算法 限制 缓冲 对 于 数据 包 的 分 配 来 打 断 死 锁 回路 。 这 个 解决 方案 
对 于 忠和 孔 路 由 来 说 是 不 充分 的 ， 因 为 它 默认 不 同 消息 中 的 数据 包 在 向 前 运动 时 能 被 重 善 。 

请 注意 ， 免 死 锁 路 由 并 不 意味 着 系统 是 免 死 锁 的 。 只 要 流量 能 流 人 网 络 接口 卡 ， 即 使 网 
络 接 口 卡 无 法 发 送 ， 网 络 也 是 免 死 锁 的 。 如 果 使 用 两 阶段 协议 ， 我 们 需要 保证 避免 取 操 作 的 
死 锁 。 这 意味 着 或 者 提供 两 个 逻辑 上 独立 的 网 络 ， 或 者 保证 像 第 7 章 中 所 讨论 的 那样 ， 两 个 
阶段 不 通过 网 络 接口 卡 发 生 耦 合 。 当 然 ， 程 序 仍 然 可 能 死 锁 ， 如 对 锁 的 循环 等 待 或 者 使 用 同 
步 消息 传递 导致 的 碰头 冲突 。 我 们 已 经 从 顶层 向 下 研究 ， 说 明了 如 何 使 得 这 些 层 次 在 下 一 个 
较 低层 是 免 死 锁 的 时 候 免 死 锁 。 

给 定 一 个 网 络 拓扑 和 每 个 通道 的 一 组 资源 ， 有 两 种 办 法 构造 免 死 锁 的 路 由 算法 ， 限制 数 
据 包 能 走 的 路 径 或 者 限制 资源 的 分 配 。 这 一 观察 产生 了 许多 有 意思 的 问题 。 对 于 采用 虫 孔 路 
由 的 任意 拓扑 结构 是 否 存在 一 种 生成 免 死 锁 路 径 的 通用 的 技术 ? 这 种 路 由 可 以 是 自 适应 的 
B? 是 否 至 少 需要 一 定量 的 通道 资源 ? 
10.6.4 虚 通 道 

使 采用 虫 孔 路 由 的 网 络 免 死 锁 的 基本 技术 是 对 每 个 物理 通道 提供 多 个 缓冲 并 将 这 些 缓冲 
分 割 成 一 组 虚 通 道 。 回 到 我 们 的 网 络 基本 成 本 模型 ， 这 样 做 并 不 增加 网 络 中 链 路 的 数量 ， 也 


不 增加 交换 机 的 数量 。 事 实 上 ， 它 其 至 并 不 增加 每 个 交换 机 内 部 的 交叉 开关 阵列 的 尺寸 ， 因 
为 同时 只 会 有 一 个 流 控 单 元 通过 交换 机 到 达 各 输出 通道 。 如 图 10-21 所 示 ， 它 的 确 需要 在 交 








图 10-21 基本 交换 机 中 的 多 虚 通道 。 每 个 物理 的 通道 由 多 个 虚 通 道 共享 。 交 换 机 的 输入 端口 将 进入 的 虚 
通道 分 离 成 独立 的 缓冲 。 但 是 ， 这 些 缓冲 以 多 路 复 用 方式 通过 交换 机 以 避免 扩张 交叉 开关 阵列 
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换 机 内 部 增加 选择 器 和 多 路 器 以 便 允 许 每 个 物理 通道 的 多 个 虚 通 道 之 间 共 享 链 路 和 交叉 开关 。 

我 们 可 以 通过 使 用 虚 通 道 ， 系 统 地 切断 通道 依赖 图 中 的 回路 来 避免 死 锁 。 例 如 ， 考 虑 图 
10-19 中 的 4 路 路 由 死 锁 回 路 ， 假 定 每 个 物理 通道 有 两 个 虚 通道 ， 如 果 节 点 编号 比 消息 的 目 
的 节点 编号 大 ， 消 息 被 送 到 高 通道 ， 如 果 节 点 编号 比 消息 的 目的 节点 编号 小 ， 消 息 被 送 到 低 
通道 。 如 图 10-22 所 说 明 的 那样 ， 依 赖 回路 被 打 断 。 将 此 方法 用 于 元 4- 立方 体 ， 可 以 认为 
通道 的 编号 是 以 d + 1 + 上 为 基 的 数 ， 形 式 为 ww， 这 里 i 是 维度 ，x 是 通道 在 i 维 中 的 源 节 
点 的 坐标 ， 而 "是 虚 通道 号 。 在 每 个 维度 上 ， 如 果 目 的 节点 坐标 值 比 源 节 点 的 坐标 值 小 〈 即 
如 果 消 息 必 须 使 用 卷 回 边 的 话 ) ， 就 在 那个 维 中 使 用 "= 1 虚 通道 。 否 则 ， 使 用 v = 0 通道 。 
你 可 以 验证 使 用 这 种 虚 通道 的 分 配方 法 ， 维 序 路 由 是 免 死 锁 的 。 对 其 他 流行 的 拓扑 可 以 使 用 
类 似 的 技术 (Dally and Seitz 1987)。 注 意 ， 有 了 虚 通 道 ， 我 们 应 该 把 路 由 算法 看 作 函 数 
R: Cx N>C， 估 为 输出 选择 的 虚 通 道 也 依赖 于 输入 的 通道 。 


数据 包 从 1o 
通道 切换 到 
到 hi 通道 





图 10-22 ”用 虚 通道 断 开 死 锁 回路 。 每 个 物理 通道 被 分 成 两 个 虚 通道 ， 称 它们 为 lo A his 一 般 都 使 用 与 
输入 端口 对 应 的 虚 通 道 作 为 输出 ,但 向 北向 西 的 折 转 是 个 例外 ， 它 导致 从 lo F hi 的 虚 通道 切换 


10.6.5 上 行 ” -下 行路 由 


在 任意 拓扑 结构 上 的 免 死 锁 虫 孔 路 由 是 否 需要 虚 通 道 ? 答案 是 否定 的 。 如 果 我 们 假设 所 
有 的 通道 都 是 双向 的 ， 则 存在 一 个 为 任意 拓扑 推导 出 免 死 锁 路 由 的 简单 算法 。 不 足 为 怪 ， 该 
算法 限制 合法 路 由 的 集合 。 这 种 通用 的 策略 与 树 中 的 路 由 类 似 ， 路 径 离开 源 治 树 上 行 ， 然 后 
下 行 到 达 目 的 地 。 我 们 假定 网 络 由 一 组 交换 机 组 成 ， 其 中 某 些 交换 机 上 面 连接 有 -一 台 或 多 台 
主机 。 给 定 网 络 图 ， 我 们 希望 对 交换 机 编导 ， 使 得 当 我 们 远离 主机 时 编号 增 大 。- 一 -种 办 法 是 
构造 一 个 图 的 生成 树 ， 以 主机 为 叶子 ， 编 号 朝向 根 而 增 大 。 显 然 ， 对 任意 的 源 主机 ， 可 以 通 
过 一 条 上 行 ”- 下 行 * 的 路 径 到 达 任 意 的 目的 地 ， 该 路 径 包 含 零 个 或 多 个 上 行 的 通道 序列 
(朝向 较 高 编号 的 节点 )、 一 个 折返 和 和 零 个 或 多 个 下 行 的 通道 。 此 外 ， 遵 循 这 样 的 路 径 的 路 由 
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是 免 死 锁 的 。 网 络 图 可 能 有 回路 ， 但 在 上 行 ” -下行 “路 由 规则 下 的 通道 依赖 图 则 没有 回路 。 
上 行 通道 构成 一 个 有 向 无 回路 图 (DAG), ， 下 行 通道 构成 另 一 个 DAG。 上 行 通道 只 与 较 低 编 
号 的 上 行 通道 有 关 ， 而 下 行 通道 也 仅 依 赖 于 上 行 通道 和 较 高 编号 的 下 行 通道 。 

这 种 风格 的 路 由 曾 为 Autonet 开发 (Anderson et al. 1992) ， 甚 目的 主要 是 自 配 置 。 每 个 交 
换 机 都 包含 一 个 处 理 器 ， 该 处 理 器 可 以 运行 分 布 算法 来 决定 竟 络 的 拓扑 ， 发 现 - 梨 估 的 生 
成 树 。 每 个 主机 按 受 限 最 短路 径 问 题 计算 上 行 * -下 行 * 路 径 。 然 后 建立 交换 机 中 的 路 由 表 。 
Atomic (Felderman et al. 1994) 和 Myrinet (Boden et al. 1995) 使 用 一 种 与 广度 优先 搜索 类 似 
的 算法 ， 其 交换 机 是 被 动 的 ， 由 主机 通过 探 察 网 络 决定 拓扑 。 每 个 主机 运行 一 个 算法 ， 该 算 
AR, TIENER o, 在 各 层 的 交换 机 对 应 于 它 距离 一 台 主 机 的 最 大 距离 。 从 

高 编号 的 交换 机 开始 的 广度 优先 的 搜索 给 出 这 种 编号 ， 该 算法 决定 了 从 主机 到 其 他 节点 的 
此 于 源 的 路 由 的 集合 。 网 络 自动 映射 的 一 个 重要 挑战 性 问题 是 ， 决 定 什么 时 候 两 条 通过 网 络 
的 不 同 路 由 通 向 同一 个 交换 机 (Mainwaring et 中 .1997)， 特 别 是 在 使 用 只 传送 消息 而 不 做 任 
何 特殊 处 理 的 简单 交换 机 时 更 是 如 此 。 一 个 解决 方法 是 通过 从 以 前 已 知 的 交换 机 反 向 路 由 ， 
试图 回 到 源 ; 男 一 种 办 法 是 检测 从 两 个 假设 不 同 的 交换 机 到 同一 主机 是 否 存在 相同 的 路 径 。 


10.6.6 折 转 模型 路 由 


我 们 已 经 看 到 可 以 通过 限制 网 络 内 路 由 集合 或 对 每 个 通道 提供 结构 化 模式 的 缓冲 来 构造 
免 死 锁 的 路 由 算法 。 我 们 应 该 在 什么 程度 上 限制 路 由 呢 ? 是 否 存在 最 小 的 限制 集合 或 路 由 限 
制 与 缓冲 的 最 小 组 合 呢 ? 在 这 个 方向 上 最 重要 的 发 展 是 折 转 模型 路 由 (Glass and Ni 1992), 
例如 ， 考 虑 一 个 2D 的 阵列 。 如 图 10-23 所 示 ， 有 8 种 可 能 的 折 转 ， 构 成 两 个 简单 的 回路 。 
《该 图 说 明 的 是 在 涉及 多 个 消息 的 网 络 中 出 现 的 回路 。 在 通道 依赖 图 中 有 一 个 对 应 的 回路 。) 
维 序 路 由 不 允许 使 用 8 种 折 转 中 的 4 个 ， 当 沿 -x 或 +x 前进 时 , 做 -y 或 +y 的 折 转 是 合 
法 的 , 但 是 一 旦 数据 包 沿 - y 或 +y 前 进 ， 它 就 不 能 做 进一步 的 转弯 了 。 不 合法 的 折 转 由 图 
中 的 灰 线 表示 。 直 觉 地 ， 只 要 在 每 个 回路 中 去 掉 一 个 折 转 就 可 以 防止 回路 出 现 。 


. 十 十 - 











图 10-23 Ax, Ay 路 由 的 折 转 限制 。2D 阵列 上 的 维 序 路 由 禁止 使 用 8 种 可 能 的 折 转 中 的 4 种 ， 

从 而 断 开 这 两 种 简单 依赖 回路 。 通 过 仅 禁 止 两 种 折 转 就 能 获得 免 死 锁 的 路 由 算法 
在 2D 阵列 中 禁止 两 次 折 转 的 16 种 方法 中 ， 有 12 种 避免 了 死 锁 。 这 些 方法 包含 了 图 
10-24 中 的 3 种 不 同 的 算法 及 它们 的 旋转 。 首先 向 西 算法 之 所 以 这 样 命名 是 因为 不 允许 向 ~- x 
方向 转弯 ; 所 以 ， 如 果 数 据 包 需 要 向 这 个 方向 前 进 的 话 ， 它 必须 在 做 出 任何 折 转 之 前 就 这 样 
做 。 同 样 ， 在 最 后 向 北 的 算法 中 ， 不 能 从 + y 方向 再 转弯 了 ， 所 以 路 由 在 朝向 该 方向 之 前 必 











797 














798 








576 HAIFA R HEH] 





须 完 成 它 所 有 其 他 的 调整 。 最 后 ， 首 先 负 向 算法 禁止 从 正方 向 转向 负 方 向 ， 这 样 路 由 在 转向 
任何 正方 向 之 前 必须 走 到 它 所 要 求 的 最 负 点 。 


aan 广 一 


厂 | —_ | 广 
[上 


最 后 向 北 PET. ay 


图 10-24 在 2D 中 的 最 小 折 转 模型 路 由 。 为 了 获得 一 个 免 死 锁 算法 ， 仅 需要 禁止 
8 种 可 能 的 折 转 中 的 两 个 。 这 里 对 3 个 这 样 的 算法 显示 了 合法 的 折 转 
这 些 折 转 模型 算法 的 每 一 个 都 允许 复杂 的 、 甚 至 非 最 小 化 的 路 径 。 例 如 ， 图 10-25 显示 
了 可 以 在 首先 向 西 路 由 下 采用 的 某 些 路 径 。 拉 长 的 长 方形 表示 阻塞 或 断 开 的 链 路 ， 它 们 使 这 
样 一 组 路 由 能 够 使 用 。 显 然 ， 最 小 折 转 模型 在 路 由 选择 上 有 很 大 的 灵活 性 。 在 一 对 节点 之 间 
有 很 多 合法 的 路 径 。 








图 1025 在 一 个 8x8 的 阵列 中 合法 的 首先 向 西 路 由 的 例子 。 折 转 模型 路 由 获得 相 

当 大 的 路 由 自 适 应 性 ， 因 此 提供 了 以 免 死 锁 方式 的 绕 开 故障 的 路 由 能 力 
折 转 模型 方法 可 以 和 虚 通 道 合 并 使 用 ， 而 且 可 以 应 用 于 任何 拓扑 结构 。( 在 某 些 网 络 中 ， 
例如 单 向 的 4 立方 体 ,仍然 需要 虚 通 道 。) 基本 的 方法 如 下 : 1) 根据 通道 引导 数据 包 的 方 
向 将 它们 分 成 组 (不 包括 卷 回 的 边 ); 2) 识别 由 方向 “ 折 转 ”形成 的 潜在 的 回路 ;3) 在 每 
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个 抽象 的 回路 中 禁止 一 个 折 转 ， 小 心地 断 开 所 有 的 复杂 的 回路 。 最 后 ， 在 不 引入 回路 的 前 提 
下 可 以 结合 使 用 卷 回 边 。 如 果 存 在 虚 通 道 ， 则 把 每 一 组 虚 通道 作为 一 个 不 同 的 虚 方向 处 理 。 

上 行 ”- 下行" 本质 上 是 一 种 假定 双向 通道 的 折 转 模型 算法 ， 它 仅 使 用 两 个 方向 。 的 确 ， 
回顾 上 行 ”- 下 行 " 算 法 ,许多 最 短路 径 可 能 遵从 上 行 * -下 行 * 的 限制 ， 而 许多 非 最 小 化 的 
EFT - 下行 ” 路 由 肯定 存在 于 大 多 数 网 络 之 中 。 虚 通道 允许 进一步 放松 路 由 的 限制 。 


10.6.7 自 适应 路 由 


放松 路 由 限制 的 最 根本 的 优点 在 于 它 允 许 节点 对 之 间 有 多 条 合法 路 径 。 这 对 容错 而 言 是 
基本 的 条 件 。 假 如 路 由 算法 仅 允 许 一 条 路 径 ， 单 条 链 路 失效 将 使 网 络 断 开 。 对 于 多 路 径路 
由 ， 则 有 可 能 绕 开 故障 。 此 外 ， 它 还 允许 在 可 用 通道 上 更 广泛 地 分 布 流量 ， 从 而 改善 网 络 的 
利用 率 。 当 --- 辆 车 停 在 街道 中 央 时 ， 别 的 车 能 选择 绕 开 该 街区 当然 是 最 好 的 了 。 

简单 的 确定 性 路 由 算法 可 能 在 网 络 中 引起 严重 的 竞争 ， 即 使 当 通信 和 负载 在 独立 的 目的 地 
之 间 均 匀 分 布 时 也 不 能 避免 。 例 如 ， 图 10-26 显示 了 一 个 简单 的 情况 ，2D 网 格 中 4 个 数据 包 
正 从 不 同 的 源 向 不 同 的 目的 地 前 进 ， 在 维 序 路 由 下 ， 它 们 都 被 强 连 沿 同一 链 路 前 进 。 通 信 在 
通过 瓶颈 时 完全 是 串 行 的 ， 而 其 他 最 短路 径 上 的 链 路 却 闲 置 未 用 。 多 路 径路 由 算法 可 以 使 用 
其 他 的 通道 ， 正 如 图 10-26 的 右 部 所 显示 的 那样 。 对 于 任何 网 络 拓扑 ， 总 存在 坏 的 置换 
(Gottlieb and Kruskal 1984)， 但 简单 确定 性 路 由 使 得 路 径 更 容易 磁 到 这 些 坏 的 置换 。 图 10-26 
中 的 特殊 例子 有 着 重要 的 实际 意义 。 一 种 公共 全 局 通信 模式 是 转 置 。 在 一 个 维 序 路 由 的 2D 
网 格 上 ， 一 行 中 所 有 的 数据 包 在 填 人 列 之 前 必须 通过 单个 交换 机 。 


1 
口 口 口 口 O 
OO OO OD O 
OO a 口 
图 10-26 确定 性 维 序 路 由 下 的 路 由 路 径 冲 突 。 从 不 同 源 到 不 同 目的 地 的 几 个 
消息 在 维 序 路 由 下 竞争 资源 ， 而 自 适应 路 由 方案 能 使 用 不 相交 的 路 径 

多 路 径路 由 可 以 作为 任何 基本 交换 机 制 的 延伸 而 结合 使 用 。 对 于 基于 源 的 路 由 ， 源 简单 
地 在 多 条 合法 路 由 中 挑选 ， 并 根据 选择 建立 数据 包 的 头 。 对 交换 机 不 需要 改变 。 对 于 表 驱 动 
路 由 ， 可 以 通过 为 多 条 路 径 建立 表 项 来 完成 。 对 于 运算 路 由 ， 需 要 给 数据 包头 附加 额外 的 控 
制 信息 ， 并 由 交换 机 解释 这 些 信 息 。 

日 适应 路 由 是 多 路 径路 由 的 一 种 形式 ， 这 里 路 由 的 选择 是 由 交换 机 根据 路 由 中 碰 到 的 流 
量 动态 地 决定 的 。 形 式 化 地 表示 ， 自 适应 路 由 函数 是 形 如 R: Cx N x5>C 的 一 个 映射 ， 
这 里 三 表示 交换 机 状态 。 特 别 是 如 果 所 希望 的 输出 端口 之 一 被 阻塞 或 失效 ， 交 换 机 可 以 先 
择 一 个 蔡 代 通道 送出 数据 包 。 最 小 自 适应 路 由 仅仅 沿 到 达 目的 地 的 最 短路 径 引 导数 据 包 ， 也 
就 是 说 ， 每 一 跳 都 必须 缩短 到 达 目的 地 的 距离 。 人 允许 使 用 所 有 最 短路 径 的 自 适 应 算法 是 完全 


自 适 应 的 ， 否 则 就 是 部 分 自 适应 的 。 非 最 小 化 自 适应 路 由 的 一 个 有 趣 的 极端 情况 是 所 谓 “ 热 
土豆 ”路 由 。 在 这 个 方法 中 ， 交 换 机 从 来 不 缓冲 数据 包 。 如 果 一 个 以 上 的 数据 包 指向 同一 个 
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输出 通道 ， 交 换 机 将 一 个 送 往 其 目的 地 ， 而 将 其 他 的 “误导 ”到 其 他 通道 。 

虽然 自 适 应 路 由 在 研究 文献 中 (Ngai and Seitz 1989; Linder and Harden 1991)， 特 别 是 通 
过 Chaos 路 由 器 (Kostantantindou and Snyder 1991) ， 已 经 得 到 深入 的 研究 ， 但 它 在 现代 的 并 行 
机 中 并 未 得 到 广泛 的 应 用 。CRAY T3E 提供 了 立方 体 结构 中 的 最 小 自 适应 路 由 。nCUBE/3 机 
提供 了 超 立 方 体 结 构 的 最 小 自 适应 路 由 。Tera 机 (Alverson et al. 1990) 建议 的 网 络 使 用 热土 
豆 路 由 ， 在 3ns 的 周期 内 传递 128 位 的 数据 包 。 

虽然 自 适应 路 由 有 明显 的 优点 ， 但 也 存在 其 缺点 。 显 然 ， 它 增加 了 交换 机 的 复杂 性 ， 这 
只 会 使 交换 机 变 得 更 慢 。 带 宽 的 降低 会 抵消 更 复杂 的 路 由 所 带 来 的 增益 ， 一 个 处 于 其 线性 工 
作 区 的 简单 确定 性 网 络 的 性 能 可 能 胜 过 一 个 处 于 饱和 状态 的 智能 的 自 适 应 网 络 。 在 像 d- 维 
阵列 这 样 的 非 均匀 网 络 中 ， 在 均匀 随机 流量 负载 下 自 适应 性 会 损害 性 能 。 负 载 的 随机 变化 对 
任何 网 络 都 引入 暂时 的 阻塞 。 对 于 位 于 阵列 边界 的 交换 机 ， 这 将 导致 将 数据 包 推 向 中 心 。 结 
果 ， 在 阵列 中 心 形成 确定 性 路 由 所 没有 的 竞争 。 自 适应 路 由 也 会 对 某 些 类 型 的 非 均 匀 流 量 产 
生 问 题 ， 我 们 将 在 10.8.3 节 考 察 这 些 问题 。 

当 网 络 进入 饱和 时 ， 非 最 小 化 自 适应 路 由 的 性 能 可 能 很 差 ， 因 为 数据 包 流 过 额外 的 链 路 
从 而 消耗 更 大 的 带宽 。 如 图 10-17 所 说 明 的 那样 ， 当 负荷 上 升 时 ， 网 络 的 吞吐 量 会 下 降 ， 而 
不 是 在 饱和 点 保持 平坦 。 

近年 来 ， 人 们 提出 了 不 少 低 成 本 的 部 分 和 完全 自 适 应 路 由 的 建议 ， 它 们 采用 有 限 数量 的 
虚 通 道 和 限制 折 转 集合 相 结合 的 办 法 (Chien and Kim 1992; Schwiebert and Jayasimha 1995)。 这 
些 方案 显示 ， 以 非常 有 限 的 自 适 应 度 就 能 获得 自 适 应 路 由 的 大 多 数 优点 ， 包 括 容 错 和 通道 利 
用 率 。 


10.7 交换 机 的 设计 


最 终 ， 网 络 的 设计 就 归结 为 交换 机 的 设计 以 及 如 何 用 线路 将 这 些 交换 机 连接 在 一 起 。 交 
换 机 的 度 、 交 换 机 的 内 部 路 由 机 制 和 它 的 内 部 缓冲 决定 了 它 能 够 支持 什么 样 的 拓扑 结构 和 能 
实现 什么 样 的 路 由 算法 。 因 为 我 们 已 经 理解 了 较 高 层 网 络 设计 的 问题 ， 我 们 可 以 回 到 交换 机 
设计 的 细节 上 来 。 像 一 个 计算 机 系统 中 其 他 硬件 成 分 一 样 ， 一 个 网 络 交换 机 包括 数据 通路 、 
控制 和 存储 。 在 本 章 开始 的 图 10-5 中 已 经 描述 了 这 种 基本 结构 ， 在 并 行 计算 早期 ， 交 换 机 
是 由 许多 低 集成 度 的 元 件 组 成 的 ， 占 据 一 个 主板 或 者 一 个 机 架 。 从 20 世纪 80 年 代 中 期 开 
始 ， 大 多 数 并 行 计算 机 网 络 是 围绕 单 芯片 VLSI 交换 机 设计 的 ， 即 采用 了 与 微 处 理 器 完全 相 
同 的 技术 (十 年 后 ， 这 一 技术 开始 使 用 在 LAN 中 ) ， 因 此 ， 交 换 机 的 设计 与 第 1 章 讨 论 的 技 
术 趋 势 密 不 可 分 : 减少 特征 尺寸 ， 增 大 面积 ， 增 加 引 脚 数目 。 我 们 应 该 从 VLSI 的 角度 看 竺 
现代 交换 机 的 设计 。 


10.7.1 端口 


引 脚 的 总 数 基本 上 等 于 输入 端口 和 输出 端口 之 和 与 通道 带宽 之 积 ， 因 为 芯片 的 周 长 比 其 
面积 而 言 增长 得 要 慢 ， 所 以 交换 机 肯定 要 受到 引 脚 数 目的 限制 ， 这 就 促使 设计 者 去 考虑 这 而 
高 频 的 通道 。 非 常 高 速 的 串 行 链 路 是 特别 有 吸引 力 的 ， 因 为 它们 使 用 最 少 的 引 脚 并 且 消除 了 
通道 上 位 线 之 间 的 扭 斜 间 题 。 但 是 在 捉 行 链 路 中 ， 时 钟 和 所 有 的 控制 信号 都 必须 在 申 行 位 流 
的 帧 内 编码 ， 在 并 行 链 路 中 ， 线 路 之 一 是 作为 其 他 线路 上 数据 的 基准 时 钟 。 使 用 一 条 单独 的 
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线路 ， 提 供 准备 好 /确认 握手 信号 来 实现 流 控 。 
10.7.2 内 部 数据 通路 


数据 通路 为 每 个 输入 端口 〈 如 输入 锁 存 器 、 缓 冲 区 或 FIFO) 与 每 个 输出 端口 之 间 提 供 
连接 。 昌 然 它 可 以 有 多 种 不 同 的 实现 方法 ， 但 通常 被 称 作 内 部 交叉 开关 。 一 个 非 阻 塞 的 交叉 
开关 是 指 在 任何 一 种 置换 下 ， 它 可 以 同时 将 每 个 输入 端口 连 到 一 个 不 同 的 输出 上 。 逻 辑 上 
讲 ， 对 于 一 个 nxn 的 交换 机 ， 非 阻塞 交叉 开关 只 不 过 是 一 个 半路 的 连接 各 个 目的 端口 的 多 
路 复 用 器 。 如 图 10-27a 所 示 ， 多 路 复 用 器 根据 其 下 层 的 技术 可 以 有 很 多 不 同 的 实现 方法 ， 
比如 ， 在 VLSI 中 , 它 通 常 是 靠 在 一 根 总 线 加 上 n 个 三 态 驱 动 器 来 实现 的 ， 如 图 10-27b 所 
示 ; 在 这 种 情况 下 ， 控 制 通 路 为 每 个 输出 提供 n 个 使 能 点 。 一 种 越 来 越 常用 的 技术 是 使 用 
内 存 作为 交叉 开关 ， 通 过 对 每 个 输入 端口 写 人 和 对 每 个 输出 端口 读 出 来 实现 ， 如 图 10-27c 
所 示 。 


输入 端口 1 
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a) 


图 10-27 ”交叉 开关 实现 。 一 个 交换 机 的 内 部 交叉 开关 的 实现 可 以 是 ; a) 多 路 复 用 器 的 集 
合 ，b) 三 态 驱动 器 的 网 格 ，e) 一 个 在 端口 间 时 分 复 用 的 争 用 型 的 静态 RAM 


很 显然 ， 交 叉 开 关 的 硬件 复杂 度 是 由 连 线 决定 的 ， 在 每 个 方向 上 有 nw 条 数据 线 ， 需 要 
(mY 的 面积 ， 还 需要 r 条 控制 线 ， 这 就 显著 地 增加 了 复杂 度 。 我 们 如 何 做 到 交换 机 跟随 
VLSI 技术 而 改进 呢 ? 假设 交叉 开关 的 面积 是 常数 ， 而 特征 尺寸 减 小 ， 理 想 化 的 VLSI 缩放 定 
律 指 出 ， 如 果 特 征 尺寸 减 小 为 /s (包括 门 厚度 )， 电 压 也 减 小 到 11*， 则 晶体 管 的 速度 则 会 
改善 * 倍 ， 连 接 相 邻 唱 体 管 的 线路 延迟 将 改善 ; 倍 ， 每 个 单元 面积 的 上 唱 体 管 总 数 在 相同 的 能 
量 密度 时 增加 s 倍 。 对 于 交换 机 而 言 ， 这 就 意味 着 连 线 会 更 细 、 更 密 ， 所 以 交换 机 的 度 可 
以 提高 * 倍 。 注 意 ， 交 换 机 度 的 提高 只 是 逻辑 密度 提高 的 平方 根 ， 不 好 的 一 点 是 这 些 连 线 经 
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过 交叉 开关 的 整个 长 度 ， 所 以 连 线 的 长 度 是 一 个 常数 ; 线 越 细 ， 它 们 的 电阻 就 越 大 ;电容 减 
小 ， 净 效应 是 传输 延迟 不 变 《Bakoglu 1990)。 换 名 话说， 理想 的 缩放 规律 使 我 们 在 相同 面积 
上 有 了 交换 机 度 的 改进 ， 但 是 没有 速度 的 提高 ， 如 果 电 压 级 别 保持 不 变 时 ， 速 度 的 确 会 提高 
s 倍 ， 但 是 这 时 功 耗 增 加 s 倍 。 芯 片面 积 的 增长 将 允许 更 大 的 度数 ， 但 连 线 长 度 和 传输 延 
迟 都 会 增长 。 

一 些 对 于 度 的 混淆 理解 源 于 术语 “交叉 开关 ”中 ， 在 传统 的 关于 交换 的 文献 中 ， 有 时 将 
有 单一 的 控制 器 的 多 级 互连网 络 称 作 交叉 开关 ， 即 使 通过 交换 机 的 数据 通路 被 组 织 成 为 小 交 

803) 又 开关 的 互 连 ， 在 很 多 情况 下 ， 它 们 之 间 的 连接 很 像 Banyan 网 络 那样 的 蝶 形 拓扑 结构 。 如 

果 对 一 个 Banyan 网 络 的 输入 是 排序 的 ， 则 该 网 络 是 非 阻塞 的 ， 所 以 在 一 个 Banyan 网 络 之 前 ， 
构造 一 些 非 阻塞 的 交叉 开关 构成 的 Batcher 排序 网 (Peterson and Davie 1996)。 有 一 种 方法 在 
很 多 方面 与 Benes 网 类 似 ， 它 使 用 了 蝶 形 网 的 变形 ， 即 delta 网 络 ， 且 串 连 使 用 了 两 个 这 样 的 
网 络 。 第 一 个 是 用 来 将 数据 包 的 位 置 与 输入 端口 的 对 应 关系 随机 化 ， 第 二 个 是 生成 到 和 输出 端 
口 的 路 由 。 比 如 ， 它 用 于 一 些 商 用 的 ATM 交换 机 (Tumer 1988)。 在 VLSI 交换 机 中 ， 实 际 地 
建立 一 个 非 阻 塞 的 交叉 开关 通常 更 有 效 ， 因 为 它 简 单 、 快 速 ， 而 且 有 规则 。 关 键 问 题 还 是 引 
脚 数目 的 限制 。 

显然 VLSI 交换 机 在 现存 的 支撑 技术 下 会 继续 进步 ， 尽 管 它 进步 的 速度 很 可 能 会 低 于 存 
储 和 逻辑 部 件 的 改进 速度 。 如 果 我 们 放弃 非 阻塞 的 特性 ， 并 限制 能 同时 连接 到 输出 上 的 输入 
端口 的 数目 ， 交 叉 开 关 的 硬件 复杂 度 将 会 降低 ; 在 极限 情况 下 ， 它 将 缩减 为 一 条 有 n 个 驱 
Shar Al n 个 输出 选择 的 总 线 。 然 而 ， 在 实践 中 最 严重 的 问题 却 是 连 线 的 长 度 和 引 脚 的 数量 ， 
所 以 减少 单个 交换 机 内 部 带宽 几乎 没有 带 来 任何 节约 ， 反 而 严重 地 损失 了 网 络 的 性 能 。 


10.7.3 通道 缓冲 


在 交换 机 中 缓冲 存储 器 的 组 织 在 很 大 程度 上 影响 着 交换 机 的 性 能 ， 传 统 的 路 由 器 和 交换 
机 在 交换 机 构 之 外 一 般 都 有 大 的 SRAM 或 者 DRAM 缓冲 ， 而 对 于 VLSI 交换 机 ， 缓 种 设 在 交 
换 机 内 部 ， 占 用 与 数据 通路 与 控制 部 分 相同 大 小 的 硅 片 面积 。 有 4 种 基本 的 选择 ;无 缓冲 
(只 有 输入 输出 锁 存 )、 输 入 有 缓冲 、 输 出 有 缓冲 和 一 个 集中 共享 的 缓冲 池 。 在 输入 和 输出 通 
道上 提供 几 个 流 控 单元 大 小 的 缓冲 能 使 链 路 两 端的 交换 机 脱离 关系 ， 这 显著 地 改进 了 性 能 。 
随 着 芯片 尺寸 和 密度 的 增加 ， 将 会 有 更 多 的 缓冲 ， 网 络 的 设计 者 也 将 有 更 多 的 选择 但 是 组 
冲 仍然 是 一 种 珍贵 的 资源 ， 因 此 合理 的 组 织 结构 是 重要 的 。 像 网 络 设计 中 的 很 多 其 他 的 方面 
一 样 ， 问 题 不 仅仅 是 如 何 有 效 地 利用 缓冲 资源 ， 而 是 缓冲 将 如 何 影响 网 络 中 的 其 他 成 分 的 
利用 。 
直觉 地 ， 我 们 也 许 会 估计 到 共享 交换 机 的 存储 资源 要 比 把 存储 器 分 配 到 各 个 端口 更 难 实 
现 , 但 它 却 能 够 更 好 地 使 用 这 些 资源 ， 所 有 的 通信 端口 需要 同时 访问 共享 池 ， 这 就 需要 一 个 
带宽 非常 高 的 存储 器 ， 更 令 人 惊奇 的 是 ， 按 需求 共享 缓 串 区 在 某 些 情况 下 会 损害 网 络 的 利用 
率 ， 因 为 单个 拥挤 的 输出 端口 就 会 占用 缓冲 池 的 大 部 分 ， 因 而 防 碍 了 其 他 的 网 络 流量 通过 交 
换 机 。 
1. 输入 缓冲 
一 个 有 吸引 力 的 方法 是 在 每 个 输入 端口 提供 独立 的 FIFO 缓冲 区 ， 如 图 10-28 所 示 。 在 
[804 | 每 个 时 钟 周 期 内 ， 每 个 缓冲 区 要 能 够 接收 一 个 物理 单元 且 将 一 个 物理 单元 传送 到 输出 上 ， 这 
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样 交 换 机 的 内 部 带宽 很 容易 与 进 人 的 数据 流 相 匹配 。 交 换 机 的 操作 是 比较 简单 的 ， 它 监视 每 
个 输入 FIFO K, 分 别 计算 其 希望 的 输出 端口 ， 相 应 地 调度 数据 包 通 过 交叉 开关 。 典 型 的 
情况 是 ， 每 个 输入 端口 都 附带 路 由 逻辑 来 决定 所 希望 的 输出 。 对 于 基于 源 的 路 由 来 讲 这 很 简 
单 ， 它 需要 为 每 个 输入 增加 一 个 计算 路 由 的 运算 单元 ， 通常， 每 个 输入 端口 还 要 有 一 张 支持 
表 驱 动 路 由 的 路 由 表 。 对 于 直通 路 由 ， 决 策 逻 辑 不 是 在 每 个 时 钟 周期 而 是 对 每 个 数据 包 做 一 
次 独立 选择 ， 因 此 ， 路 由 逻辑 基本 上 是 一 个 有 限 状 态 机 ， 它 在 数据 包 边 界 处 做 出 一 个 新 的 路 
申 决定 之 前 ， 把 当前 数据 包 的 所 有 流 控 单 元 都 送 到 同一 个 输出 通道 (Seitz and Su 1993). 


输出 端口 





图 10-28 带 输 入 缓冲 的 交换 机 。 每 个 输入 端口 提供 一 个 FIFO, 
但 是 控制 器 只 能 在 输入 FIFO 头 上 检查 和 处 理 数据 包 


这 种 简单 输入 缓冲 方法 存在 的 一 个 问题 是 发 生 “ 排 头 ”阻塞 。 假 设 有 两 个 端口 的 数据 包 
的 目的 地 是 同一 个 输出 端口 ， 它 们 之 中 的 一 个 会 被 调度 到 该 输出 端口 而 另 一 个 则 被 阻塞 。 跟 
在 这 个 被 阻塞 的 数据 包 后 面 的 数据 包 的 目的 地 可 能 是 一 个 并 未 使 用 的 输出 端口 〈 一 定 存在 未 
被 使 用 的 输出 端口 )， 但 是 它 也 不 能 向 前 传输 。 这 种 排头 阻塞 问题 类 似 于 我 们 日 常 的 交通 阻 
塞 。 就 好 像 通 往 交叉 路 口 只 有 一 条 车 道 ， 如 果 最 前 面 的 汽车 在 试图 拐弯 时 被 阻塞 了 ， 尽 管 前 
面 的 街道 是 空 的 ， 其 他 的 车 子 也 没有 办 法 绕 过 它 继续 前 进 。 

我 们 能 容易 地 估计 排头 阻塞 对 于 通道 利用 率 产生 的 影响 。 如 果 我 们 有 两 个 输入 端口 ， 为 
每 一 个 输入 随机 地 选择 一 个 输出 ， 第 一 个 选择 成 功 后 ， 第 二 个 有 50 HE 50 的 几率 能 选择 到 一 
个 空闲 的 输出 。 所 以 ， 每 个 时 钟 周期 通过 交换 机 的 数据 包 的 期 望 数 为 1.5 个 ， 从 而 每 个 输出 
端口 的 利用 率 是 75% 。 推 广 到 一 般 情况 ， 如 果 个 随机 输入 到 达 一 个 n 端口 交换 机 所 覆盖 
的 输出 端口 的 期 望 数 表示 为 E(n, k), D 





Bnsk+r1)=E(n,k)+ 2= 全 有 
对 于 不 同 尺 寸 的 交换 机 计算 这 种 迁 代 直到 k= m”， 揭 示 了 对 于 一 个 满 负载 交换 机 的 一 个 时 鲜 
周期 ， 输 出 通道 的 使 用 率 的 期 望 值 会 迅速 下 降 到 65% 左 右 。 排 队 论 理论 分 析 表 明 在 具有 输 
人 队列 的 稳定 的 状态 下 利用 率 的 期 望 值 为 59% (Karol, Hluchyj, and Morgan 1987) 。 

头 阻塞 的 影响 可 能 比 这 种 简单 概率 分 析 的 结果 要 更 显著 。 在 一 个 交换 机 中 ， 总 会 有 针对 
一 个 输出 端口 的 突 发 流量 后 跟 针对 另 一 个 输出 端口 的 突 发 流量 的 现象 出 现 。 即 使 流量 被 平均 
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地 分 布 ， 如 果 窗 口 足 够 大 的 话 ， 每 次 突 发 效应 都 会 导致 所 有 输入 上 的 阻塞 (Li 1988); 即使 
在 交换 机 中 不 存在 输出 的 竞争 ， 在 输入 缓冲 区 首部 的 数据 包 也 可 能 会 被 分 到 一 个 由 于 网 络 其 
他 地 方 拥塞 而 阻塞 的 输出 上 ， 这 样 ， 这 个 数据 包 之 后 的 数据 包 也 不 能 向 前 移动 。 在 一 个 采用 
虫 孔 路 由 的 网 络 中 ， 整 个 蠕虫 会 被 原 地 阻塞 ， 消 耗 链 路 的 带宽 而 到 达 不 了 任何 地 方 。 一 个 更 
加 灵活 的 缓冲 资源 的 组 织 结构 或 许 能 允许 数据 包 滑 动 到 被 阻塞 的 数据 包 之 前 。 

2. 输出 缓冲 

我 们 需要 对 交换 机 做 的 基本 改进 是 提供 一 种 方法 ， 把 各 个 输入 端口 的 多 个 数据 包 作为 发 
往 输 出 端口 的 候选 者 。 一 种 很 自然 的 做 法 是 扩展 输入 的 FIFO， 从 而 为 每 个 输出 端口 提供 一 
个 独立 的 缓冲 区 ， 这 样 数据 包 在 到 达 时 就 可 以 自动 地 根据 目的 地 址 分 类 ， 如 图 10-29 所 示 。 
(这 是 一 种 在 本 章 10.5 节 中 常规 延迟 分 析 所 假设 的 那 种 交换 机 ， 因 为 交换 机 不 会 引入 内 部 额 
外 的 竞争 效应 ， 所 以 这 种 分 析 被 简化 了 。) 当 输入 的 业务 流 稳定 ， 输 出 就 会 基本 上 100% 被 
驱动 ; 但 是 ， 这 种 设计 的 优点 不 付出 代价 是 得 不 到 的 。 需 要 额外 的 缓冲 存储 器 和 内 部 的 互 
连 ” 。 加 上 分 类 的 级 和 更 宽 的 多 路 复 用 器 ， 这 可 能 加 长 交换 机 的 周期 时 间或 增加 它 的 路 由 延迟 。 

在 图 10-29 中 的 缓冲 区 是 与 输入 还 是 输出 端口 相 联 系 是 一 个 观察 角度 的 问题 。 如 果 把 它 
看 作 是 输出 端口 的 缓冲 区 ， 则 主要 的 特征 是 每 个 输出 端口 在 一 个 时 钟 周期 内 有 足够 大 的 内 部 

带宽 来 接收 从 每 个 输入 端口 来 的 数据 包 ， 这 可 以 通过 一 个 惟一 的 输出 FIFO 来 实现 ， 但 是 它 工 
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图 10-29 避免 排头 阻塞 的 交换 机 设计 。 在 每 个 输入 端口 ， 数 据 包 按 输出 端口 分 类 ， 这 样 控制 器 
可 以 在 任何 输入 有 数据 包 要 达到 某 一 输出 端口 时 ， 向 这 个 输出 端口 调度 一 个 数据 包 





O ”提供 带 输出 缓冲 的 的 交换 机 也 是 可 以 的 ， 从 而 避免 存储 和 互 连 的 代价 (Joerg 1994) ， 各 个 输 和 人 的 缓 首 区 的 集合 形 
成 一 个 缓冲 池 ， 每 个 输出 有 一 系列 指针 ， 指 向 以 该 输出 为 目的 地 的 数据 包 。 该 设计 的 定时 要 求 是 每 个 周期 能 将 
个 指针 而 不 是 ns 个 数据 包 压 人 输出 端口 缓冲 。 


P110 ZÆA i 583 





作 的 内 部 时 钟 频率 应 该 是 输入 端口 时 钟 频率 的 n 信 。 
3, 共享 池 
通过 共享 池 ， 每 个 输入 端口 把 数据 存放 在 一 个 中 央 存 储 器 中 ， 每 个 得 出 缓冲 区 都 可 以 从 

那里 读 取 。 因 为 输入 端口 可 以 不 考虑 输出 端口 而 向 共享 池 写 数据 ， 假 如 空间 足够 大 ， 就 可 以 

避免 排头 阻塞 。 难 点 在 于 匹配 n 个 输入 端口 和 个 输出 端口 的 带宽 。 一 个 通常 的 办 法 是 使 

通 向 共享 池 的 内 部 数据 通路 的 宽度 为 链 路 宽度 的 2n 倍 ， 每 个 输入 端口 在 向 共享 池 写 数据 之 

前 缓冲 2n 个 物理 单元 ， 每 个 输出 端口 一 次 获得 2n 个 物理 单元 。 经 常 使 用 高 速 缓存 所 采用 

的 SRAM 技术 来 构造 这 些 共享 池 。 

4. 虚 通 道 缓冲 
虚 通道 建议 了 另外 一 种 组 织 交 换 机 的 内 部 缓冲 区 的 方法 。 回 忆 一 下 ，-- 个 虚 通 道 的 集合 

提供 了 在 一 条 单一 物理 链 路 上 多 个 独立 的 数据 包 的 传输 。 如 图 10-21 所 示 ， 为 了 支持 虚 信 

道 ， 链 路 上 的 数据 流 到 达 输 入 端口 时 被 分 配 到 不 同 的 通道 缓冲 区 中 。 然 后 ， 在 交叉 开关 之 前 

或 之 后 ， 又 被 多 路 复 用 合成 到 一 起 ， 输 出 到 输出 端口 。 如 果 一 个 虚 通 道 缓 冲 区 阻塞 了 ， 很 自 

然 地 会 考虑 将 其 他 的 虚 通道 送 到 输出 。 交 换 机 有 机 会 在 每 个 输入 的 多 个 数据 包 中 进行 选择 并 

送 到 输出 端口 ; 但是， 这 种 情况 下 的 选择 是 在 不 同 的 虚 通道 之 间 而 不 是 在 不 同 的 输出 端口 之 

间 。 有 可 能 会 发 生 这 种 情况 ， 即 所 有 的 串通 道 被 路 由 到 同一 个 输出 端口 ， 但 是 输出 端口 复 盖 

的 期 望 值 要 好 得 多 。 在 概率 分 析 中 ， 我 们 会 间 ; 在 n 个 端口 的 wm 个 请 求 中 选择 时 ， 所 复 六 

的 不 同 的 输出 端口 的 期 望 数 是 多 少 ? 这 里 e 是 虚 通 道 的 数目 。 
模拟 研究 表明 ， 使 用 中 等 大 小 的 缓冲 〈 每 个 通道 16 个 流 控 单元 ) 和 虫 孔 路 由 的 大 的 一 

元 蝶 状 网 络 (256 ~ 1 024 个 节点 )， 在 随机 流量 下 ， 通 道 使 用 率 为 25% 时 达到 人 饱和。 如 果 同 

样 是 每 个 通道 16 个 流 控 单元 的 缓冲 ， 但 分 布 到 更 多 的 虚 通 道上 ,饱和 带宽 将 显著 增加 。 在 

两 个 虚 通 道 (每 通道 8 个 流 控 单元 缓冲 区 ) 时 超过 40%， 在 16 个 带 单个 流 控 单元 缓冲 的 通 

道 时 ， 接 近 80% (Dally 1990a) 。 尽 管 这 个 研究 保持 每 个 通道 的 总 缓冲 区 的 大 小 固定 ， 它 却 不 

能 真正 保持 成 本 不 变 。 这 是 因为 在 考虑 把 从 任何 一 个 通道 来 的 数据 包 送 到 输出 端口 时 ， 必 须 

要 为 每 个 虚 通 道 而 不 是 为 每 个 物理 通道 计算 路 由 决策 。 

至 此 ,你 正在 向 前 跳 越 了 一 步 ， 发 现 其 他 一 些 可 以 考虑 的 代价 -性 能 的 折 中 。 比 如， 如 

采 交 又 开关 对 每 个 虚 通 道 都 有 一 个 输入 . 那么 从 ~- 个 端口 来 的 多 个 数据 包 可 以 一 次 通过 ， 这 

就 增加 了 每 个 数据 包 前 进 的 概率 ， 从 而 提高 了 通道 的 使 用 率 。 交 叉 开 关 仅 仅 在 一 个 维度 上 增 

加 了 尺寸 , 但 取消 了 多 路 复 用 器 ， 因 为 每 个 输出 端口 逻辑 上 是 一 个 wn 路 的 多 路 复 用 器 。 交 

换 机 的 设计 为 创新 留 下 了 很 大 的 空间 。 


10.7.4 输出 调度 


我 们 已 经 看 到 了 为 每 个 输入 数据 包 决定 所 希望 的 输出 端口 的 路 由 机 制 、 提 供 从 输入 端口 
到 输出 端口 的 连接 的 数据 通路 、 以 及 允许 每 个 输入 端口 的 多 个 数据 包 作为 送 往 输出 端口 的 候 
选 者 的 缓冲 策略 。 在 交换 机 设计 中 遗漏 的 一 个 关键 部 分 是 调度 算法 ， 它 在 每 个 时 钟 周 期 里 先 
择 向 前 发 送 的 数据 包 。 选 择 确定 后 ， 交 换 机 控制 逻辑 的 其 余部 分 激活 在 交叉 开关 或 多 路 复 用 
器 和 缓冲 或 锁 存 器 中 的 控制 点 ， 产 生 从 各 个 选 定 的 输入 到 相关 输出 的 寄存 器 传送 。 和 交换 机 
设计 的 其 他 方面 一 样 ， 也 有 从 简单 到 复杂 的 一 系列 的 解决 方案 。 

一 个 简单 的 方法 是 将 调度 问题 看 作 是 n 个 独立 的 仲裁 问题 ， 每 个 对 应 于 一 个 输出 端口 。 
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如 图 10-30 所 示 ， 每 个 候选 的 输入 缓冲 和 每 个 输出 端口 之 间 ， 都 有 一 条 通 往 输出 端口 请 求 线 
和 一 条 来 自 输出 端口 许可 线 。( 该 图 显示 了 驱动 3 个 输出 端口 的 4 个 候选 输入 缓冲 ， 表 明 路 
由 逻辑 和 仲裁 输入 是 基于 每 个 输入 缓冲 而 不 是 基于 每 个 输入 端口 的 。) 路 由 逻辑 计算 所 希望 
的 输出 端口 且 激 活 对 所 选择 的 输出 端口 的 请 求 线 。 输 出 端口 调度 逻辑 在 请 求 之 间 仲 裁 ， 选 中 
一 个 ， 并 激活 对 应 的 许可 信号。 针对 在 图 10-27b 中 采用 三 态 驱动 器 的 交叉 开关 的 特定 情况 ， 
输出 端口 j 通过 发 出 控制 使 能 信号 e% 来 使 能 输入 缓冲 ;。 一 条 许可 线 的 激活 导致 输入 缓冲 逻 
辑 发 送 它 的 FIFO。 





输出 端口 


图 10-30 输出 调度 的 控制 结构 。 和 每 个 输入 缓冲 区 相 联 系 的 是 决定 输出 端口 的 路 由 逻辑 、 遂 向 
各 个 输出 的 请 求 线 、 来 自 各 个 输出 的 许可 线 。 每 个 输出 有 一 个 选择 逻辑 ， 它 对 发 来 的 
请 求 仲 裁 并 且 激 活 一 个 许可 信和 号 ， 从 而 引起 一 个 流 控 单元 从 输入 缓冲 发 到 输出 端口 

设计 中 的 另 一 个 的 问题 是 用 于 调度 流 控 单 元 到 输出 的 仲裁 算法 ， 可 选 的 有 静态 优先 级 、 
随机 、 循 环 优先 级 、 最 老者 优先 调度 ， 每 种 算法 都 有 不 同 的 性 能 和 实现 复杂 度 。 显 然 ， 静 态 
优先 级 是 最 简单 的 ， 它 仅仅 是 一 个 优先 级 编码 器 。 但 是 在 一 个 大 型 网 络 中 ， 它 可 能 引起 无 限 
推迟 。 一 般 说 来 ， 对 于 输入 提供 公平 服务 的 调度 算法 的 性 能 要 好 些 。 循 环 优先 级 算法 需要 在 
每 个 时 钟 周期 内 增加 一 个 额外 的 状态 来 改变 优先 级 的 顺序 。 最 老者 优先 的 平均 时 延 与 随机 分 
配 的 一 样 ， 但 是 却 显著 地 降低 了 时 延 的 方 盖 (Dally 1990a)。 实 现 最 老者 优先 调度 的 一 种 方 
法 是 在 每 个 输出 端口 上 使 用 一 个 大 小 等 于 输入 端口 数 的 控制 FEFO。 当 一 个 输入 缓冲 请 求 输 
出 时 ， 请 求 被 排 在 队列 中 ， 在 FIFO 头 部 的 最 老 请 求 才 会 被 许可 。 

图 10-30 对 于 考虑 实现 不 同 的 路 由 算法 和 拓扑 结构 是 十 分 有 用 的 。 比 如 ， 在 一 个 直接 的 
d- 立 方 体 中 ， 有 d +1 个 输入 (将 它们 编号 为 ioes u) 和 d+1 个 输出 (编号 为 o, ，…， 
04+1)， 主 机 连接 输入 io 和 输出 o,,,， 直 传 路 径 i 一 0, 对 应 在 相同 维 上 的 路 由 ， 其 他 路 径 则 
要 改变 维 。 对 于 维 序 路 由 ， 数 据 包 只 能 在 经 过 交换 机 时 提高 维 序 ， 因 此 并 不 是 需要 完全 的 请 
求 /许可 逻辑 ， 输 入 j 只 需要 向 输出 /，…，d + 1l 发 出 请 求 ， 输 出 j 只 需要 许可 输入 0，…， 
jo 明确 的 静态 优先 级 机 制 以 升序 或 降序 来 分 配 优先 权 。 

自 适应 路 由 在 实现 上 有 什么 需要 呢 ? 第 一 ， 每 个 输入 的 路 由 逻辑 必须 根据 算法 的 特定 规 
则 来 计算 多 个 候选 输出 ， 比 如 ， 折 转 限 制 和 平面 限制 。 对 于 部 分 自 适应 路 由 ， 可 能 只 有 儿 个 
候选 者 ， 每 个 输出 接收 到 几 个 请 求 且 只 能 许可 一 个 〈 或 者 如 果 输 出 阻塞 ， 它 不 会 许可 任何 一 
个 )。 微 妙 的 是 一 个 输入 可 能 被 几 个 输出 选中 ， 它 需要 选择 其 中 之 一 ， 但 是 没有 被 选择 的 输 
出 会 怎么 样 呢 ? 它 是 应 该 反复 仲裁 选择 另外 一 个 输入 端口 ， 还 是 应 该 进入 空闲 状态 呢 ? 这 个 
问题 可 能 被 形式 化 描述 成 一 个 在 线 双 侧 匹 配 问 题 (Karp, Vazirani, and Vazirani 1990)。 请 求 
定义 了 一 个 双 侧 图 ， 输入 为 一 侧 ， 输 出 为 另 一 侧 ， 许可 (每 个 输出 一 个 ) 定义 了 一 个 在 请 求 
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图 中 输入 /输出 对 的 匹配 ， 最 大 匹配 是 允许 在 一 个 时 钟 周期 中 最 大 数量 的 输入 被 向 前 发 送 ， 
它 应 该 给 出 最 大 的 通道 利用 率 。 从 这 个 观点 看 这 个 问题 ， 交 换 机 调度 逻辑 应 该 近似 于 一 个 快 
速 并 行 匹配 算法 (Anderson et al. 1992)。 基 本 的 思想 是 用 一 个 简单 的 贪 焚 算 法 形成 一 个 试探 
性 的 匹配 ， 比 如 在 每 个 输出 上 随机 选择 请 求 ， 接 着 在 每 个 输入 上 选择 许可 ; 然后 ， 对 于 每 一 
个 没有 选 上 的 输出 ， 尽 量 对 试探 性 匹配 作 一 些 改进 ， 实 际 上 ， 在 几 次 迭代 之 后 就 无 法 再 做 改 
进 。 这 显然 是 复杂 性 和 速度 相对 照 的 又 一 个 例子 ， 如 果 调 度 算法 增加 交换 机 的 时 钟 周期 或 路 
由 延迟 ， 它 可 能 在 应 付 一 些 额外 的 阻塞 时 情况 要 好 些 ， 任 务 完成 得 要 快 些 。 

这 种 最 大 匹配 问题 适用 于 交叉 开关 的 各 个 输入 上 多 个 虚 通 道 多 路 复 用 通过 的 情况 ， 甚 
至 对 确定 性 路 由 也 是 如 此 。( 的确， 该 算法 的 提出 是 为 了 AN2 ATM 交换 机 能 应 付 对 来 自 几 条 
“ 虚 电路 “的 码 元 进行 调度 的 情况 。 ) ， 每 个 输入 端口 有 多 个 缓冲 区 ， 它 可 以 调度 到 其 交叉 开 
关 的 输入 ， 它 们 可 能 指向 不 同 的 输出 。 输 出 的 选择 决定 了 向 前 发 送 哪个 虚拟 通道 。 如 果 加 宽 
交叉 开关 ， 而 不 是 对 输入 多 路 复 用 ， 匹 配 问 题 将 会 销 失 ， 每 个 输出 将 能 做 出 简单 的 独立 仲裁 。 


10.7.5 HERA SH 


如 果 只 有 两 个 输入 和 两 个 输出 ， 交 换 机 设计 的 很 多 方面 将 可 以 简化 ， 包 括 控制 、 仲 裁 和 
数据 通路 。 包 括 花环 路 由 芯片 (Seitz and Su 1993), J-machine 和 CRAY T3D 在 内 的 几 个 设计 
使 用 了 简单 的 2x 2 构造 块 ， 并 且 把 它们 堆 病 起 来 构成 更 高 维 的 交换 机 ， 如 图 10-31 所 示 。 如 
果 我 们 考虑 一 个 4 立方 体 ， 在 给 定 维 上 的 连续 流量 直接 通过 那个 维 的 交换 机 ， 如 果 它 需要 
转 到 另 一 个 维 上 时 ， 它 就 会 被 垂直 地 引导 通过 交换 机 。 注 意 ， 除 了 最 低 维 之 外 ， 这 对 所 有 维 
增加 了 一 跳 。 同 样 的 技术 在 用 于 超 立 方 体 时 产生 了 一 种 称 作 立方 体 连接 回路 的 拓扑 ， 超 立方 
体 的 每 一 个 n xn 节点 将 被 n 个 2x2 节点 的 环 所 代替 。 


主机 输入 


Zout 


Yout 


Xout 





图 10-31 ” 堆 益 维度 交换 机 。 在 一 个 维 上 的 连续 流量 
直接 通过 一 个 2x 2 交换机， 而 当 它 要 转 
主机 输出 向 另 一 个 维 时 ， 它 就 被 沿 堆 秋 向 上 垂直 引导 


10.8 HE 


ARTS, 我 们 将 仔细 地 考虑 当 网 络 中 的 多 个 数据 流 试图 同时 使 用 相同 的 共享 网 络 资源 时 会 
发 生 的 情况 。 必 须 采 取 一 些 措施 来 控制 这 些 流 。 如 果 不 想 让 任何 数据 丢失 ， 必 须 在 处 理 





9 不 应 该 把 虚 电 路 与 虚 通 道 相 混淆 。 前 者 是 在 从 源 到 目的 地 的 整个 路 径 上 附带 资源 路 由 的 技术 ， 而 后 者 是 安排 每 
条 链 路 所 带 的 缓冲 的 结构 的 策略 。 
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其 他 流 时 阻塞 一 些 流 。 流 控 的 问题 出 现在 所 有 的 网 络 中 并 且 在 多 个 层次 中 ,但 是 在 并 行 计算 
机 网 络 中 的 流 控 与 局 域 网 和 广域网 的 流 控 本 质 上 是 完全 不 同 的 。 在 并 行 计算 机 中 ， 网 络 流量 
需要 像 流 经 总 线 的 流量 那样 被 可 靠 地 传递 ， 而 且 在 非常 小 的 时 间 尺 度 上 有 大 量 并 发 的 数据 流 
发 生 ， 没 有 其 他 的 网 络 体系 有 这 样 严格 的 要 求 。 我 们 将 简要 地 看 一 看 这 些 不 同 点 ， 然 后 详细 
地 考察 一 下 并 行 机 中 链 路 层 和 端 对 端的 的 流 控 问题 。 


10.8.1 并 行 计算 机 网 络 与 局 域 网 、 广 域 网 的 对 照 


为 了 建立 对 于 并 行 机 网 络 上 这 种 独特 的 流 控 的 感性 的 认识 ， 我 们 先 稍微 离 题 ， 看 看 在 我 们 
每 天 都 为 文件 传输 之 类 的 工作 而 与 之 打交道 的 网 络 中 流 控 扮演 的 角色 。 我 们 将 考察 3 个 例子 : 
以 太 网 风格 的 基于 冲突 检测 的 种 裁 机制 ，FDDI 风格 的 全 局 仲裁 机 制 ， 广 域 网 的 无 仲裁 机 制 。 

在 以 太 网 中 ， 整 个 网 络 实际 上 是 一 根 共 享 线 路 ， 就 像 总 线 那样 ， 只 是 要 长 些 。( 总 带宽 
等 于 链 路 带宽 ) 但 是 ， 它 和 总 线 不 同 的 地 方 是 没有 明显 的 仲裁 单元 。 一 台 主 机 在 尝试 发 送 数 
据 包 时 ， 首 先 检 测 到 网 络 闲 ， 然 后 (乐观 地 ) 把 数据 包 发 送 到 线路 上 。 所 有 的 节点 包括 尝试 
发 送 数据 包 的 主机 都 在 监视 线路 ， 如 果 线 路 上 只 有 一 个 数据 包 ， 每 台 主 机 都 会 “看 到 ” 它 ， 
被 标记 成 目的 节点 的 主机 会 接收 到 这 个 数据 包 。 如 果 线 路 上 有 冲突 ， 包 括 多 个 发 送 者 在 内 的 
每 台 主机 都 会 检测 到 混淆 的 信和 号， 一 台 主 机 驱动 一 个 数据 包 的 最 短 时 间 ( 即 最 小 的 通道 时 
间 ) 是 50 js， 这 个 时 间 段 多 许 所 有 的 主机 来 检测 到 冲突 。 

流 控 处 理 的 是 如 何 重新 发 送 数据 包 。 发 生 冲 突 时 ， 每 个 发 送 者 回 退 ， 等 待 一 段 随机 的 时 
间 ， 然 后 再 尝试 发 送 。 随 着 每 一 次 重复 的 冲突 ， 随 机 时 间 延 迟 决定 的 重 发 时 间 间 隔 会 逐渐 增 
加 。 冲 突 检 测 在 网 络 接口 硬件 中 执行 ， 而 重 发 是 由 以 太 网 驱动 程序 的 最 低层 来 处 理 的 。 如 果 
在 很 多 次 尝试 后 仍然 不 成 功 的 话 ， 以 太 网 驱动 程序 就 会 放弃 ， 丢 掉 数据 包 。 但 是 ， 消 息 操作 
是 由 高 层 的 通信 软件 引起 的 ， 它 们 有 自己 的 传输 约定 。 比 如 ，TCP/IP 层 通过 超时 会 检测 到 
发 送 失败 并 且 使 用 它 自 己 的 自 适应 的 重 传 机 制 ， 就 像 我 们 将 要 提 到 的 使 用 广 域 连接 那样 的 机 
thi), UDP 层 会 忽略 掉 传输 的 失败 ， 把 它 留 给 用 户 应 用 程序 来 检测 这 个 事件 从 而 重 发 数据 。 以 
太 网 的 基本 概念 是 基于 线路 速度 比 主机 通信 能 力 快 得 多 的 假设 〈 这 种 假设 在 20 世纪 70 年 代 
中 期 以 太 网 被 开发 的 时 候 是 有 道理 的 )。 对 于 基于 冲突 的 介质 访问 控制 的 特性 已 经 作 了 很 多 
WALE, 但 是 基本 特性 是 ， 随 着 网 络 达 到 饱和 ， 交 付 的 带宽 会 急剧 下 降 ，。 

基于 环 的 局 域 网 络 ， 比 如 令 牌 环 网 和 FDDI， 使 用 了 一 种 分 布 形式 的 全 局 仲裁 机 制 来 控 
制 共享 介质 的 访问 。 当 存在 空 的 时 隙 时 ， 一 个 特殊 的 仲裁 令 牌 在 环 上 循环 移动 。 想 发 送 数据 
包 的 主机 等 待 令 牌 的 到 来 ， 获 得 令 牌 ， 然 后 把 数据 包 发 送 到 环 网 上 。 发 送出 数据 包 之 后 ， 仲 
裁 令 牌 被 交还 到 环 网 上 。 实 际 上 ， 作 为 获得 环 网 访问 的 一 部 分 ， 主 机 对 于 每 个 数据 包 都 要 执 
行 流 控 。 即 使 环 网 空闲 ， 主 机 也 必须 平均 等 待 令 牌 经 过 半 个 环 网 的 时 间 。 (这 就 是 为 什么 对 
于 FDDI 而 言 ， 无 负载 时 延 比 以 太 网 要 高 的 原因 .) 但 是 ,在 高 负荷 时 ， 可 以 使 用 链 路 的 全 
部 容量 。 再 重复 一 遍 ， 这 种 全 局 仲裁 体系 的 基本 假设 是 网 络 操作 的 时 间 要 远 远 小 于 在 主机 上 
的 通信 操作 时 间 。 

在 广域网 中 ， 每 个 TCP 连 接 (以 及 每 个 UDP 数据 包 ) 都 会 通过 一 条 从 源 到 目的 地 跨越 
不 同 速度 的 介质 的 路 径 ， 该 路 径 经 过 一 系列 的 交换 机 、 网 桥 和 路 由 器 。 由 于 nemet 是 一 个 
图 结构 ， 而 不 是 一 个 简单 的 线性 结构 ， 所 以 在 任何 一 点 上 ， 流 入 的 数据 流 集合 的 总 带宽 可 能 
比 流出 的 总 带宽 大 ， 其 结果 是 网 上 的 流量 可 能 堆积 。 广 域 网 的 路 由 器 提供 了 一定 数量 的 缓冲 
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区 来 平滑 随机 流量 的 变化 ,但 是 如 果 竞 争 情况 持续 ， 这 些 缓冲 区 将 最 终 被 填 满 。 这 时 ， 大 多 [812] 
数 路 由 器 会 简单 地 丢弃 数据 包 。 广 域 网 链 路 可 以 是 许多 英里 长 的 光纤 ， 所 以 当 数据 包 被 发 送 
到 链 路 上 时 是 很 难 预知 到 这 个 数据 包 在 到 达 另 一 端 时 ， 是 否 会 能 有 一 个 缓冲 区 来 存放 它 。 而 
且 ， 通 过 一 个 交换 机 的 数据 流通 常 是 不 相关 的 ， 一 般 来 讲 ， 它 们 不 会 是 来 自 一 个 并 行程 序 的 
数据 流 的 集合 ， 这 种 数据 流 具 有 一 个 内 在 的 端 到 端的 流 控制 约 ， 即 在 继续 执行 前 要 等 待 接收 
它 需 要 的 数据 。TCP 层 提 供 端 到 端的 流 控 ， 而 且 动 态 地 适应 该 连接 所 占用 的 路 由 的 一 些 明 显 
的 特征 。 它 假设 中 间 节 点 上 的 竞争 导致 了 数据 包 的 丢失 (通过 超时 而 被 检测 )， 所 以 一 旦 它 
经 历 一 次 数据 包 丢失 ， 就 会 急剧 减 小 发 送 速率 (通过 减 小 它 的 突 发 窗口 )， 当 数据 成 功 地 传 
输 后 (检测 到 从 目的 节点 到 源 节 点 的 确认 )， 它 会 慢 慢 增加 发 送 速 率 ( 即 增加 和 窗口 的 尺寸 )， 
直到 再 一 次 经 历数 据 丢 失 。 所 以 ， 源 节点 通过 检测 超时 和 获得 确认 信息 来 控制 每 个 数据 流 。 

当然 ,广域网 的 例子 是 以 凡 分 之 一 秒 级 的 时 间 尺 度 工 作 的 ， 而 并 行 机 网 络 上 则 是 以 纳 秒 
级 的 时 间 尺 度 工作 的 。 所 以 ， 不 能 直接 简单 地 把 这 种 流 控 技 术 运用 于 并 行 机 网 络 上 。 有 意思 
的 是 ，TCP 的 流 控 机 制 在 基于 冲突 的 仲裁 如 以 太 网 的 情况 下 确实 很 有 成 效 (部 分 原因 可 能 是 
上 层 软件 的 额外 开销 时 间 留 出 了 网 络 清空 的 时 间 )。 但 是 ， 随 着 高 速 交换 局 域 网 和 广域网 。 
(特别 是 ATM) 的 出 现 ， 流 控 问 题 已 经 呈现 出 很 多 并 行 机 网 络 的 特征 。 大 多 数 商 用 ATM 交换 
机 为 每 一 条 链 路 提供 一 个 相当 大 的 缓冲 区 (通常 每 条 链 路 上 有 64 至 128 个 码 元 的 缓冲 )， 但 
是 当 超过 这 个 数量 时 ， 它 会 丢掉 码 元 。 每 个 码 元 有 53 个 字 节 ， 所 以 对 于 155 Mbps 的 0C-3 速 
率 ， 一 个 数据 码 元 的 传输 时 间 是 2.7us。 与 传统 的 LAN/WAN 的 端 对 端 时 间 相 比 ， 缓 冲 区 会 
很 快 被 填 满 ， 当 与 ATM 设置 中 更 具有 进取 性 的 协议 (如 UDP) 竞争 时 ，TCP 机 制 就 不 大 有 
效 ， 这 提示 了 ATM 标准 化 要 包括 数据 链 路 级 流 控 和 速率 控制 的 手段 。 


10.8.2 链 路 级 的 流 控 


基本 上 所 有 并 行 机 的 互连网 络 都 提供 链 路 级 的 流 控 。 图 10-32 说 明了 基本 的 问题 。 数 据 
从 一 个 节点 上 的 输出 端口 经 过 一 条 链 路 传输 到 另 一 个 自治 地 运行 的 节点 的 输入 端口 上 。 存 储 
部 件 可 能 是 一 个 简单 的 锁 存 器 、 一 个 FIFO 或 者 一 个 缓冲 存储 器 。 链 路 可 能 或 长 或 短 ， 或 宽 
或 之 ， 或 同步 或 异步 。 关 键 的 一 点 是 ， 由 于 目的 节点 的 运行 情况 ， 目 的 节点 的 输入 端口 可 能 
没有 空闲 的 缓冲 来 接收 数据 ， 所 以 数据 必须 在 源 节 点 中 保持 ， 直 到 目的 节点 可 以 接收 为 止 。 
这 可 能 会 引起 源 节 点 缓冲 区 被 十 满 ， 进 而 抑制 它 的 源 节 点 的 发 送 。 





准备 好 


图 10-32 ” 链 路 级 的 控制 。 考 虑 目的 节点 的 一 种 情况 ， 目 的 节点 的 输入 端口 可 能 没有 缓冲 区 来 
接收 传输 过 来 的 数据 ， 源 节点 必须 保存 这 些 数据 ， 直 到 目的 节点 可 以 接收 数据 为 止 
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链 路 级 流 控 的 实现 根据 链 路 设计 的 不 同 而 各 异 ， 但 是 主要 思想 是 一 样 的 。 目 的 节点 向 源 
节点 提供 反馈 来 指示 它 是 否 能 够 接收 链 路 上 额外 的 数据 ， 源 结 节 保持 数据 直到 目的 节点 指示 
它 可 以 接收 数据 。 在 我 们 研究 这 种 反馈 是 如 何 使 用 到 交换 机 操作 中 之 前 ， 先 看 看 在 不 同 的 链 
路 中 流 控 是 如 何 实现 的 。 

短 而 宽 链 路 上 的 传输 本 质 上 类 似 于 机 器 中 的 寄存 器 传送 ， 只 是 扩展 了 一 对 控制 信和 号。 我 
们 可 以 想象 把 源 寄存 器 和 目的 寄存 器 扩展 了 一 个 “ 满 - 空 ”位 ， 如 图 10-33 所 示 。 如 果 源 满 而 
目的 地 空 ， 传 输 就 开始 ， 其 结果 是 ， 日 的 寄存 器 满 ， 源 寄存 器 空 (除非 源 会 再 从 它 自 己 的 源 
补充 到 数据 )。 在 同步 操作 中 (如 在 CRAY T3D、IBM SP-2、TMC CM-5、MIT J-machine 中 )， 流 
控 决 定 是 否 在 一 个 时 钟 周期 中 发 生 一 次 数据 传输 。 在 边缘 触发 或 者 多 相 电 平 敏感 的 设计 中 很 
容易 看 到 它 是 怎么 实现 的 。 如 果 交 换 机 的 操作 是 异步 的 ， 其 行为 很 像 是 在 自 定时 设计 中 的 寄 
存 器 传送 。 源 节点 在 缓冲 区 满 并 准备 好 传输 数据 时 激活 一 个 请 求 (req) 信和 号; 目的 节点 在 
它 的 输入 端口 可 用 时 ， 使 用 该 信号 接收 数据 ， 并 且 在 接收 到 数据 后 ， 激 活 一 个 确认 (ack). 
对 于 短 而 窗 的 链 路 ， 除 了 每 一 对 请 求 /确认 握手 信号 要 传输 一 串 物理 单元 以 外 ， 其 余 处 理 是 
类 似 的 。 


满 - 空 Ready/Ack 满 - 空 





图 10.33 简单 链 路 级 的 握手 。 源 节点 准备 发 送 一 
个 流 控 单元 时 发 出 它 的 请 求 ; 目的 节点 
在 准备 好 接收 下 一 个 流 控 单元 时 会 发 送 
一 个 流 控 单元 接收 确认 。 之 后 ， 源 节 
点 会 重复 上 述 方法 来 传送 流 控 单 元 








请 求 /确认 握手 信号 可 以 看 成 是 在 源 节点 和 目的 节点 之 间 传 送 一 个 惟一 的 令 牌 或 者 信用 。 
当 目的 节点 释放 输入 缓冲 区 后 ， 它 就 把 令 牌 送 到 源 节点 ( 即 增加 其 信用 值 )， 源 节点 在 发 送 
下 一 个 流 控 单 元 时 要 使 用 这 个 信用 ， 而 且 在 重新 获得 信用 之 前 必须 等 待 。 对 于 长 链 路 ， 这 种 
信用 机 制 可 以 被 扩展 ， 使 得 与 链 路 传播 延迟 相关 的 整个 流水 线 都 能 被 填 满 。 假 设 链 路 足够 
长 ， 同 时 可 以 有 几 个 流 控 单 元 同时 传输 ， 如 图 10-34 那样 ， 反 方向 传播 的 确认 可 能 需要 几 个 
时 钟 周期 ， 所 以 多 个 确认 〈 信 用 ) 也 可 以 处 于 正在 传送 的 状态 。 这 种 明显 的 基于 信用 的 流 控 
是 让 源 节 点 来 记录 目的 节点 的 可 用 输入 缓冲 的 数 日 。 计 数 器 值 初始 化 时 等 于 缓冲 区 的 大 小 ， 
发 送 一 个 流 控 单 元 ， 计 数 器 减 一 ， 如 果 计 数 器 达到 零 值 时 ， 给 出 阻塞 。 当 目的 节点 从 输入 组 
冲 区 移 走 一 个 流 控 单元 时 ， 它 向 源 节 点 返回 一 个 信用 ， 使 源 节点 对 计数 器 加 一。 如 此 ， 输 入 
缓冲 区 永远 不 会 溢出 ， 总 是 有 空间 来 把 链 路 上 的 数据 放 到 缓冲 区 中 。 这 种 方法 最 适用 于 宽 链 
路 ， 因 为 宽 链 路 会 留 有 专用 的 控制 线 用 于 反 向 的 确认 信号 的 传输 ， 对 于 把 确认 信号 在 反方 向 
的 信道 上 多 路 复 用 传送 的 窗 链 路 ， 可 以 通过 成 块 地 传送 信用 ， 避 免 对 每 个 流 控 单 元 发 送 确 
认 。 但 是 ， 问 题 仍然 存在 ， 这 种 方法 在 信用 令 牌 丢失 时 不 是 非常 健壮 。 

理想 的 情况 是 : 数据 流 能 向 前 平稳 地 传输 时 不 需要 流 控 。 流 控 机 制 应 该 是 一 个 征调 输入 
速率 使 其 与 输出 速率 逐渐 匹配 的 管理 者 。 链 路 上 的 传播 延迟 给 了 系统 这 样 的 动力 。 另 一 种 链 
路 级 信用 的 方法 是 把 目的 节点 的 输入 缓冲 区 看 成 是 一 个 分 级 的 容器 ， 这 个 容器 有 低 水 位 线 和 
高 水 位 线 ， 如 图 10-35 所 示 。 当 容器 的 充满 程度 低 于 低 水 位 线 时 ， 向 源 节点 发 送 CO 信号 ， 
当 容器 的 充满 程度 高 于 高 水 位 线 时 ,会 产生 STOP 信号 。 低 于 低 水 位 线 的 容量 要 足够 容 如 一 
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个 完整 的 往返 延迟 时 间 〈 这 种 往返 延迟 时 间 是 指 : GO 信号 传播 到 源 节点 ， 被 处 理 ， 直 到 随 

后 的 数据 流 的 第 一 个 流 控 单 元 传 到 目的 节点 的 时 间 总 和 )。 除 此 之 外 ， 还 必须 有 足够 的 高 于 

高 水 位 线 的 净空 高 度 来 接收 一 个 往返 时 间 内 在 途中 的 所 有 流 控 单元 。 这 种 方法 的 优点 是 : 在 

低 水 位 线 ? 以 下 时 ， 可 以 发 元 余 的 GO 信和 号; 而 在 高 水 位 线 ?S 以 上 时 ， 可 以 发 多 个 STOP 信号 

而 不 会 产生 任何 负面 影响 ， 所 以 ， 简 单 地 在 两 个 特定 的 区 域 中 周期 性 地 发 送 相应 的 信号 即 [815 
可 - 在 输入 缓冲 区 的 高 、 低 水 位 线 之 间 增 加 存储 容量 可 以 减少 流 控 信号 使 用 的 链 路 带宽 的 部 

分 。 比 如 在 Cal Tech 路 由 器 (Seitz and Su 1993) 和 随后 的 Myrinet 的 商用 产品 《Boden et al. 

1995) 中 就 使 用 了 这 种 方法 ， 在 调制 解 调 器 中 也 使 用 了 类 似 的 技术 。 








图 10-34 ”长 链 路 上 的 正在 传输 的 流 控 单元 和 确认 。 在 长 链 路 上 ， 为 了 使 链 路 填 满 ， 
流 控 机 制 应 比较 宽松 。 在 确认 返回 前 可 以 先 把 几 个 流 控 单元 发 送 到 线路 上 


进入 的 流 控 单 元 
流 控 信号 





出 去 的 流 控 单元 


图 10-35 松弛 的 缓冲 操作 。 当 充满 程度 低 于 低 水 位 线 时 ， 向 源 节 
点 发 送 GO 信和 号; 当 它 超过 高 水 位 线 时 ， 产 生 STOP 信和 号 


值得 注意 的 是 ， 主 机 和 交换 机 间 链 路 同 交 换 机 和 交换 机 间 链 路 一 样 都 使 用 链 路 级 的 流 控 。 
实际 上 ， 它 也 经 常 被 扩展 到 处 理 器 和 网 络 接口 之 间 的 界面 。 但是， 不 同 的 接口 使 用 的 技术 是 不 
同 的 ， 比 如 ， 在 Intel Paragon 中 ，175 MBps 网 络 链 路 都 是 具有 非常 小 的 流 控 单元 缓冲 的 短 链 路 ， 
而 网 络 接口 CNT) 却 有 大 的 输入 和 输出 FIFO。 通 信和 辅助 部 件 包括 一 对 允许 在 主 存 和 网 络 的 
FIFO 之 间 有 300 MBps 的 突 发 传输 的 DMA 引擎 。 一 个 基本 点 是 输出 (输入 ) 缓冲 区 
在 突 发 传输 中 间 不 能 达到 满 ( 空 ) ,因为 不 能 传输 而 占用 总 线 事务 可 能 会 导致 性 能 下 降 和 一 
址 普 在 的 死 锁 ,所 以 突 发 传输 必须 与 缓冲 区 的 中 间 区 域 相 匹配 ,而 高 低 水 位 线 必须 与 NE 与 DMA 





加 ”原文 为 高 水 位 线 。 一 一 译 者 注 
O 原文 为 低 水 位 线 。 一 一 译 者 注 
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控制 器 之 间 的 控制 信号 的 往返 时 间 相 匹配 。 
10.8.3 端 到 端的 流 控 


如 果 拥 塞 持续 ， 链 路 级 的 流 控 行使 了 一 定数 量 的 端 到 端的 流 控 。 因 为 ， 缓 冲 区 会 被 填 
满 ， 直 到 源 主 机 节点 的 数据 流 将 被 控制 ， 这 称 作 反 向 压力 作用 。 比 如 ， 如 果 堪 个 节点 向 同 
一 个 目的 节点 发 送 数据 ， 它 们 的 平均 带宽 最 终 会 降低 到 输出 带宽 的 Vk。 如 果 交 换 调度 是 公 
平 的 ， 通 过 网 络 的 所 有 路 由 是 对 称 的 ， 反 向 压力 作用 将 完全 能 做 到 这 一 点 。 问 题 在 于 当 源 节 
点 感知 到 反 向 压力 ， 并 调整 它们 的 输出 流 之 前 ， 在 树 中 所 有 从 热点 到 源 节点 的 所 有 缓冲 区 都 
已 经 被 填 满 了 。 

1. 热点 

热点 问题 在 由 成 百 上 千 个 处 理 器 构造 机 器 的 技术 出 现时 ， 引 起 了 相当 的 注意 《Pfister 
and Norton 1985)。 如 果 1 000 个 处 理 器 向 任何 一 个 目的 节点 传送 平均 超过 它们 的 网 络 流量 
0.1% 的 数据 流 ， 目 的 节点 就 已 经 饱和 了 。 如 果 这 种 情况 持续 下 去 ， 比 如 说 如 果 要 经 常 地 访 
间 一 个 重要 的 共享 变量 ， 在 该 日 的 节点 之 前 就 会 形成 一 个 饱和 树 结 攀 ， 一 直通 往 所 有 的 源 节 
点 。 这 时 ， 系 统 中 所 有 其 余 流 量 也 会 被 严重 的 阻塞 。 这 个 问题 在 蝶 状 网 中 特别 有 害 ， 因 为 到 
每 个 目的 节点 只 有 一 条 路 ， 从 一 个 目的 节点 有 大 量 的 共享 路 径 ， 自 适应 路 由 会 使 热点 问题 变 


终 ， 整 个 网 络 将 被 阻塞 。 即 使 大 的 网 络 缓冲 区 也 不 能 解决 这 个 问题 ， 它 们 也 仅仅 是 延迟 现象 
发 生 而 已 。 热 点 消除 的 时 间 与 网 络 上 缓冲 的 热点 流量 的 总 量 成 正比 ， 所 以 自 适应 算法 和 大 组 
冲 区 增加 了 在 负荷 去 除 后 热点 消除 的 时 间 。 

人 们 已 经 开发 了 各 种 不 同 的 机 制 来 缓解 热点 发 生 ， 比 如 像 第 7 章 讨 论 的 那样 ， 让 所 有 需 
要 对 共享 变量 加 一 的 节点 执行 一 个 并 行 扫描 操作 ， 或 者 在 网 络 中 实现 组 合 的 fetch&add 操作 
(Pfister et al. 1985; Gottlieb, Lubachevsky, and Rudolph 1983)。 但 是 ， 这 些 方 法 仅仅 能 够 应 付 
产生 问题 的 流量 在 逻辑 上 相关 的 情况 。 更 根本 性 的 问题 在 于 链 路 级 的 流 控 就 像 在 高 速 公 路 上 
停车 。 一 旦 交通 拥塞 形成 ， 你 就 被 钉 住 了 。 更 好 的 解决 办 法 是 在 这 个 时 候 不 上 高 速 公路 。 网 
络 中 的 数据 包 越 少 ， 正 常 的 机 制 越 能 更 好 地 使 通信 流 重 到 达 目 的 节点 。 这 也 就 是 为 什么 BBN 
蝶 状 网 在 有 冲突 时 ,拆除 由 消息 建立 的 电路 的 原因 之 一 。 

2. 全 局 通信 操作 

人 们 已 经 通过 完全 平衡 通信 模式 观察 到 简单 的 反 向 压力 的 问题 ， 完 全 平衡 通信 模式 的 例 
TH: 每 个 节点 向 其 余 各 个 节点 发 送 & 个 数据 包 。 这 种 情况 在 很 多 时 候 会 发 生 ， 包括 转 置 
一 个 全 局 矩阵 ， 在 阻塞 的 和 回路 的 布线 之 间 的 转换 ， 或 在 FFT 的 抽 选 步骤 (Brewer and Kusz- 
maul 1994; Dusseau et al. 1996)。 即 使 拓扑 结构 足够 的 健壮 以 至 于 可 以 避免 这 些 操 作 的 严重 
的 内 部 瓶颈 问题 ， 即 它 是 一 个 真正 的 胖 树 结构 而 不 是 低 维度 的 网 格 (Leignton 1992), —7S HE 
时 的 积压 也 会 有 一 个 级 连 的 效应 。 当 一 个 目的 节点 来 不 及 接收 网 络 上 的 数据 包 时 ， 开 始 形成 
积压 ， 如 果 给 了 它 优先 权 来 接收 网 络 上 的 数据 包 ， 这 个 节点 将 来 不 及 向 其 他 节点 发 送 ， 因 而 
使 那些 节点 发 送 的 会 比 接收 的 多 ， 使 积压 扩展 。 

简单 的 在 全 局 通信 路 径 上 的 端 对 端 协议 已 经 在 实际 中 缓解 了 这 个 问题 。 比 如 ， 一 个 节点 
在 发 送 一 定数 量 的 数据 后 可 以 一 直 等 待 直 到 它 收 到 同样 数量 的 数据 ;或 者 ， 它 可 以 等 待 它 发 
送 的 这 些 数据 块 的 确认 信息 。 这 些 防 范 措 施 使 处 理 器 之 间 更 加 密切 同步 ， 而 且 在 通信 流 之 各 
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插入 了 小 的 间 院 ， 这 样 减 弱 了 处 理 器 与 处 理 器 之 则 通过 网 络 交互 的 耦合 。( 有 趣 的 是 ， 这 种 
技术 也 被 用 于 高 度 繁忙 的 桥梁 上 的 计时 灯 ， 间 了 同一 个 短 的 时 间 ， 汽 车 周期 性 地 进入 桥梁 。 这 
种 方法 降低 了 随机 的 瞬时 阻塞 ， 并 避免 了 级 连 的 阻塞 。) 

3. 接纳 控制 

对 于 浅 的 直通 网 络 ， 时 延 在 达到 饱和 之 前 是 很 小 的 ， 实 际 上 ,在 大 多 数 现代 的 并 行 机 网 
络 上 ， 单 个 小 消息 〈 或 者 几 个 消息 ) 会 占据 从 源 到 目的 的 整个 路 径 ， 如 果 远 程 的 网 络 接口 没 
有 准备 好 接收 消息 ， 最 好 是 把 消息 保存 在 源 节点 的 网 络 接口 中 而 不 要 把 它 放 在 网 络 中 阻塞 网 
络 流量 。 实 现 这 种 思想 的 一 个 方法 是 执行 网 络 接口 之 间 基 于 信用 的 流 控 。 考 察 在 一 些 网 络 中 
这 种 技术 的 使 用 的 研究 (Callahan and Goldstein 1995) 表明 ， 每 对 网 络 接口 之 间 人 允许 一 个 正在 
传输 的 消息 能 产生 大 的 吞吐 量 并 维持 低 的 时 延 。 


10.9 ”案例 分 析 


从 实际 设计 和 工程 的 角度 来 看 ， 网 络 是 一 个 迷人 的 研究 领域 ， 因 为 它们 只 是 做 一 个 简 
单 的 操作 ， 即 把 信息 从 一 处 传 到 另 一 处 ， 但 是 却 有 着 不 同 设计 的 巨大 空间 。 尽 管 网 络 最 明显 
的 特征 是 它 的 拓扑 结构 、 链 路 带宽 、 交 换 策略 和 路 由 算法 ， 在 完整 地 描述 设计 时 ， 还 要 说 明 
更 多 的 特征 。 这 些 特征 包括 周期 时 间 、 链 路 宽度 、 交 换 机 缓冲 区 的 容量 和 分 配 策略 、 路 由 机 
制 、 交 换 机 输出 选择 算法 和 流 控 机 制 。 虽 然 设计 的 每 一 个 成 分 都 可 以 被 单独 地 理解 和 优化 ， 
但 是 它们 之 间 的 交互 作用 决定 了 在 特定 的 节点 结构 环境 中 ， 任 何 一 个 特定 流量 模式 下 的 网 络 
性 能 和 平台 所 运行 的 程序 中 内 嵌 的 相互 依赖 关系 。 

本 节 将 总 结 在 重要 的 商用 型 和 研究 型 的 并 行 体系 结构 中 一 些 具体 的 网 络 设计 要 点 。 使 用 
本 章 建 立 的 框架 ， 它 系统 地 勾画 了 一 些 关键 的 设计 参数 。 


10.9.1 CRAY T3D 网 络 


关节 点 和 一 对 处 理 器 直接 相连 -， 每 个 通道 的 数据 速率 是 300 MBps。 每 个 节点 在 一 个 主板 
上 ， 该 主板 上 有 两 个 处 理 顺和 存储 器 。 每 个 机 箱 里 最 多 有 128 个 节点 (256 个 处 理 器 ) ， 更 大 
的 配置 是 通过 用 电缆 线 将 机 箱 连 在 一 起 而 构成 。 使 用 维 序 、 直 通 、 数 据 包 交换 路 由 。 高 层次 
的 系统 设计 在 很 大 程度 上 影响 着 该 网 络 的 设计 。 在 一 组 单一 的 物理 链 路 上 支持 逻辑 上 独立 的 
请 求 和 响应 网 络 ， 各 自 都 有 两 个 虚 通 道 ， 以 避免 死 锁 。 数 据 包 是 变 长 的 ， 但 必须 是 16 位 的 
整数 倍 ， 如 图 10-36 所 示 ， 网 络 传输 处 理 包括 不 同 的 读 、 写 以 及 启动 远程 块 传送 引擎 (BLT) 
能 力 ，BLT 基本 上 是 一 个 DMA 设备 。 第 一 个 物理 单元 总 是 包括 路 由 ， 接 着 是 目的 地 址 ， 数 
据 包 类 型 或 命令 码 。 有 效 负载 的 其 余部 分 由 数据 包 类 型 决定 ， 包 括 相关 地 址 和 数据 。 除 了 路 
由 物理 单元 外 ， 数 据 包 的 所 有 部 分 都 由 奇偶 校 验 保护 。 如 果 路 由 损坏 ， 数 据 包 就 会 被 错误 地 
传送 ， 在 目的 节点 可 以 检测 到 错误 ， 因 为 目的 地 址 与 数据 包 中 的 值 不 匹配 s 。 








O 与 立方 体 的 边界 相连 的 专用 VO 网 关节 点 包括 两 个 处 理 器 ， 每 一 个 连接 到 一 个 与 * 和 :维度 相连 的 二 维 交 换 机 节 

O 这 种 差错 校 验 的 方法 揭示 了 网 络 的 微妙 侧面 。 如 果 路 由 被 破坏 ， 存 在 非常 小 的 概 康 ， 数 据 包 会 正好 在 错误 的 时 
刻 拐 错 方向 ， 从 而 与 另 一 个 数据 包 碰 撞 ， 导 致 网 络 的 死 锁 。 在 这 种 很 难 出 现 的 情况 下 ， 端 节点 的 差错 检测 将 不 
会 介入。 
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3 1 8 


图 10-36 CRAY T3D 包 格式 。 所 有 的 数据 包 由 一 系列 16 位 的 物理 单元 构成 ， 前 
三 个 物理 单元 是 路 由 和 标记 (Route tag)、 目 的 处 理 器 号 (Dest PE) 和 
命令 (Command) 。 数据 包 的 其 余部 分 的 解析 和 处 理由 标记 和 命令 来 决定 

T3D 链 路 是 短 而 宽 的 同步 链 路 。 每 一 个 单 向 的 链 路 的 宽度 是 16 个 数据 位 ，8 个 控制 位 ， 
时 钟 频 率 是 150 MHz， 流 控 单 元 和 物理 单元 都 是 16 位 ， 用 控制 位 中 的 两 位 来 表明 物理 单元 类 
型 (0: 没有 信息 ，01: 路 由 标记 ，10: 数据 包 ，11: 最 后 一 个 数据 包 )。 路 由 标记 物理 单 
元 和 最 后 一 个 数据 包 物 理 单元 提供 了 数据 包 的 帧 封装 。 还 有 两 位 控制 位 标明 虚 通 道 (req-hi， 
req-lo，resp-hi，resp-lo) ， 其 余 4 条 控制 线 是 反方 向 的 确认 ， 每 个 虚 通 道 一 个 。 因 此 ， 以 一 个 
个 时 钟 周期 为 基础 ， 每 个 虚 通道 和 物理 单元 的 流 控 可 以 在 虚 通道 间 交 错 重 肆 。 

交换 机 是 用 6 个 10-K 门 阵列 实现 的 ， 构 成 3 个 独立 维 的 路 由 器 。 在 每 一 个 交换 机 中 有 
少量 的 缓冲 区 〈 三 维 中 每 个 维 的 4 个 虚 通 道 分 别 有 8 个 16 位 的 包 缓存 ) ， 当 阻塞 时 ， 数 据 包 
被 压 到 缓冲 区 里 。 交 换 机 中 有 足够 的 缓冲 来 存储 小 数据 包 。 输 入 端口 根据 一 个 简单 的 运算 操 
作 决 定 希望 的 输出 端口 。 路 径 长 度 被 减 一 ， 如 果 结 果 非 零 ， 数 据 包 继续 按 当前 维 当 前 方向 传 
递 ; 否则 ， 它 就 被 送 到 下 一 维 。 每 一 个 输出 端口 对 请 求 该 输出 端口 的 输入 端口 使 用 轮转 优先 
权 ， 对 每 一 个 输入 端口 而 言 ， 也 存在 对 请 求 该 输出 端口 的 虚 通 道 的 轮转 优先 权 。 

网 络 接口 包括 了 8 个 数据 包 缓 冲 区 ， 每 个 虚 通 道 两 个 。 整 个 数据 包 在 被 传输 到 网 络 之 前 
缓冲 在 源 节 点 的 网 络 接口 中 ， 在 被 传 到 目的 处 理 器 或 存储 器 系统 之 前 ， 缓 存在 目的 节点 的 网 
络 接口 中 ， 这 种 存储 -转发 的 延迟 有 效 的 去 除了 网 络 和 节点 操作 的 耦合 。 除 了 主 数据 通信 网 
络 之 外 ， 还 提供 了 逻辑 与 (WME) AMPER (存在) 的 树 状 网 络 。 

双向 链 路 的 出 现 提 供 了 在 每 一 维 的 两 种 可 能 的 选择 ， 在 源 网 络 接口 处 执行 一 个 表 查询 来 
选择 确定 性 路 由 ， 包 括 分 别 在 三 个 维度 上 的 方向 和 距离 。 每 个 程序 都 占有 机 器 的 一 个 划分 ， 
包括 一 个 逻辑 上 连续 的 任意 形状 的 子 阵列 (在 操作 系统 配置 下 )。 在 通信 辅助 部 件 中 的 移 位 
和 屏蔽 逻辑 把 与 划分 相关 的 虚拟 节点 地 址 映射 到 一 个 全 机 范围 中 的 逻辑 < X，Y，Z > 坐标 
地 址 。 机 器 的 一 些 节 点 可 以 被 配置 为 空闲 节点 ， 它 们 可 以 代替 一 个 失效 的 节点 。 < 站， 了 ， 
Z> 用 作 路 由 查询 的 一 个 索引 ， 所 以 网 络 接口 路 由 表 提 供 了 最 后 一 层 转换 ， 通 过 从 源 节 点 的 
< +Ax，+Ay，+Az> 路 由 来 确定 物理 节点 。 这 个 路 由 查询 也 指明 了 在 4 个 虚 通 道中 使 用 
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第 
了 哪 一 个 。 为 了 在 请 求 或 者 响应 (虚拟 ) 网 络 中 避免 死 锁 ， 高 通道 用 于 穿越 回 卷 链 路 的 数据 
包 ， 而 低 通道 用 于 其 他 数据 包 。 


10.9.2 IBM SP-1, SP-2 网 络 


在 IBM SP-1 和 SP-2 并 行 机 (Abali and Aykanat 1994; Stunkel et al. 1994) 中 使 用 的 网 络 比 
CRAY 13D 的 网 络 更 为 通用 ， 但 性 能 较 低 ， 不 支持 两 阶段 的 请 求 -应 答 操作 。 它 是 包 交 换 网 
络 ， 采 用 直通 式 基于 源 路 由 ， 没 有 虚 通 道 。 交 换 机 有 8 个 双向 40 MBps 端口 ， 能 够 支持 许多 
不 同 的 拓扑 结构 ,但 是 ， 在 SP 机 中 ， 交 换 机 集合 是 在 板 上 作为 4 元 二 维 蝶 形 网 布置 的 ， 有 L820 
16 个 内 部 连接 和 与 交换 板 同 一 个 机 架 上 的 内 部 主机 相连 接 ， 到 其 他 机 架 有 16 个 外 部 连接 ， 
如 图 10-37 所 示 。 不 同 机 器 的 机 架 级 拓扑 各 异 ， 但 典型 结构 是 蝶 形 结构 的 变种 。 第 1 章 的 图 
1-23 显示 了 在 Maui 高 性 能 计算 中 心 的 IBM SP-2 的 配置 。 单 个 机 柜 在 底层 提供 连接 16 个 内 部 
节点 和 16 个 外 部 链 路 的 第 一 层 路 由 ， 额 外 的 机 柜 在 机 柜 集 合 之 间 提 供 互 连 。 这 些 额 外 层次 
的 连 线 铺设 在 机 房 地 板 下 面 。 因 为 物理 拓扑 没有 用 硬件 固定 ， 网 络 接口 通过 查 表 为 每 一 个 送 
出 的 消息 插入 路 由 。 
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图 10-37 SP 交换 机 的 封装 。 机 架 上 的 交换 机 集合 提供 16 个 内 部 端口 和 16 个 外 部 端口 之 间 的 连接 


数据 包 最 多 由 255 个 字 节 的 序列 组 成 ， 第 一 个 字 节 是 数据 包 的 长 度 ， 接 着 是 一 个 或 多 个 
字 节 的 路 由 字 节 ， 然 后 是 数据 字 节 。 每 个 路 由 字 节 包 含 两 个 3 位 的 输出 说 明 、 一 个 选择 位 。 
链 路 是 同步 的 ， 宽 生长。 单个 40 MHz 时 钟 频 率 被 送 到 所 有 的 交换 机 ， 每 个 链 路 的 延迟 调整 
为 时 钟 周期 的 整数 倍 〈 板 间 信 和 号 是 100 K ECL 差分 线 对 信号 ， 板 内 的 时 钟 树 也 是 100 K 
ECL.) 链 路 由 10 根 线 组 成 : 8 根 数据 位 ， 一 根 帧 “标记 ”控制 位 ， 一 根 反 向 流 控 位 。 因 此 ， 
物理 单元 是 一 个 字 节 ， 标 记 位 表明 长 度 和 路 由 物理 单元 。 流 控 单 元 是 两 个 字 节 ， 用 两 个 时 钟 
周期 来 指示 在 接收 缓冲 区 中 有 两 个 字 节 缓冲 可 用 。 任 何 时 候 ， 数 据 /标记 流 控 单 元 的 流 沿 着 
该 链 路 沿 一 个 方向 传播 时 ， 一 个 信用 令 牌 流 沿 相反 方向 传播 。 
交换 机 在 每 个 输入 端口 提供 了 31 个 字 节 的 FIFO 缓冲 ， 人 允许 链 路 为 16 个 流 控 单元 长 。 
除 此 之 外 ， 在 每 个 输出 端口 上 有 7 个 字 节 的 FIFO 缓冲 。 还 有 一 个 具有 128 个 8 字 节 块 的 共 [821] 
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享 中 央 队 列 。 如 图 10-38 所 示 ， 交 换 机 包括 一 个 不 缓存 的 按 字 节 串 行 的 交叉 开关 和 一 个 
128 x 64 位 的 双 端 口 RAM 作为 输入 与 输出 端口 间 的 互 连 。 当 数据 包 的 两 个 字 节 到 达 输 入 端口 
后 ,输入 端口 的 控制 池 辑 可 以 请 求 希望 的 输出 端口 。 如 果 这 个 输出 端口 可 以 使 用 ， 数 据 包 经 
过 交叉 开关 ， 直 通 到 输出 端口 ， 每 个 交换 机 的 最 小 路 由 延迟 是 $ 个 时 钟 周期 。 如 果 该 输出 端 

口 此 时 不 能 使 用 ， 数 据 包 将 进入 输入 的 FIFO 中 。 如 果 输 出 端口 仍旧 阻塞 ,数据 包 就 会 按 8 
字 节 的 块 装 人 中 央 队 列 。 因 为 中 央 队 列 在 每 个 时 钟 周期 只 能 接收 一 个 8 字 节 的 输入 和 一 个 8 
字 节 的 输出 ， 其 带宽 与 交换 机 8 字 节 串 行 的 输入 及 输出 端口 相 匹配 。 在 内 部 ， 中 央 队 列 被 组 
织 成 8 个 FIFO 链表 ， 每 个 输出 端口 一 个 ， 为 链 路 使 用 了 一 个 辅助 的 128 位 x 7 位 的 RAM. 
为 每 一 个 输出 端口 保留 有 一 个 8 Sts, 因此 ， 当 负载 小 时 ， 交 换 机 工作 在 字 节 串 行 模 
式 ; 而 当 况 争 发 生 时 ， 它 利用 中 央 队 列 来 时 分 复 用 这 些 8 字 节 的 块 ， 此 时 以 输入 作为 串 行 变 
并 行 ， 以 输出 作为 并 行 变 串 行 的 部 件 。 
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图 10-38 IBM SP (Vulcan) 交换 机 设计 。IBM SP 的 交换 机 为 无 缓冲 数据 包 能 直接 从 输入 
端口 传送 到 输出 端口 使 用 了 交叉 开关 ， 但 是 所 有 的 缓冲 数据 包 被 分 流 到 一 个 
公共 存储 器 池 中 。 由 仲裁 逻辑 调度 流 控 单元 对 中 央 队 列 RAM 的 进入 和 流出 

每 个 输出 端口 基于 LRU 算法 对 到 来 的 请 求 进行 仲裁 ， 中 央 队 列 中 的 块 的 优先 权 比 输入 
FIFO 中 字 节 的 优先 权 要 高 。 中 央 队 列 按 LRU 顺序 为 输出 端口 服务 。 对 那些 以 未 阻塞 输出 端 
口 为 目的 的 输入 ， 中 央 队 列 给 予 优先 权 。 

SP 网 络 有 三 个 特殊 的 方面 。 第 一 ， 由 于 其 操作 是 全 局 同步 的 ， 不 是 每 个 数据 包 的 封装 
都 带 有 一 个 CRC 信息 ， 而 是 将 时 间 划分 成 个 周期 大 小 的 “ 帧 ”。 每 一 个 帧 的 最 后 两 个 物 
理 单元 携带 CRC。 输入 端口 检查 CRC, 而 输出 端口 产生 CRC (在 去 入 使 用 的 阮 由 物理 单元 
后 计算 得 到 的 )。 第 二 ， 交 换 机 由 单个 芯片 组 成 ， 每 一 个 交换 芯片 被 另 一 个 完全 相同 的 交换 
芯片 遮蔽 ， 引 脚 是 双向 V0 引 脚 ， 所 以 其 中 一 个 芯片 仅仅 是 检查 一 下 另 一 个 芯片 的 操作 (这 
可 能 会 检测 到 交换 机 错误 ， 但 不 是 链 路 错误 )。 最 后 ， 这 种 交换 机 支持 一 种 用 于 各 种 诊断 用 
途 的 电路 交换 “服务 模式 ”。 在 改变 模式 之 前 ， 网 络 腾空 它 上 面 的 所 有 数据 包 。 
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10.9.3 可 扩展 一 致 性 接口 


可 扩展 一 致 性 接口 (Scalable Coherent Interface) 提供 了 高 性 能 互 连 的 一 个 良好 的 案例 ， 
因为 它 是 经 过 标准 化 的 过 程 之 后 出 现 的 ， 而 不 是 作为 专用 的 设计 和 学 术 的 建议 出 现 的 。 它 的 
标准 化 过 程 经 历 了 相当 长 的 一 段 时 间 ， 当 其 实现 工作 开始 时 获得 了 青睐 。 一 些 厂商 已 经 采用 
了 它 ， 尽 管 在 许多 情况 下 只 遵循 了 它 的 部 分 规范 。 完 整 的 SCI 规范 用 于 HP/Convex 的 Exem- 
plar 和 Sequent 的 NUMA-Q PLAJ H.E- CRAY SCX 的 VO 网 络 在 很 大 程度 上 也 是 建立 在 SCI 基 
础 上 的 。 

SCI 设计 的 一 个 关键 元 素 是 它 建立 在 称 之 为 小 环 (ringet) 的 单 向 环 的 概念 上 ， 而 不 是 
建立 在 双向 链 路 上 。 小 环 由 交换 机 相连 从 而 形成 大 的 网 络 。SCI 的 规范 定义 了 三 层 : 物理 
层 、 数 据 包 层 、 事 务 层 。 物 理 层 被 规定 成 两 个 1 GBpS 的 形式 。 数 据 包 由 16 位 单元 的 序列 组 
成 ， 很 像 CRAY TD 的 数据 包 。 如 图 10-39 示 ， 所 有 的 数据 包 包括 一 个 目标 ID (TargetID) . 
命令 (Command), W ID (SourcelD) , 随后 是 零 个 或 者 更 多 的 由 命令 规定 的 单元 ,最 后 是 一 
个 32 位 的 CRC。 一 个 特殊 的 方面 是 源 和 目标 ID 是 任意 的 16 位 的 节点 地 址 。 数 据 包 不 含 路 
由 。 从 这 个 意义 上 说 ， 该 设计 像 一 条 总 线 : 源 把 目标 地 址 放 在 互 连 机 构 上 ， 由 互 连 机 构 决 定 
如 何 把 信息 放 到 正确 的 地 方 。 在 环 中 ， 这 个 任务 实现 起 来 很 简单 ， 因 为 数据 包 沿 环流 动 而 目标 
可 以 抽取 数据 包 。 一 般 情 况 下 ， 交 换 机 使 用 表 驱 动 路 由 把 数据 包 从 一 个 环 传递 到 另 一 个 环 上 。 





请 求 
o- Luar [Ser [Phase Tors] ecno [eh] ca | 
z ra k 2 7 
通用 数据 包 格 式 ae SE, 2 a ae 
se [uar | Sor [Phase [Old] Echi | Bsy [Rost] Trans 1D] 
ounan 2 2 2 1 1 1 1 6 





Address 
_ Status 
(0 ZPR GFW 
Ext 
(O~ 16 =F Hi) 






RY, 
a % | War [ Spr [Phase Jord] Echo | eh [cmd | 
; x 2 2 2 1 i il 7 
x 


响应 回答 
~ 
S 2 2 2 1 1 1 1 6 







`~ 
数据 S 
(OF Wak 16 字 节 ) a 控制 
À Tod mantissa [Tor | Trans ID 
2 5 2 2 6 


图 10-39 ”SCI 数 据 包 格式 。SCI 操作 包括 一 对 事务 : 一 个 请 求 和 一 个 响应 。 由 于 其 基于 环 的 支撑 
基础 ， 每 一 个 事务 包括 从 源 节点 向 目标 节点 运输 一 个 数据 包 ， 从 目标 节点 向 源 节 点 返回 
一 个 回答 〈 这 个 回答 沿 环 中 数据 包 未 走 完 的 路 径 回 答 源 节点 )。 所 有 的 数据 包 由 一 系列 
的 16 位 的 单元 组 成 ， 前 三 个 单元 指示 目的 节点 ， 命 令 和 源 节点 ， 最 后 一 个 单元 是 CRC. 
请 求 包括 一 个 6 字 节 地 址 、 选 项 扩展 和 选项 数据 。 响 应 有 相同 的 格式 ， 但 地 址 部 分 携带 
的 是 状态 信息 。 两 种 回答 包 都 只 包含 最 少 的 4 个 单元 。 命 令 单元 通过 phase 和 ech 域 表 
明 数 据 包 的 类 型 。 它 还 描述 了 要 执行 的 (请 求 cmd) 或 匹配 的 (trans id) 操作 。 其 余 域 和 
控制 单元 涉及 低层 的 问题 ， 比 如 ， 如 何 让 数据 包 排 队 以 及 在 数据 包 层次 处 理 重 传 的 问题 


一 次 SCI 事务 ， 比 如 读 或 写 ， 包 括 两 个 网 络 事务 (请 求 和 相应 )， 在 每 个 小 环 上 每 个 操 
作 都 分 成 两 个 阶段 ， 让 我 们 一 步 一 步 地 来 看 。 源 节点 向 目标 节点 发 出 一 个 请 求 数据 包 ， 这 个 
请 求 数据 包 在 源 小 环 上 环绕 移动 。 如 果 目 标 节 点 和 源 节 点 在 同一 个 环 上 ， 目 标 节点 将 会 从 环 
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节点 ， 在 那里 源 节点 把 它 取消 。 回 答 数据 包 的 目的 是 通知 源 节 点 数据 原始 包 或 者 已 被 目的 节 
点 接收 到 ， 或 者 被 拒绝 接收 ;对 后 一 种 情况 ， 回 答 数 据 包 中 包含 NACK。 被 拒绝 接收 的 原因 
或 者 是 因为 缓冲 区 已 满 ， 或 者 是 因为 数据 包 已 经 被 破坏 。 在 源 节 点 对 正在 传送 的 数据 包 维持 
一 个 计时 器 ， 这 样 它 就 可 以 检测 到 回答 数据 包 是 否 委 失 或 损坏 。 如 果 目 标 节 点 与 源 节点 不 在 
同一 个 小 环 上 ， 环 中 的 交换 节点 充当 目标 节点 代理 的 角色 ， 交 换 节点 接收 数据 包 并 在 它 成 功 
地 缓冲 该 数据 包 后 发 送 回答 数据 包 。 因 此 ， 回 答 数据 包 只 是 告诉 源 节 点 数据 包 成 功 地 离开 了 
该 小 环 ， 交 换 节 点 会 沿 着 通 往 目标 节点 的 路 由 向 另外 一 个 环 启动 这 个 数据 包 的 发 送 。 在 接收 
到 请 求 后 ， 目 标 节 点 将 开始 一 次 响应 事务 。 在 返回 源 节点 的 路 径 上 ， 这 也 将 在 每 个 小 环 上 在 
一 个 数据 包 阶 段 和 一 个 回答 阶段 。 请 求 回答 数据 包 把 分 配给 这 次 事务 的 事务 ID (Trans ID) 
通知 源 节点 ， 它 被 用 来 与 最 终 的 响应 匹配 ， 这 很 像 一 条 事务 拆 分 型 总 线 。 

在 SCI 中， 各 层次 没有 明确 的 封装 ， 它 们 在 数据 包 格式 上 有 些 模糊 ， 用 几 个 域 控制 队 
列 管理 和 重 传 机 制 。 控 制 tpr (事务 优先 权 ) 、 命 令 mpr (最 大 环 优先 权 ) 和 命令 spr (发 送 优 
先 权 ) 一 起 决定 了 数据 包 的 4 种 优先 级 别 之 一 。 事 务 优先 权 最 初 由 请 求 者 设置 ， 但 是 实际 的 
发 送 优先 权 则 是 由 沿路 由 的 节点 根据 它们 队列 中 其 他 被 阻塞 的 事务 而 建立 的 。 阶 段 (Phase) 
和 忙 (Bsy) 域 作为 源 节 点 和 目标 节点 之 间 流 控 协商 的 一 部 分 来 使 用 。 

在 Sequent 的 NUMA-Q 机 中 ，18 位 宽 的 SCI HERE (DetaPump) 以 1 GBps 的 结 点 到 
网 络 的 带宽 在 四 芯 线 中 直接 驱动 ， 节 点 到 网 络 的 带宽 为 1 GBps。 传 输 层 严格 地 遵循 请 求 - 应 
答 协 议 ， 当 数据 泵 把 一 个 数据 包 放 到 环 网 上 ， 它 在 对 该 数据 包 的 回答 返回 之 前 ， 一 直 在 自己 
的 输出 缓冲 中 保留 着 该 数据 包 的 副本 。 当 数据 泵 发 现 环 网 上 有 进入 的 数据 包 时 ， 它 取 走 该 数 
据 包 ， 并 发 出 一 个 肯定 回答 包 。 如 果 数 据 泵 检测 环 网 上 有 一 个 目标 地 址 是 自己 的 数据 包 ， 但 
它 却 没有 空间 取 走 该 数据 包 时 ， 它 会 发 送 一 个 否定 回答 包 ， 这 样 发 送 者 将 会 尝试 重新 传送 该 
数据 包 (发 送 者 此 时 会 在 输出 缓冲 保存 着 这 个 数据 包 的 副本 )。 

因为 在 环 网 上 通信 的 时 延 随 着 网 上 节点 数目 的 增加 而 线性 增长 ， 我 们 期 望 通过 以 任意 的 


“网 络 拓扑 互 连 较 小 的 环 的 方法 来 构造 大 型 高 性 能 的 SC 系统。 比如， 性 能 研究 表明 单个 环 能 


够 有 效 地 支持 4 到 8 个 高 性 能 处 理 节点 (Scott, Vernon, and Goodman 1992), 


10.9.4 SGI BY Origin 网 


SGI 的 Origin 网 是 以 一 个 被 称 为 SPIDER 的 灵活 的 交换 机 为 基础 的 ， 该 交换 机 支持 6 对 单 
向 链 路 ， 每 对 链 路 在 两 个 方向 上 提供 1.56 GBps 以 上 的 总 带宽 。 每 个 交换 机 连接 两 个 节点 
(4 个 处 理 器 ) ， 所 以 总 共有 4 对 链 路 连 到 其 他 交换 机 上 。 这 种 构造 模块 用 一 种 与 超 立 方 体 相 
关 的 拓扑 结构 系列 组 织 到 一 起 ， 如 图 10-40 所 示 。 链 路 是 柔性 的 (长 而 宽 ) 最 多 可 达 3 m 长 
的 缆 线 。 消 息 以 流水 方式 通过 网 络 ， 从 引 脚 到 引 脚 通过 路 由 器 本 身 的 时 延 是 41 ns。 路 由 是 
表 驱 动 的 ， 所 以 作为 网 络 初始 化 的 一 部 分 ， 在 每 个 交换 机 中 建立 路 由 表 。 这 就 介 许 路 由 是 可 
编程 的 ， 所 以 它 可 能 支持 各 种 不 同 的 配置 ， 可 以 形成 部 分 使 用 的 网 络 ( 即 不 是 使 用 所 有 的 端 
口 )， 以 及 绕 过 失效 部 件 的 路 由 。 路 由 器 是 分 别 供电 的 ， 并 且 通 过 硬件 的 错误 重 传 机 制 来 对 
每 一 条 链 路 提供 错误 保护 ， 所 以 也 提高 了 可 用 性 。 交 换 机 为 请 求 和 应 答 提供 了 分 离 的 虚 通 
道 ， 并 且 以 数据 包 寿 命 方 式 支持 256 个 级 别 的 消息 优先 权 。 
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a)2 节点 DATA c)8 节点 d) 16 节点 e)32 节点 





f) 64 节点 


图 1040 在 SGI Origin 多 处 理 器 系统 中 的 网 络 拓扑 和 路 由 器 之 间 的 连接 。 超 立方 体 结构 用 于 最 多 32 个 节点 
的 情况 ， 如 a) ~ e) ， 超 过 这 个 范围 之 后 则 使 用 了 一 个 胖 树 变形 结构 。d) -~ f) 的 配置 为 简化 起 
见 只 显示 了 路 由 器 ， 省 略 了 每 个 路 由 器 上 连接 的 两 个 节点 。 配 置信 也 只 显示 了 跨 过 超 立 方 体 的 
一 部 分 胖 立方 体 连 接 ， 连 接 16 个 节点 的 子 立 方 体 的 路 由 器 被 称 为 元 路 由 器 。 对 于 一 个 512 节点 
(1 024 个 处 理 器 ) 的 配置 而 言 ， 每 个 元 路 由 器 本 身 将 被 一 个 五 维 的 路 由 器 超 立 方 体 结构 所 代替 


10.9.5 Myricom 网 络 


作为 最 后 一 个 研究 的 例子 ， 我 们 简略 地 考察 一 下 在 一 些 机 群 系统 中 使 用 的 Myricom 网 络 
(Boden et al. 1995)。 在 第 7 章 7.7 节 描 述 了 网 络 接口 卡 中 的 通信 辅助 部 件 ， 这 里 我 们 关心 的 
古 用 于 构造 一 个 可 扩展 互连网 的 交换 机 。 或 许 其 设计 中 最 有 趣 的 侧面 是 它 的 简单 性 。 基 本 的 
构造 块 是 一 个 具有 8 个 双向 端口 的 交换 机 ， 每 个 端口 为 160 MBps。 物 理 链 路 是 9 位 宽 的 长 
线 ， 最 长 可 达 25 m， 最 多 可 同时 传送 23 个 物理 单元 。 编 码 方式 允许 控制 流 、 帧 符号 及 “ 间 
E (RAW) 符号 与 数据 符号 交错 传输 。 信 号 不 间断 地 在 跨越 链 路 两 端的 交换 机 之 间 传 输 ， 
所 以 交换 机 可 以 判断 它 的 哪些 端口 处 于 连接 状态 。 一 个 数据 包 不 过 是 一 串 路 由 字 节 ， 后 跟 一 
系列 有 效 负载 字 节 和 一 个 CRC 字 节 。 数 据 包 的 结尾 由 间隔 符号 的 出 现 而 被 分 界 ， 而 一 个 数 
据 包 的 开始 则 由 一 个 非 间隔 符号 来 指示 。 

交换 机 的 操作 非常 简单 : 它 将 接收 到 的 数据 包 的 第 一 个 字 节 去 掉 ， 然 后 把 路 由 字 节 的 
内 容 加 上 输入 端口 号 计算 出 输出 端口 号 ， 向 那个 端口 传送 数据 包 的 其 余部 分 。 交 换 机 使 用 每 
个 输入 和 输出 端口 上 少量 的 缓冲 来 实现 虫 孔 (wormhole) 路 由 。 通 过 一 个 交换 机 的 路 由 延迟 
小 于 500 ns。 交 换 机 可 以 连接 成 一 个 任意 的 拓扑 结构 。 构 造 网 络 物理 互 连 接 上 的 有 效 路 由 是 
主机 通信 软件 的 责任 。 如 果 一 个 数据 包 试图 从 一 个 无 效 或 未 连接 的 端口 上 走出 来 ， 它 就 会 被 
丢弃 。 当 所 有 的 路 由 字 节 都 被 用 完 之 后 ， 数 据 包 就 应 该 到 达 一 个 网 络 接 口 卡 (NIC) 了 。 消 
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息 的 第 一 个 字 节 中 有 一 位 指示 它 不 是 一 个 路 由 字 节 ， 其 余 位 指明 数据 包 的 类 型 ， 所 有 更 高 层 
次 的 数据 包 的 格式 形成 和 处 理 都 由 网 络 接口 卡 和 主 桃 来 完成 ， 互 连 网 络 仅仅 传送 这 些 位 而 已 。 


10.10 结论 


并 行 计算 机 网 络 呈 现 了 一 种 综合 了 几 个 设计 层次 的 丰富 而 多 样 的 设计 空间 。 物 理 链 路 层 
问题 代表 了 在 计算 机 设计 中 最 有 意思 的 电气 工程 方面 的 问题 。 为 了 跟 上 不 断 增长 的 处 理 器 速 
率 ， 人 们 进行 了 不 懈 的 努力 ， 使 链 路 的 速率 也 一 直 在 改善 。 目 前 ， 我 们 已 经 看 到 在 钢 绞 线 上 
的 多 吉 比 特 的 传输 速率 ， 在 不 远 的 将 来 ， 并 行 光 纤 技 术 为 每 条 链 路 提供 多 吉 比 特 的 传输 速率 
也 将 成 为 可 能 。 在 这 样 的 速率 下 ， 主 要 问题 之 一 是 错误 的 处 理 。 如 果 物 理 介质 误 码 率 是 每 位 
10°", 数据 以 每 秒 10? 字 节 的 速率 传送 ， 那 么 大 概 每 十 分 钟 链 路 上 就 会 出 现 -- 次 错误 。 因 为 
机 器 中 有 儿 千 条 链 路 ， 所 以 每 秒 钟 都 会 出 现 错误 。 这 些 错误 都 必须 能 够 被 迅速 地 检测 和 
纠正 。 

交换 机 到 交换 机 层 的 设计 也 提供 了 一 系列 丰富 的 折 中 ,包括 如 何 将 问题 的 一 些 侧面 下 
推 到 物理 层 和 上 椎 到 数据 包 层 。 比 如 ， 流 控 可 以 内 置 在 链 路 上 数字 符号 的 交换 之 中 ， 或 由 与 
链 路 上 的 数据 包 相 关 的 上 一 个 层次 来 解决 ， 或 者 由 与 端 到 端 发 送 的 消息 相关 的 更 高 一 层 来 实 
现 。 交 换 机 本 身 的 设计 就 有 巨大 的 选择 空间 ， 它 们 也 受到 下 层 的 工程 的 约束 和 上 层 的 设计 需 
求 的 限制 。 

即使 是 基本 的 拓扑 结构 、 交 换 策略 、 路 由 算法 都 体现 了 下 层 的 工程 需求 和 上 层 的 设计 需 
求 之 间 的 折 中 。 比 如 ， 我 们 已 经 看 到 了 一 些 基 本 的 问题 ， 像 交换 机 的 度 ， 是 如 何 严重 地 依赖 
于 与 目标 技术 相关 的 成 本 模型 以 及 目标 工作 负载 通信 模式 的 特征 。 最 后 。 和 体系 结构 的 很 多 
其 他 方面 一 样 ， 关 于 应 该 把 节点 到 节点 通信 抽象 的 多 少 高 层 语义 欢 人 到 网 络 本 身 的 硬件 设计 
之 中 还 有 相当 大 的 争论 空间 。 并 行 计算 机 网 络 设计 的 整个 领域 注定 是 未 来 许多 年 令 人 兴奋 的 
话题 。 特 别 是 在 并 行 计算 机 网 络 和 不 断 进步 的 可 扩展 局 域 网 和 系统 域 网 之 间 有 着 概念 和 技术 
上 的 密切 联系 和 相互 影响 。 


习题 


10.1 一 个 数据 包 的 格式 是 10 个 字 节 的 路 由 及 控制 信息 ，6 个 字 节 的 CRC 校 验 和 其 他 旦 部 
信息 ， 有 效 负载 包含 一 个 64 字 节 高 速 缓存 块 ， 同 时 有 8 个 字 节 的 命令 及 地 址 信息 。 
如 果 原 始 链 路 带宽 是 500 MBps， 用 这 种 格式 高 速 缓存 块 传输 的 有 效 数据 带宽 是 多 少 ? 
如 果 高 速 缓存 块 为 32 字 节 、128 字 节 、4 KB 页 的 传输 ， 其 有 效 数 据 带宽 又 分 别 是 
多 少 ? 

10.2 假设 链 路 是 1 字 节 宽 ， 在 频率 为 300 MHz 网 络 上 ， 对 P 个 节点 该 网 络 的 节点 闻 平 均 路 
由 距离 为 log, P， 假 设 每 一 跳 由 4 个 时 钟 周 期 的 延迟 来 决定 路 由 ，P 的 范围 是 
16~ 1 024 个 节点 ， 试 比较 在 存储 -转发 方式 路 由 和 直通 路 由 下 ，80 字 节 的 数据 包 的 无 
负载 时 延 。 

10.3 针对 分 片 成 1 KB 数据 包 的 32 KB 传输 的 情况 做 习题 10.2 中 的 比较 。 

10.4 作为 一 种 常见 的 页 尺寸 的 传输 ， 基 于 下 面 的 假设 ， 找 出 一 个 为 8 KB 消息 分 片 的 优化 
策略 。 设 每 个 分 片 有 一 个 固定 的 。 个 时 钟 周期 的 额外 开销 ， 通 过 源 和 目的 地 的 网 络 搂 
口 有 一 个 存储 转发 的 延迟 ， 数 据 以 直通 经 过 网 络 时 有 R 个 时 钟 周期 的 路 由 延迟 ， 数 
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10.6 


10.7 


10.8 


10.9 


10.10 


10.20 
10.21 
10.22 


据 传 输 速 率 为 每 个 时 钟 周期 B 个 字 节 ， 

假设 一 个 nx n 的 双 精 度数 的 矩阵 按 行 被 安排 在 己 个 节点 上 ， 为 了 对 列 计算 ， 我 们 希 
望 将 它 转 置 ， 按 列 分 布 ， 在 这 个 操作 中 有 多 少数 据 穿 过 对 分 面 ? 

考虑 一 个 二 维 花环 构成 的 直接 网 络 ， 具 有 N 个 节点 ， 链 路 带宽 每 秒 5 个 字 节 。 请 计 
算 对 分 面 带 宽 和 平均 路 由 距离 。 比 较 采 用 式 (10-6) 估计 的 聚合 通信 带宽 和 基于 对 分 
面 的 估计 带宽 。 此 外 ， 假 设 每 个 节点 仅 与 相隔 两 跳 的 节点 通信 ， 那 么 可 用 的 带宽 是 多 
少 ? 如 果 每 个 节点 仅 与 同一 行 中 的 节点 通信 又 将 如 何 ? 

试 说 明 如 何 把 一 个 w 节点 的 花环 做 人 在 一 个 六 节点 的 超 立 方 体 中 ， 使 这 个 花环 中 相 
邻 的 节点 〈 即 距离 为 1 的 节点 ) 也 是 超 立 方 体 中 相 邻 的 节点 。 (提示 : 考虑 当 这 些 地 
址 按 万 莱 码 顺序 排列 时 的 情况 。) 将 这 种 所 人 方法 推广 到 更 高 维 的 网 格 的 情况 。 

针对 超 立 方 体 网 络 分 析 式 (10-6). 在 最 后 一 步 中 ， 考 虑 行 是 由 网 格 到 超 立 方 体 的 葛 
莱 码 映射 定义 的 ， 并 按 此 处 理 ， 

计算 一 个 NN 个 节点 的 线性 阵列 的 平均 距离 (假设 N 是 偶数 )， 计 算 一 个 有 N 节点 的 
二 维 网 格 和 二 维 花 环 的 平均 距离 。 

对 于 所 感 兴 趣 的 工作 负载 和 特定 的 网 络 拓扑 ， 通 过 决定 每 个 数据 包 经 过 的 通道 的 平 
均 数 hoe ， 能 得 到 对 通信 时 间 的 比较 精确 的 估计 。 有 效 的 聚合 带宽 最 大 为 





假设 程序 调度 把 处 理 器 作为 Vp xv p 的 逻辑 网 格 处 理 ， 每 个 节点 与 4 个 方向 和 对 角 线 
方向 的 8 个 相 邻 节点 交换 n 个 字 节 的 数据 。 请 给 出 网 格 和 超 立 方 体 上 的 通信 时 间 的 
估计 值 。 

说 明 如 何 把 一 个 NW 节点 树 的 一 边 伸展 穿 过 超 立 方 体 的 两 条 边 ， 将 这 个 NN 节点 树 嵌 人 
到 一 个 N 节点 的 超 立 方 体 中 去 。 

运用 电子 表格 建立 图 10-12 的 比较 ， 其 设计 出 发 点 是 10 个 周期 的 路 由 延迟 和 16 位 宽 
的 链 路 。 将 这 个 比较 扩展 到 1 024 字 节 的 消息 的 情况 。 你 能 得 出 什么 结论 ? 

试验 证 在 图 10-14 中 当 路 由 延迟 等 于 通道 时 间 时 ， 在 相等 引 脚 的 尺度 下 能 达到 最 小 的 
WHE, 

在 基于 式 (10-7) 的 相等 对 分 面 尺度 下 ， 试 推导 出 能 实现 最 小 时 延 的 维度 公式 。 

在 相等 对 分 面 尺度 规则 下 ， 具 有 100 万 个 节点 的 二 维 网 格 的 链 路 应 有 多 宽 ? 

对 于 相等 引 脚 和 相等 对 分 面 两 种 情况 ， 像 图 10-17 中 所 示 的 那样 ， 对 尺寸 大 约 相同 的 
二 维和 三 维 立方 体 的 有 负载 行为 进行 比较 。 

设 二 维 网 格 采用 Ax, Ay 路 由 ， 试 说 明 用 于 在 交换 机 中 计算 路 由 函数 的 布尔 逻辑 ， 
如 果 采 用 Ax, Ay 路 由 ， 决 定数 据 包 头 中 的 距离 计数 值 对 数据 包 尾 中 的 CRC 有 什么 
效应 ? 如 何在 交换 机 的 设计 中 处 理 这 个 问题 ? 

试 说 明 在 超 立 方 体 维 序 路 由 的 交换 机 中 计算 路 由 函数 的 布尔 逻辑 。 

试 证 明 在 超 立方 体 中 的 e- 立 方 体 路 由 是 免 死 锁 的 。 

在 二 维 网 格 上 建立 基于 表 的 Ax, Ay 路 由 的 等 价 方法 。 

说 明 如 果 人 允许 图 10-24 所 禁止 的 折 转 对 ， 那 么 将 导致 复杂 的 回路 。( 提 示 ; 它们 看 起 
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来 像 8 字形 。) 

说 明 如 果 具 有 两 个 虚 通 道 ， 可 以 使 双向 网 络 中 的 任意 路 由 免 死 锁 。 

挑选 本 章 中 的 任 一 个 流 控 方 案 ， 计 算 流 控 符 号 所 占用 的 带宽 部 分 。 

WP EAE BE EHH, ER 10-14 的 时 延 估计 值 。 

R 10-1 提供 了 几 个 重要 的 设计 的 拓扑 结构 和 它们 的 基本 通信 性 能 特征 的 估计 。 试 对 
每 一 种 设计 计算 在 16 节点 和 1 024 节点 配置 下 ， 长 度 为 40 字 节 和 160 字 节 的 消息 的 
网 络 时 延 。 时 延 中 路 由 延迟 和 通道 占用 度 各 占 多 大 比例 ? 


第 11 章 ， 时 延 的 包容 


从 第 1 章 我 们 看 到 ， 微 处 理 器 的 速度 每 10 年 增长 十 倍 以 上 ， 而 常用 存储 器 (DRAM) 的 
访 存 时 间 却 只 缩短 到 原来 的 一 半 。 因 此 ， 相 对 于 处 理 器 来 说 ,， 访 存 时 延 在 以 每 10 年 5 倍 的 
速度 增长 ! 多 处 理 器 系统 可 大 大 加 速 程 序 的 执行 ， 但 在 基于 总 线 的 系统 中 ， 其 侦 听 却 使 得 时 
延 增 加 。 在 分 布 式 存储 系统 中 ， 访 问 一 个 节点 的 局 部 存储 器 的 时 间 必 须 包 括 网 络 时 延 、 网 络 
接口 和 终点 处 理 时 间 。 高 速 缓存 有 助 于 减少 长 时 延 访 存 的 次 数 ， 但 它们 也 并 不 是 万 能 的 : 它 
不 能 减少 固有 的 通信 ， 而 且 由 于 其 他 一 些 原因 所 导致 的 程序 扑 空 率 也 相当 明显 。 当 节点 增多 
时 ， 相 对 于 计算 而 言 通信 会 增多 ， 普 通通 信 的 网 络 转 接 增加 ， 网 络 竞争 也 可 能 增加 。 

前 几 章 所 开发 出 来 的 若干 协议 的 目标 是 减 小 长 时 延 事件 的 频率 和 对 通信 介质 带宽 的 要 
求 ， 同 时 提供 方便 的 编程 模型 。 硬 件 设计 的 基本 目标 是 ， 在 减 小 数据 访问 时 延 的 同时 保持 高 
度 的 可 扩展 带宽 。 通 常 可 通过 增加 硬件 改进 带宽 (如 ， 用 更 宽 的 链 路 或 更 丰富 灵活 的 拓扑 ) ， 
但 时 延 是 更 基本 的 限制 。 

到 目前 为 止 ， 我 们 已 经 看 到 三 种 在 多 处 理 器 系统 中 减少 数据 访问 时 延 的 方法 一 一 -前 两 种 
的 实施 是 系统 的 责任 ， 第 三 种 要 由 应 用 来 负责 。 

。 减 小 扩展 存储 结构 中 每 层 的 访问 时 间 。 这 要 求 十 分 注意 具体 的 细节 ， 以 使 得 访问 路 

径 中 的 每 一 步 都 有 很 高 的 效率 。 处 理 器 与 缓存 间 的 接口 可 以 非常 紧密 ， 缓 存 控制 器 
在 扑 空 时 需要 快速 反应 以 减 小 进入 下 一 层 的 开销 。 网 络 接口 可 与 节点 紧密 耦合 并 通 
过 设计 能 够 快速 规格 化 、 传 送 以 及 处 理 网 络 事务 。 网 络 本 身 也 可 以 通过 设计 来 减 小 
路 由 时 延 、 传 送 时 间 及 拥塞 时 延 。 通 过 仔细 设计 ， 可 以 做 到 不 过 多 地 超过 工艺 的 内 
在 时 延 。 不 过 ， 正 是 这 些 累 计 的 开销 才 使 得 数据 访问 得 以 顺利 进行 。 

。 重组 系统 以 减 小 长 时 延 访问 的 频率 。 这 是 自动 复制 的 基本 工作 ,例如 在 缓存 技术 里 
利用 程序 访问 的 时 间 和 空间 的 局 部 性 使 最 重要 的 数据 靠近 其 被 使 用 的 处 理 器 。 我 们 
可 以 通过 剪裁 负 器 结构 使 得 复制 更 为 有 效 ， 例 如 每 个 节点 保持 一 定数 量 的 存储 。 
重组 应 用 以 减 小 长 时 延 访问 的 频率 。 其 中 包括 分 解 并 分 配 计 算 给 菜 些 处 理 器 以 减 小 
内 在 的 通信 ， 重 建 访问 模式 以 增加 时 间 和 空间 的 局 部 性 。 

除数 据 访 问 和 通信 外 ， 还 有 其 他 潜在 的 长 时 延 事件 ， 如 同步 等 ， 也 可 以 用 类 似 的 办 法 来 
处 理 。 这 些 为 减 小 时 延 而 在 系统 和 应 用 方面 的 努力 会 有 效果 ， 但 往往 还 不 够 。 本 章 将 讨论 克 
服 剩余 时 延 的 另 一 种 方法 : 包容 剩余 时 延 ， 即 通过 与 计算 或 者 其 他 长 时 延 事 件 的 重 委 来 隐藏 
来 自 处 理 器 关键 路 径 上 的 时 延 。 基 本 思路 是 : 在 长 时 延 事件 处 理 过 程 中 ， 人 允许 处 理 器 做 其 他 
有 用 的 工作 ， 如 数据 访问 及 通信 等 。 事 实 上 ， 时 延 包 容 的 关键 是 利用 并 行 性 ， 重 要 的 行为 必 
须 是 相互 无 关 的 。 其 实 ， 时 延 包 容 的 思想 很 简单 ， 在 日 常生 活 中 经 常用 到 ; 例如 ， 当 在 等 待 
一 件 事 (如 等 待 洗衣 机 洗 完 里 面 的 衣服 ) 的 同时 做 其 他 事情 (如 ， 其 他 与 洗衣 机 并 行 
的 事 ) 。 

时 延 包 容 技术 与 本 书 讨论 的 所 有 问题 都 有 关 ， 而 且 牵 连 到 硬件 和 软件 ， 因 此 时 延 包 容 在 
“一 揽 子 考虑 ”中 会 发 挥 作用 。 我 们 将 看 到 ， 时 延 包容 技术 的 成 功 不 仅 依赖 于 应 用 的 具体 特 
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点 ， 同 时 依赖 于 机 器 硬件 机 制 的 效率 。 

从 单 处 理 器 中 的 多 任务 编程 的 角度 看 ， 我 们 对 时 延 包 容 应 该 很 熟悉 。 例 如 ， 在 一 次 磁盘 
访问 时 ， 该 事件 的 确 是 长 时 延 的 ， 但 处 理 器 并 不 停 下 来 等 待 访问 结束 。 相 反 ， 操 作 系统 会 阻 
塞 磁盘 访问 的 进程 ， 而 去 执行 其 他 进程 〈 最 为 典型 的 是 来 自 其 他 应 用 )， 这 样 就 会 用 有 用 的 
工作 重 倒 磁盘 访问 。 正 常情 况 下 ， 被 阻塞 的 进程 以 后 会 恢复 ， 当 然 理想 的 是 磁盘 访问 完成 以 
后 恢复 。 以 上 就 是 时 延 包容 的 概念 虽然 磁盘 访问 本 身 一 点 也 不 能 提早 完成 ,但 是 其 他 潜在 
的 资源 (如 处 理 器 ) 并 没有 停止 ， 而 去 履行 其 他 任务 。 通 过 操作 系统 实现 从 一 个 进程 到 另 一 
个 进程 的 切换 会 额外 执行 许多 指令 ， 但 我 们 认为 这 是 值得 的 ， 因 为 磁盘 访问 时 间 足 够 长 。 在 
以 上 的 多 道 编程 例子 中 ， 我 们 并 没有 减 小 单个 进程 的 执行 时 间 (事实 上 ， 会 有 所 增加 );， 然 
而 却 提高 了 系统 的 吞吐 率 和 利用 率 。 完 成 的 工作 总 量 越 多 ， 意 味 着 单位 时 间 内 完成 的 进程 
BRE, 

本 章 讲 的 时 延 包容 与 前 面 的 例子 区 别 在 于 以 下 两 方面 : 首先， 主要 集中 于 用 同一 应 用 中 
的 工作 重合 时 延 ， 即 目标 是 利用 时 延 包 容 减 小 给 定 应 用 的 执行 时 间 。 第 二 ， 我 们 所 包容 的 是 
存储 和 通信 系统 中 的 时 延 ， 而 非 磁盘 。 这 些 时 延 非常 小 以 至 于 造成 该 时 延 的 事件 对 操作 系统 
是 不 可 见 的 ; 因此 不 能 通过 费时 的 操作 系统 控制 的 应 用 程序 或 进程 的 切换 来 实现 包容 。 

在 进行 进一步 的 讨论 之 前 ， 我 们 先 定义 一 些 本 章 用 到 的 术语 。 存 储 访问 或 通信 时 延 包括 
从 处 理 器 发 出 到 完成 的 各 个 部 分 的 消耗 时 间 。 对 于 通信 来 说 ， 时 延 包括 处 理 器 开销 、 通 信和 辅 
助 硬件 的 占用 度 、 传 输 时 延 、 与 带宽 有 关 的 开销 以 及 重用 。 单 向 通信 和 往返 通信 通常 都 可 通 
过 上 下 文 来 判断 ， 其 开销 除数 据 传输 外 还 包括 像 作废 或 确认 等 协议 处 理 。 同 步 时 延 包 括 从 处 
理 器 发 送 同步 操作 (如 加 锁 或 屏障 ) 开始 直到 经 过 该 操作 的 一 段 时 间 ， 其 中 包括 访问 同步 变 
量 和 事件 等 待 时 间 。 指 令 时 延 指 的 是 从 指令 发 射 到 在 处 理 器 流水 线 内 完成 的 时 间 ， 其 中 假设 
没有 内 存 、 道 信 以 及 同步 时 延 。 除 了 部 分 长 周期 指令 《如 浮 点 除法 ) 或 流水 线 起 泡 外 ， 大 部 
分 的 指令 时 延 都 被 处 理 器 流水 隐藏 ， 但 人 们 已 研究 了 多 种 技术 以 隐藏 前 者 带 来 的 时 延 。 本 章 
的 主要 目的 是 讨论 隐藏 通信 时 延 《包括 显 式 和 隐 式 )， 但 是 部 分 技术 也 适用 于 局 部 存储 、 同 
步 和 指令 时 延 ， 因 此 也 可 用 于 单 处 理 器 。 

由 一 个 单个 用 户 引 发 的 从 一 个 节点 到 另 一 个 节点 的 通信 ， 不 管 其 大 小 如 何 ， 都 称 为 一 个 
消息 。 例 如 ， 在 显 式 信 息 传递 抽象 结构 中 ， 当 由 一 个 缓存 扑 空 触发 的 每 个 网 络 事物 不 能 在 共 
享 的 地 址 空间 得 到 局 部 满足 时 〈 若 在 局 部 得 到 满足 ， 其 时 延 称 为 局 部 存储 时 延 或 简单 存储 时 
延 ; 若 在 远程 得 到 满足 ， 其 时 延 称 为 通信 时 延 )， 一 个 send 命令 则 发 送 一 个 信息 。 最 后 ， 
有 关 通 信 的 一 个 重要 方面 是 ， 谁 是 通信 的 发 起 者 : 数据 的 发 送 者 ( 源 ) 还 是 数据 的 接收 者 
(目的 )? 如 果 通 信 操 作 是 在 没有 接受 者 的 请 求 时 由 数据 的 生产 者 或 拥有 者 发 起 的 ， 我 们 称 之 
为 发 送 发 起 者 ， 例 如 在 消息 传递 中 的 发 送 (send) 操作 。 如 果 通 信 操 作 是 由 接收 者 进程 引起 
的 ,我 们 称 之 为 接收 发 起 者 例如 在 共享 存储 中 对 非 本 地 数据 的 读 扑 空 。 发 送 者 发 起 的 及 接 
收 者 发 起 的 通信 将 结合 特定 的 编程 模型 详细 讨论 。 

本 章 将 按照 以 下 顺序 讨论 时 延 包 容 技术 。11.1 节 将 对 存储 及 通信 中 的 时 延 问题 进行 讨 
论 ， 并 引 人 时 延 包 容 的 4 种 方法 : 成 块 数据 转送 、 预 通信 、 在 同一 线程 中 处 理 一 个 待 完成 的 
通信 和 事件、 多 线程 技术 或 用 其 他 线程 中 的 独立 的 工作 来 重 倒 。 同 时 ， 本 章 还 讨论 适合 任何 时 
延 包 容 技术 的 系统 和 应 用 要 求 ， 以 及 在 实际 系统 中 开发 时 延 包容 的 潜在 效益 和 基本 的 局 
限 性 。 
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本 章 的 其 他 部 分 将 检验 以 上 4 种 方法 如 何在 两 个 主要 通信 抽象 中 的 应 用 。11.2 节 讨 论 
显 式 信息 传递 的 方法 ， 接 着 是 有 关 共 享 存储 空间 问题 。 后 者 的 讨论 更 为 详细 ， 因 为 对 于 通过 
单个 的 load/store 进行 的 通信 ， 与 可 变 大 小 的 传输 相 比 ， 前 者 具有 更 大 的 时 延 瓶颈 。 另 外 ， 
时 延 包容 还 与 完成 共享 空间 体系 结构 的 支持 工作 显示 出 有 趣 的 交互 性 ， 而 且 本 节 中 的 很 多 技 
术 对 于 单 处 理 器 也 是 适应 的 。11.3 节 对 共享 地 址 空间 中 的 时 延 包容 进行 了 综述 ， 后 续 的 4 
节 分 别 集中 讨论 以 下 4 个 方法 : 实现 要 求 、 性 能 收益 、 多 种 技术 的 折 中 和 协作 、 软 硬件 方面 
的 应 用 。 以 上 技术 中 的 一 个 统一 的 要 求 是 缓存 应 当 是 非 阻 塞 的 或 免 锁定 的 ， 于 是 ，11.8 节 
讨论 了 免 锁 定 的 缓存 的 实现 。 


11.1 时 延 包容 技术 概述 


为 讨论 包容 通信 时 延 的 技术 ， 我 们 先 看 一 个 生产 者 -消费 者 的 例子 ， 这 个 例子 将 在 本 章 
中 经 常 引用 。 

一 个 进程 P, 计算 并 写 数组 4 的 n 个 元 素 ， 另 一 个 进程 Ps 读数 组 。 两 个 进程 在 读 / 写 数 
组 的 循环 中 各 自 做 无 关 的 计算 ， 其 中 数组 4 存 于 Ps 所 在 的 处 理 器 的 内 存 中 。 若 没有 时 延 包 
容 ， 则 发 起 通信 的 进程 只 是 简单 地 每 次 完成 一 个 字 (在 每 个 通信 抽象 中 显 式 或 隐 式 地 进行 )， 
而 且 只 有 等 到 一 个 字 长 信息 完成 后 才能 执行 其 他 的 任务 。 这 种 过 程 称 为 基准 通信 结构 。 图 
11-1a 是 显 式 消息 传递 中 的 计算 ， 图 11-1b 是 隐 式 的 共享 存储 空间 的 读 写 过 程 。 前 者 的 特点 
是 进程 P, 通过 发 送 操作 产生 实际 的 数据 通信 ， 而 后 者 的 特点 是 进程 Ps 通过 读 A Li] 来 实 
现 ? 。 我 们 假定 读 操 作 使 得 处 理 器 停止 直到 完成 ， 而 且 使 用 同步 发 送 (SHS 2 H 2.3.6 75). 
通信 发 起 进程 的 结果 时 线 如 图 11-2 所 示 。 该 图 表明 一 个 进程 花费 大 部 分 的 时 间 等 待 通信 。 





Pa Pe Pa Ps 
for ie0 to n-1 do for ieo to n-1 do 
compute Ali); compute Ali]; 
write Ali]; write Afi): 
compute f/C[i]); 
compute f(C[i]}:; end for 
/*unrelated*/ for i1 to n-1 do flag + 1; while flag = 0{}: 
end for receive (myAli)]); for it-1 to n-1 do 
use myA([i); 
compute g(B[i}); use Ali); 
/*unrelated */ compute g{B[i]); 
end for end for 
a) 消息 传递 b) 共享 地 址 空间 


图 11-1 例子 计算 的 伪 码 。a) 是 显 式 消息 传递 的 伪 码 ，b) 是 共享 地 址 空间 中 隐 式 读 写 
通信 的 伪 码 ， 两 种 情况 都 不 带 时 延 包容 。 加 框 代码 指出 产生 数据 传送 的 操作 


11.1.1 时 延 包 容 与 通信 流水 线 
时 延 包 容 方法 的 好 坏 可 通过 机 器 利用 率 的 高 低 得 到 很 好 的 理解 。 站 在 处 理 器 的 立场 上 


O ”事实 上 ， 这 些 例子 在 它们 的 基础 通信 结构 上 并 不 完全 是 对 称 的 。 这 是 由 于 在 消息 传递 版 本 中 ,数据 的 通信 在 每 
个 数组 项 产生 后 都 会 发 生 ; 而 在 共享 地 址 空间 版 本 ， 通 信 的 发 生 是 在 整个 数组 产生 后 。 然 而 ， 要 实现 和 共享 地 
址 空间 完全 类 似 的 细 粒 度 同步 ， 就 要 求 在 每 一 数组 项 上 的 同步 ， 所 导致 的 通信 会 将 我 们 的 讨论 大 大 复杂 化 。 这 
种 不 对 称 性 不 影响 时 延 包 容 的 讨论 。 
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处 理 器 关键 路 径 上 的 时 间 


在 消息 传递 中 的 进程 Ps 










AR i 
往返 通信 时 间 
发 送 + 确认 
在 共享 地 址 空间 中 的 进程 P ， 
BAR i BR i+ 






C+C 


往返 通信 时 间 
读 取 + 回答 
图 11-2 . 在 设 有 时 延 包容 情况 下 ， 发 起 通信 的 进程 的 时 间 表 。 时 间 表 上 的 黑色 段 为 本 地 处 理 时 

间 《 实 际 上 包含 访问 本 地 数据 等 待 的 时 间 )， 白 色 段 是 在 通信 上 等 待 的 时 间 。C, C,, 

C. 分 别 是 计算 数组 项 A [i]， 完 成 不 相关 的 计算 f (B [ij) Mg (c [i]) 的 时 间 
看 ， 从 一 个 节点 到 另 一 个 节点 的 通信 可 被 视 作 一 个 流水 线 : 其 流水 段 包括 源 和 目的 的 网 络 接 
口 ， 以 及 沿途 的 网 络 链 路 和 交换 机 ( 见 图 11-3)。 当 然 还 可 以 包括 通信 辅助 部 件 、 局 部 存储 / 
缓冲 系统 ， 甚 至 主 处 理 器 ， 这 要 依赖 于 通信 的 管理 体系 结构 。 值 得 注意 的 是 ， 虽 然 通信 的 其 
他 部 分 可 被 潜在 地 隐藏 ， 但 由 处 理 器 自身 处 理 的 指令 终点 开销 (并 不 访问 内 存 ) 是 无 法 隐藏 
的 。 因 此 ， 当 一 个 系统 具有 高 的 终点 开销 时 ， 其 很 难 实施 时 间 时 延 包 容 。 除 非特 殊 说 明 ， 本 
章 论述 忽略 处 理 器 开销 ; 我 们 假定 大 部 分 的 消息 终点 处 理由 通信 辅助 部 件 完成 ， 而 且 主 要 集 
中 于 终点 的 辅助 处 理 的 占用 时 间 ， 因 为 这 部 分 时 间 有 可 能 被 隐藏 。 另 外 还 假定 ， 每 个 消息 一 
次 发 起 和 接收 的 开销 是 固定 的 〈 即 ， 并 不 与 消息 的 大 小 成 正比 )。 





流水 线 级 


图 11-3 将 网 络 看 成 是 一 个 从 一 个 处 理 器 到 另 一 个 处 理 器 的 通信 流水 线 。 流 水 线 的 阶段 包 
括 网 络 接口 (NI)， 在 两 个 处 理 器 (P) 之 间 链 路 上 相继 交换 机 (Sw) 之 间 的 跳 步 


如 果 不 采 取 措 施 将 时 延 包容 起 来 ， 可 能 会 导致 流水 线 和 其 他 资源 的 利用 率 降低 ， 图 11-4 
显示 了 前 面 描 述 的 基准 通信 结构 中 的 利用 率 情况 : 对 于 给 定时 刻 ， 或 者 处 理 器 忙 ， 或 者 通信 
结构 忙 ， 对 于 后 者 ,一 次 只 有 一 个 通信 结构 的 流水 段 书 ? 。 时 延 包容 的 目的 就 是 尽 可 能 重 亚 
使 用 这 些 资源 。 从 处 理 器 一 端 看 ， 可 开发 的 重合 有 三 种 类 型 。 第 一 种 是 两 节点 间 的 通信 流水 
线 (communication pipeline) 内 : 正 像 指令 流水 线 重合 使 用 处 理 器 的 不 同 资源 ( 取 指 单元 ， 寄 





O 为 简单 直 见 ， 我 们 忽略 这 样 一 个 事实 : 网络 链 路 的 宽度 通常 是 小 于 一 个 存储 字 的 ， 从 而 一 个 字 可 能 要 占据 流水 
线 中 网 络 部 分 的 多 个 阶段 。 
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存 器 堆 ， 执 行 单元 等 ) 一 样 ， 我 们 可 利用 网 络 资源 一 次 传输 多 个 字 节 。 这 些 字 可 以 来 自 同一 
个 消息 〈 超 过 一 个 字 的 信息 ) ， 也 可 以 来 自 不同 的 消息 。 第 二 种 是 开发 不 同 点 对 点 通信 流水 
线 之 间 以 及 网 络 不 同 部 分 之 间 的 重合 ,这 种 方法 一 次 允许 多 个 节点 的 同时 进行 待 完 成 的 通 
信 。 从 处 理 器 的 角度 看 ， 这 两 种 情况 都 是 不 同 字 通信 之 间 的 重 琶 ， 因 此 称 之 为 通信 和 通信 的 
重合 。 第 三 种 是 计算 与 通信 间 的 重合 。 即 ， 当 一 个 处 理 器 操作 完成 发 起 通信 后 继续 执行 有 用 
的 局 部 工作 。 
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图 11-4 无 时 延 隐藏 情况 下 ， 消 息 传递 和 共享 地 址 空间 程序 的 时 间 特 性 。 一 个 进程 的 时 间 
被 分 为 几 个 部 分 ， 花 在 处 理 器 〈 包 括 本 地 存储 系统 ) 上 的 〈P) ， 在 通信 辅助 部 件 
(CA) 上 的 以 及 在 网 络 (N) 上 的 。 在 网 络 部 分 的 数字 表示 在 消息 通路 上 不 同 的 
跳 步 或 连接 。 在 消息 传递 情形 下 端点 开销 。 要 比 共享 地 址 空间 情形 要 大 ， 我 们 
假设 后 者 是 由 硬件 支持 的 。! 是 网 络 时 延 ， 是 不 涉及 到 处 理 节点 所 消耗 的 时 间 


11.1.2 采用 技术 


要 想 开发 硬件 资源 间 的 重合 以 达到 时 延 包容 ， 有 4 种 关键 途径 。 第 一 种 称 为 块 数据 伟 
送 ， 主 要 是 增 大 每 次 通信 的 消息 ， 这 样 可 通过 网 络 实现 流水 。 其 他 三 种 是 使 一 个 消息 与 计算 
或 与 其 他 消息 重合， 因而 是 块 数据 传送 的 补充 。 这 三 种 是 : 预 通 信 、 跨 越 同 一 线程 中 的 通信 
和 多 线程 。 每 种 方法 都 可 以 应 用 于 共享 地 址 空间 和 消息 传递 抽象 中 ， 尽 管 两 者 要 求 的 特殊 技 
术 和 支持 是 不 同 的 。 以 下 对 两 者 进行 具体 介绍 。 

1. 块 数据 传送 

增 大 消息 长 度 可 带 来 多 种 好 处 。 首 先 ， 它 可 开发 两 个 节点 间 的 通信 流水 线 ， 用 通信 重要 
通信 。 处 理 器 只 能 看 到 消息 第 一 个 字 的 时 延 ， 后 续 字 大 约 每 个 网 络 周期 到 达 一 次 ， 其 速度 只 
受 流水 线 频 率 和 带宽 的 限制 。 第 二 ， 这 种 方法 将 每 个 消息 的 终点 开销 分 摊 到 发 送 的 大 量 数据 
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中 。 第 三 ， 依 赖 于 数据 包 的 结构 ， 该 方法 也 可 分 捧 消 息 的 路 由 和 头 信息 。 最 后 ， 一 个 大 的 消 


息 可 只 需要 一 个 确认 而 不 是 每 个 字 一 个 确认 ， 这 不 仅 可 以 减 小 时 延 而 且 可 以 减 小 传输 次 数 和 


冲突 。 这 些 优点 类 似 于 在 单 处 理 器 存储 系统 中 增 大 缓存 块 所 得 到 收益 ， 只 是 规模 不 同 而 已 。 
图 11-5 显示 了 在 显 式 消息 传递 下 使 用 单个 大 消息 的 效果 ， 其 中 仍然 使 用 同步 的 消息 且 无 计 
算 重 释 。 为 了 说 明 方 便 ， 网 络 流水 采用 一 个 阶段 。 


在 处 理 器 关键 路 径 上 的 时 间 
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图 11-5 对 于 消息 传递 例子 程序 ， 在 时 间 上 将 消息 放大 的 效果 。 图 中 假设 执行 了 三 次 循环 迭代 。 发 送 
进程 (Ps) 首先 计算 要 送出 的 三 个 值 A[0..2] GHC), 然后 将 它们 用 一 个 消息 送出 ， 然 
后 完成 所 有 三 个 无 关 的 计算 £(c 10. .2])， 即 计算 C. 。 数 据 通信 的 开销 被 均 捧 了 ， 并 且 只 需 
要 一 个 确认 。 由 于 传送 的 数据 量 增 加 了 ， 和 带宽 相关 的 通信 代价 会 有 些 增 加 ， 但 和 节省 下 来 
的 时 延 和 开销 相 比 ， 这 是 微不足道 的 。 对 于 确认 ， 不 需要 额外 的 带宽 开销 ， 这 个 开销 也 是 很 小 的 
虽然 增 大 消息 有 助 于 保持 两 点 之 间 流 水 线 的 繁忙 ， 但 当 一 个 消息 在 进程 中 时 ， 它 本 身 并 
不 能 保持 处 理 器 和 通信 辅助 部 分 的 繁忙 ， 也 无 助 于 保持 通过 网 络 的 其 他 路 径 的 繁忙 。 其 他 的 
方法 也 可 做 到 。 这 些 都 是 块 数据 传送 的 补充 ， 无 论 消息 是 长 还 是 短 ， 都 是 适用 的 。 以 下 一 一 
介绍 。 
2. 预 通信 
程序 中 在 通信 操作 出 现 之 前 产生 通信 ， 可 使 在 真正 需要 数据 时 已 经 部 分 或 全 部 完成 通 
信 ; 以 上 目标 可 通过 软件 插入 代码 方法 实现 ， 也 可 利用 硬件 检测 时 机 并 较 早 发 出 通信 操 
作 ”。 实 际 使 用 数据 的 典型 操作 仍然 保留 在 程序 中 的 原 位 置 上 。 当 然 ， 预 通信 事务 本 身 不 应 
当 使 处 理 器 停 下 来 等 它 完成 ， 否 则 不 会 实现 重合 。 预 通信 的 很 多 形式 都 需要 长 时 延 事 件 能 够 
被 预知 ， 以 便 硬件 或 软件 可 预测 并 提前 发 送 。 
发 送 者 发 起 通信 是 当 发 送 者 产生 数据 不 久 自然 产生 的 ， 这 样 可 使 得 数据 在 接收 者 实际 使 
用 之 前 到 达 ， 这 就 形成 了 一 种 对 于 接收 者 无 开销 的 预 通信 形式 。 另 一 方面 ， 对 于 发 送 者 来 
说 ， 为 了 隐藏 发 送 者 所 看 到 的 时 延 所 做 的 任何 通信 的 提前 可 能 都 是 很 困难 的 。 实 际 中 的 预 通 





O ”尽管 这 里 讲 的 是 通信 。 但 相应 的 技术 ， 包 括 这 一 种 ， 也 能 够 用 来 隐藏 本 地 存储 访问 时 延 。 这 是 因为 我 们 可 以 将 
本 地 的 访问 看 成 是 和 本 地 存储 系统 的 通信 。 
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信 提前 产生 通信 操作 ) 通常 发 生 在 接收 者 发 起 的 情况 下 ， 此 时 的 通信 和 是 当 数 据 需 要 时 自然 
发 起 的 ， 其 数据 可 能 已 经 产生 很 长 时 间 。 

3. 进行 同一 线程 中 已 传递 的 通信 

通信 操作 可 在 程序 中 发 生 时 自然 产生 ， 但 是 处 理 器 可 允许 继续 进行 通过 该 通信 点 ， 并 在 
同一 进程 或 线程 中 寻找 其 他 独立 的 后 续 计 算 或 通信 。 这 样 ， 预 通信 使 得 通信 与 同一 线程 中 位 
于 源 程 序 中 产生 通信 点 之 前 的 其 他 指令 相 重 倒 ， 该 技术 可 使 得 通信 与 同一 线程 中 后 面 的 指令 
重 营 。 这 些 指 令 本 身 可 产生 通信 和 存储 访问 ， 或 也 与 这 些 行为 发 生 重合。 正 像 我 们 的 想象 那 
样 ， 由 于 在 发 送 方 紧 跟 在 通信 操作 之 后 的 指令 并 不 依赖 于 该 通信 操作 ， 并 可 易于 重 亚 ; 因 
此 ， 这 种 时 延 包 容 方法 通常 容易 在 发 送 者 发 起 通信 中 得 到 有 效 的 使 用 。 在 接收 者 发 起 的 通信 
中 ， 一 个 发 送 者 在 需要 数据 前 自然 地 访问 数据 ， 因 此 在 通信 和 使 用 之 闻 无 法 找到 足够 的 无 关 
工作 。 当 然 ， 通 过 在 指令 流 中 后 推 来 推迟 数据 的 使 用 ， 也 可 等 价 于 在 使 用 方 找到 无 关 的 工 
作 ， 而 且 编 译 和 处 理 器 硬件 可 从 中 开发 重 倒 。 两 种 情况 中 ， 软 件 或 硬件 必须 在 依赖 通信 的 指 
令 执行 前 检查 数据 传输 的 完成 。 

4. 多 线程 

这 种 方法 基本 与 前 者 相仿 ， 只 是 其 无 关 工作 是 通过 切换 到 映射 于 同一 处 理 器 上 的 其 他 线 
程 来 得 到 的 。 这 样 就 使 得 接收 者 发 起 的 通信 时 延 比 前 者 更 容易 隐藏 ， 无 论 发 起 方 还 是 接受 方 
都 易于 实现 。 事 实 上 ， 由 于 这 里 的 重 到 是 通过 其 他 线程 得 到 的 ， 很 少 关 心 所 时 延 包 容 的 类 型 
和 结构 ， 从 该 意义 上 讲 多 线程 是 最 通用 的 技术 。 然 而 ， 多 线程 技术 意味 着 在 遇 到 长 时 延 事 件 
时 ， 在 同一 处 理 器 中 需 有 多 个 可 同时 执行 的 线程 以 供 切换 。 这 些 线程 可 来 自 于 同一 并 行 的 程 
序 ， 也 可 来 自 于 完全 不 同 的 任务 (如同 前 面 的 多 程序 的 例子 )。 多 线程 程序 与 一 般 的 并 行程 
序 并 没有 什么 两 样 ， 只 是 将 程序 分 解 并 分 配给 P 个 进程 ， 其 中 P 比 实际 的 物理 处 理 器 数 p 
K, Pip 映射 到 同一 个 物理 处 理 器 。 因 此 ， 多 线程 要 求 时 延 包 容 需要 的 附加 并 行 性 以 线程 的 
形式 显 式 出 现 。 


11.1.3 基本 要 求 、 优 点 与 局 限 性 


在 这 些 技术 应 用 于 特殊 的 程序 模型 和 系统 之 前 ， 懂 得 时 延 包容 的 基本 要 求 、 优 点 和 局 限 
性 是 非常 有 用 的 。 这 些 基 本 的 分 析 确 定 了 我 们 指望 性 能 改进 的 边界 ， 甚 只 是 基于 资源 使 用 的 
重要 和 这 些 资 源 的 占用 。 

1. 要 求 

时 延 包 容 需 要 额外 并 行 性 、 带 宽 ， 在 多 数 情 况 下 还 需要 更 高 级 的 硬件 和 协议 。 





程序 中 的 并 行 性 一 定 大 于 所 使 用 的 处 理 器 数 。 与 多 线程 技术 -一 样 ， 额 外 的 并 行 性 可 
显示 为 多 个 线程 或 存 于 一 个 线程 内 部 。 甚 至 在 并 行情 况 下 ， 同 一 进程 发 出 的 两 个 字 
的 通信 也 蕴涵 着 它们 之 间 不 是 串 行 的 关系 ， 因 此 有 额外 并 行 性 。 

增强 的 带宽 。 尽 管 时 延 包 容 可 减少 执行 时 间 ， 但 并 不 能 减少 通信 完成 的 数量 。 以 更 
少 的 时 间 完 成 通信 意味 着 单位 时 间 内 的 更 高 通信 速度 ， 同 时 也 意味 着 对 通信 结构 的 
更 高 的 带宽 要 求 。 事 实 上 ， 如 果 要 求 的 带宽 高 于 机 器 提供 的 带宽 时 ， 其 带 来 的 资源 
争 用 会 减 慢 其 他 的 无 关 事 务 ， 这 样 时 延 包 容 可 能 会 有 损 而 不 是 有 助 于 性 能 。 

更 复杂 的 硬件 和 协议 。 除 了 增 大 消息 的 情况 外 ,处理 器 必须 允许 跨越 长 时 延 操作 
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额外 并 行 性 ， 或 松弛 性 。 由 于 重合 的 行为 (计算 与 通信 ) 必须 是 相互 独立 的 ， 应用. 
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(在 操作 完成 之 前 ) 而 继续 进行 ; 而 且 要 想 实 现 通 信和 与 通信 之 间 的 重 倒 ， 而 不 仅 是 与 
计算 的 重合 ， 处 理 器 必须 允许 多 个 待 完 成 的 长 时 延 操 作 。 
这 些 要 求 预示 着 所 有 时 延 包容 技术 都 有 重要 的 开销 。 因 此 ， 我 们 应 当 在 使 用 时 延 包容 技 
术 之 前 ， 首 先 使 用 算法 技术 减 小 长 时 延 事件 出 现 的 频率 。 长 时 延 事件 越 少 ， 时 延 包 容 所 需要 
的 技术 激进 性 就 越 小 。 
2. 潜在 的 优点 
我 们 通过 简单 的 分 析 就 能 得 到 所 期 待 的 时 延 包容 的 收益 限度 ， 因 而 这 也 就 确定 了 实际 中 
的 期 望 值 。 我 们 集中 讨论 容许 通信 时 延 ， 并 假定 局 部 的 存储 访问 时 延 不 被 隐藏 。 假 设 当 没 有 
时 延 包 容 时 ， 处 理 器 看 到 的 执行 时 间 齐 视 如 下 : 7. 个 周期 用 于 局 部 计算 ，7 了 ,周期 用 于 处 理 
器 的 处 理 消息 开销 ，7,。( 占 用 度 ) 个 周期 用 于 通信 辅助 ，7, 个 周期 用 于 等 待 网 络 消息 传 
输 。 如 果 假 设 处 理 器 的 其 他 资源 可 很 好 的 重 谷 使 用 ,于 是 潜在 的 加 速 比 可 以 简单 利用 Am- 
dahl 定律 来 确定 。 处 理 器 须 占用 T, + Tu。 个 周期 ; 处 理 器 可 隐藏 的 最 大 时 延 为 7 + 7 周期 ， 
于 是 时 延 包容 的 加 速 比 为 : 
了 + 了 + 了 + 了 
T.+ T,, 





或 
Tine + Thy 
T.+ To 


由 于 假设 理想 的 资源 重合 ， 而 且 没 有 额外 的 时 延 包 容 开销 ， 该 极限 即 为 一 个 上 限 。 然 而 ， 它 
却 给 我 们 以 有 用 的 期 望 。 例 如 ， 如 果 进 程 原来 花费 在 通信 系统 上 停滞 的 时 间 至 少 和 局 部 计算 
时 间或 处 理 器 开销 时 间 一 样 多 ， 则 从 包容 通信 时 延 得 到 的 加 速 比 最 大 为 2。 如 果 原 来 的 通信 
停顿 时 间 只 与 处 理 器 的 行为 重 琶 ， 而 不 与 其 他 的 通信 重合， 其 最 大 加 速 比 为 2， 不 管 有 多 少 


通信 时 延 被 隐藏 。 如 图 11-6 所 示 。 
CI 通信 
ME 本 地 计算 


(1+ 





a) Comp= comm b)Comp> comm c)Comp<comn, d) Comp < comm, 


RAVAN ARE 也 与 通信 传 时 间 重 个 


图 11-6 时 延 包 容 最 多 能 得 到 多 大 的 好 处 。 每 个 图 表示 一 个 不 同 的 情形 。 灰 色 表 示 计 算 时 间 ， 白 色 
表示 通信 时 间 。 在 每 一 组 中 ， 左 边 的 条 表示 没有 时 延 隐藏 的 时 间 ， 规 格 化 到 1.0 个 单元 ， 
右边 的 条 表示 延 时 隐藏 的 情形 。 在 a) 中 ， 计 算 时 间 (Comp) 等 于 通信 和 时间 (Comm)， 加 
速 比 上 限 是 2。 在 b) 中 ， 计 算 时 间 超过 通信 时 间 时 ， 受 过 多 计算 时 间 的 影响 ， 上 限 小 于 
2。e) 的 情况 和 b) 类 似 ， 通信 时 间 超 过 计算 时 间 ， 且 只 能 由 计算 来 重叠 。 要 获得 比 2 大 
的 加 速 比 ， 就 要 有 d) 的 情形 ， 即 通信 时 间 总 体 上 比 计算 时 间 长 ， 但 通信 本 身 还 可 以 重重 
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多 少时 延 在 实际 中 被 隐藏 依赖 于 包括 应 用 和 体系 结构 在 内 的 很 多 因素 。 与 应 用 相关 的 特 
征 包括 通信 结构 以 及 多 少 其 他 的 工作 与 通信 重合 。 体 系 结构 问题 包括 :与 辅助 通信 相 比 有 多 
少 终点 处 理由 处 理 器 来 做 ; 通信 是否 能 与 计算 或 其 他 通信 重合 ; 某 个 处 理 器 一 次 能 同时 处 理 
多 少 个 待 完成 的 消息 ; 终点 开销 处 理 与 网 络 中 消息 的 数据 传送 能 重合 到 什么 程度 ; 辅助 通信 
与 网 络 流水 段 的 占用 资源 如 何 。 

图 11-7 显示 了 几 种 不 同类 型 的 消息 结构 和 重 释 的 时 间 效果 ， 此 图 只 是 说 明 性 的 。 例 如 ， 
其 中 假设 每 个 消息 的 开销 与 传输 时 延 相 比 非常 大 ， 而 且 任 何 时 候 都 不 考虑 和 争 用 。 在 这 些 假设 
下 ， 较 大 的 消息 比 很 多 小 的 重 谷 的 消息 更 具有 吸引 力 ， 因 为 大 消息 更 能 分 扒 开 销 。 而 且 ， 对 
于 小 消息 来 说 ， 流 水 线 的 频率 受 每 个 消息 终点 处 理 〈 其 决定 消息 的 间隔 ) 的 限制 ， 而 不 是 网 
络 链 路 的 速度 。 其 他 的 假设 也 会 导致 不 同 的 结果 。 习 题 11.2 更 加 定量 地 分 析 了 一 个 通信 只 
iia fa BBN IT. 

显然 ， 某 些 通信 时 延 比 其 他 的 部 分 更 容易 隐藏 。 例 如 ， 一 个 处 理 器 的 指令 时 延 不 可 被 该 
处 理 器 隐藏 ， 而 节点 外 的 时 延 (或 者 在 网 络 上 ， 或 者 在 与 之 通信 的 其 他 节点 上 ) 比 通信 辅助 
或 节点 内 的 其 他 开销 更 容易 被 其 他 消息 重合 隐藏 。 以 下 我 们 讨论 影响 达到 时 延 包容 上 限 的 关 
键 局 限 性 。 

3. 局 限 性 

其 主要 的 局 限 性 可 分 为 三 类 : 应 用 局 限 性 、 通 信 体 系 结构 局 限 性 、 处 理 器 局 限 性 。 

应 用 局 限 性 ”可 用 来 和 时 延 重 委 的 无 关 计 算 的 时 间 大 小 可 能 受到 限制 ， 因 此 并 非 所 有 的 
时 延 都 能 被 隐藏 ， 处 理 器 仍 有 一 部 分 时 间 处 于 停 灌 。 即 使 程序 中 存在 足够 的 工作 和 并 行 性 ， 
但 程序 的 结构 可 能 使 得 系统 或 程序 员 很 难 识别 出 这 些 并 发 操作 ， 以 至 于 难以 协调 重 僚 。 这 一 
点 将 在 讨论 特殊 时 延 包容 机 制 时 看 到 。 

通信 体系 结构 局 限 性 ”通信 体系 结构 可 能 使 同一 节点 一 次 发 出 的 待 完成 的 消息 或 字 的 数 
基 受 到 限制 ， 而 且 通信 体系 结构 的 性 能 参数 也 可 能 限制 隐藏 的 时 延 大 小 (Culler 1994) 。 

当 只 有 一 个 消息 处 于 通信 时 ， 独 立 的 计算 可 被 辅助 处 理 和 网 络 传输 重要 。 然 而 ， 对 于 同 
一 消息 来 说 ， 辅 助 处 理 可 能 被 网 络 传输 重 至 ， 也 可 能 不 被 重 元 ; 网 络 流水 线 本 身 只 有 当 消 息 
较 大 时 才能 保持 繁忙 。 当 多 个 消息 可 同时 通信 时 ， 处 理 嚣 时间、 辅助 占用 度 、 网 络 传 输 都 可 
被 重合。 由 于 多 个 消息 可 并 发 进行 ， 即 使 消息 很 小 ， 网 络 流水 线 也 可 得 到 很 高 的 利用 率 。 因 
此 ， 对 于 一 定 的 消息 大 小 ， 当 一 个 节点 允许 多 个 通信 同时 进行 时 ， 可 以 容许 更 多 的 时 延 。 若 
/为 可 被 隐藏 的 每 个 消息 时 延 ，; 为 和 每 个 消息 重 至 的 有 效 独立 计算 周期 ， 要 得 到 最 大 的 时 
延 隐藏 需要 [Lr |] 个 待 完成 的 消息 同时 进行 。 当 能 被 隐藏 的 时 延 已 被 隐藏 时 ， 增 多 待 完成 
的 消息 数 则 无 济 于 事 ， 同 样 ， 一 个 节点 同时 处 理 的 字数 量 也 是 很 重要 的 。 若 一 个 处 理 器 一 次 
可 同时 处 理 & 个 字 (来 自 一 个 或 多 个 消息 )， 则 处 理 髓 所 看 到 的 时 延 将 减 小 倍 。 更 精确 地 
讲 ， 对 于 具有 同一 目的 地 的 单 向 消息 来 说 ， 其 时 延 将 从 kx* 1 周期 减 小 到 1 + kB 周期 ， 其 中 
i 为 一 个 比特 所 需 的 网 络 传输 时 间 ，B 是 以 字 / 周 期 为 单位 的 通信 流水 线 的 带宽 或 速度 (网 
络 也 可 能 是 辅助 部 件 )。 

假定 允许 足够 的 未 完成 消息 或 字 ， 通信 体 系 结构 的 性 能 参数 也 会 成 为 限制 条 件 。 以 下 是 
对 某 些 参数 的 检验 ， 假 定 消息 的 大 小 预定 ， 要 隐藏 的 通信 的 每 个 消息 的 时 延 为 工 周期 。 为 
简化 ， 我 们 只 考虑 单 向 的 无 确认 的 数据 消息 。 
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f 学 大 小 重 恤 的 消息 ， 与 计算 重 帮 ， 便 只 与 待 完成 的 消息 与 通信 不 重要 》 








图 11-7 不 同形 式 的 时 延 包容 的 时 间 表 。P 指出 花 在 主 处 理 器 上 的 时 间 ，CA 是 在 本 
地 通信 辅助 部 件 上 的 时 间 ，N 是 非 本 地 时 间 (网 络 中 或 者 是 在 另外 的 节点 
上 )。 所 表示 的 时 间 表 是 从 图 11-1 消息 传递 例子 中 进程 P, 的 角度 所 看 到 的 

。 开销 。 发 生 在 处 理 器 上 的 消息 处 理 开 销 是 不 能 被 隐藏 的 。 

. SM GAL, WDR A HAR, HB AOE OS REE RRR A 
信 (在 同一 消息 中 或 在 不 同 消息 中 ) 重 状 依赖 于 其 结构 是 否 为 内 部 流水 ， 以 及 一 个 
消息 是 否 能 被 数据 在 网 络 中 的 传输 重 登 。 

一 个 。 周 期 的 端点 消息 处 理 时 间 (开销 或 占用 度 ) 是 我 们 能 够 向 网 络 发 送 消息 的 频 
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ER (至 多 每 。 周 期 发 送 一 次 )。 若 假定 处 理 器 平均 的 接受 信息 与 发 送信 息 相 同 ， 
而 且 接受 和 发 送 的 时 间 也 一 样 ， 则 每 个 消息 发 送 的 端点 处 理 时 间 为 2o 周期 ; 因此 ， 
一 个 处 理 器 在 L 周期 内 允许 为 完成 消息 的 最 大 数量 为 L/2o。 如 果 2o 大 于 可 重要 消 
息 的 + 周期 的 计算 量 ， 那 么 ， 将 无 法 允许 Lr 个 未 完成 消息 ， 进 而 无 法 隐藏 全 部 的 
时 延 。 尤 其 当 消 息 很 小 时 ， 每 个 消息 的 开销 和 占用 度 对 性 能 的 影响 更 加 严重 。 

点 到 点 的 带宽 。 即 使 开销 不 是 问题 (例如 ， 当 消息 很 大 时 )， 向 网 络 发 送 消 息 的 速率 
也 会 受 从 源 到 目的 端 中 整个 流水 线 中 最 慢 链 接 的 限制 ， 即 网 络 阶 段 本 身 、 节 点 到 网 络 
的 接口 ， 每 个 字 的 辅助 占用 度 和 处 理 器 开销 。 正 像 。 周期 的 终点 开销 将 了 上 周期 内 的 消 
息 执 行 数 限制 在 Lio 一 样 ， 网 络 中 的 每 个 字 流 水 段 时 间 s 也 会 使 得 网 络 的 未 完成 字 为 
Liso 

网 络 容量 。 一 个 处 理 器 能 同时 处 理 的 消息 数 是 受 网 络 的 总 带宽 和 数据 运输 容量 限制 
的 ,不同 的 处 理 器 也 以 该 有 限 容量 作为 竞争 的 指标 。 如 果 每 个 链接 带宽 都 是 一 个 字 
节 ， 在 给 定时 间 内 一 个 M 字 的 消息 若 在 网 络 中 进行 转发， 那么 就 相当 于 要 求 最 多 
M* h 个 链 路 。 若 每 个 处 理 器 可 同时 进行 个 这 样 的 消息 处 理 ， 则 每 个 处 理 器 就 要 求 
在 给 定时 间 内 具有 Mx hxk TER. RT, AAAF DABE, ahm 
器 都 以 这 样 的 方式 传输 ， 则 处 理 器 在 给 定时 间 内 平均 只 占用 D/p 个 链 路 。 因 此 ， 每 
个 处 理 器 & 的 并 行 消息 数 受 下 式 限 制 : 





D 
pxMxh 

处 理 器 局 限 性 ”在 具有 缓存 一 致 性 的 共享 存储 空间 中 ， 基 于 长 缓存 块 的 空间 局 部 性 已 经 
允许 一 次 未 完成 的 通信 超过 一 个 字 。 要 想 隐 藏 更 多 的 时 延 ， 一 个 处 理 器 必须 能 够 允许 多 个 组 
存 扑 空 间 时 发 生 。 我 们 将 看 到 其 开销 是 很 大 的 ， 因 此 处 理 器 及 高 速 缓存 对 同时 发 生 的 扑 空 次 
数 具 有 相对 小 的 限制 。 虽 然 显 式 通 信 可 能 限制 系统 中 一 次 通信 的 数量 ， 但 它 要 求 较 少 的 硬件 
跟踪 且 在 该 方面 具有 更 多 的 灵活 性 。 

表 11-1 单字 消息 微 基准 测试 程序 中 一 次 允许 未 完成 的 消息 数 受 L/o 
比率 与 消息 发 送 到 网 络 的 速率 约束 情况 


Mxhxk<Dip, Š k< 

















单项 网 络 事务 远程 序 单项 网 络 事务 远程 序 
机 器 1 机 器 
£/20 Msgs/ms Lio Msgs/ms L/20 Msgs/ms Lio Msgs/ms 
TMC CM-5 2.12 250 1.75 161 NOW-Ultra 1.79 172 1.77 127 
Intel Paragon 2.72 131 5.63 133 CRAY T3D 1.00 345 1.13 2 500 
Meiko CS-2 3.28 74 8.35 63.3 SGI Origin 5 000 





BÈ: 其 中 了 表示 包括 开销 在 内 的 消息 总 时 延 ， 并 考虑 以 下 两 种 操作 类 一 : 一 类 是 共享 地 址 空间 中 单字 往返 远程 读 
操作 ， 另 一 类 是 包括 发 送 和 接收 操作 在 内 的 单项 网 络 事务 。 对 于 远程 读 ，o 是 启动 处 理 器 时 的 开销 ， 这 部 分 是 
不 能 被 隐藏 的 。 对 于 单项 的 消息 传递 网 络 事务 ， 我 们 假定 消息 的 传送 是 对 称 的 ， 因 此 发 送 和 接收 的 开销 总 和 为 
2o。 对 于 全 部 用 硬件 支持 共享 地 址 空间 的 机 器 ， 这 里 的 间隙 ， 即 消息 注入 的 速率 的 制约 因素 不 是 处 理 器 的 开 
销 ， 而 是 辅助 部 件 的 占用 度 ， 通 常 是 较 小 的 。 在 这 些 情 况 下 ， 主 要 的 限制 是 处 理 器 或 辅助 部 件 多 许 的 待 完成 扑 
空 的 个 数 ， 但 在 表 中 我 们 没有 考虑 。 


从 以 上 的 讨论 中 我 们 清楚 地 看 到 ， 有 效 的 通信 结构 (高 带宽 、 低 的 端点 开销 或 占用 度 ) 
对 于 时 延 包 容 的 效率 是 十 分 重要 的 。 前 儿 章 中 我 们 已 经 根据 以 下 特点 分 析 了 一 些 真正 机 器 的 
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特性 : 如 网 络 带宽 、 节 点 到 网 络 的 带宽 、 终 点 开销 。 从 数据 开销 、 通 信 时 延 、 消 息 间 陈 ， 我 
们 可 以 计算 出 对 于 理解 时 延 隐藏 息 有 用 的 两 个 数据 。 第 一 个 是 工 周期 内 允许 一 次 待 完成 的 
WEA Lo (假定 与 此 同时 其 他 处 理 器 不 向 该 处 理 器 发 送 数 据 )， 该 值 显 示 了 通信 性 能 的 局 
限 性 。 第 二 个 是 消息 间隙 的 倒数 ， 表 示 消 息 流水 进入 网 络 的 速率 ， 其 受 o 的 影响 。 如 果 没 
有 足够 的 计算 来 重生 Lio 个 消息 通信 时 延 ， 隐 藏 其 他 时 延 的 惟一 方法 是 增 大 消息 大 小 。 从 
图 7-31、 图 7-32 和 第 8 章 中 从 Origin2000 得 到 的 微 基准 测试 程序 数据 ( 表 11-1)， 可 以 计算 
出 共享 地 址 空间 中 的 远程 读 和 对 使 用 显 式 消息 传递 库 的 显 式 地 消息 传递 读 的 次 数 ，L/o。 

对 于 消息 传递 系统 (CM-5、Paragon、CS-2、NOW-Ultra) ， 很 清楚 ， 它 们 一 次 允许 进行 的 
消息 数量 很 少 ， 其 小 消息 的 时 延 隐 藏 显然 受到 端点 处 理 开销 的 限制 。 因 此 增 大 消息 的 大 小 ， 
会 比重 合 多 个 小 消息 时 延 更 有 效 。 对 于 硬件 支持 的 共享 存储 空间 机 器 (T3d 和 Origon) ， 其 隐 
藏 小 消息 时 延 能 力 则 很 少 受 通信 体系 结构 性 能 参数 的 影响 。 其 主要 的 限制 是 处 理 器 或 缓存 系 
统 支 持 的 待 完成 请 求 的 数量 ， 即 ， 一 个 给 定 的 存储 操作 可 以 产生 多 种 协议 事务 (消息 )， 这 
样 做 加 重 了 辅助 部 件 的 占用 度 。 

懂得 这 些 基 础 ， 我 们 就 可 以 讨论 两 种 主要 通信 抽象 中 的 各 种 技术 。 由 于 显 式 消 息 传递 通 
信 中 的 时 延 包容 都 是 很 简单 的 ， 下 一 节 依 据 同 一 背景 对 4 种 常用 技术 进行 讨论 。 


11.2 显 式 消息 传递 中 的 时 延 包 容 


为 了 搞 清楚 哪 种 时 延 包容 最 有 效 以 及 如 何 应 用 ， 我 们 将 通信 结构 进一步 抽象 ;尤其 是 要 
分 析 清 楚 发 送 者 发 起 与 接收 者 发 起 通信 的 分 布 ， 固 定 与 可 变 消息 的 使 用 特点 。 


11.2.1 通信 结构 


在 显 式 消息 传递 中 的 数据 传输 属于 典型 的 发 送 者 发 起 通信 ;接收 操作 本 身 并 不 能 引起 突 
过 网 络 的 通信 ， 而 只 是 将 活动 缓冲 区 中 的 数据 找 贝 到 应 用 地 址 空间 。 接 收 者 发 起 通信 和 是 首先 
向 数据 的 源 进 程 发 送 请 求 消息 ， 然 后 数据 节点 发 回 数据 2?。 图 11-1 所 示 的 例子 中 的 基准 通信 
结构 是 采用 同步 发 送 和 接受 的 发 送 者 发 起 的 通信 。 一 个 同步 发 送 操作 的 通信 时 延 时 间 包 括 ; 
将 所 有 数据 传输 到 目的 节点 的 时 间 ， 接 收 处 理 时 间 ， 以 及 确认 时 间 。-- 个 接收 操作 的 时 延 是 
指 它 的 处 理 开销 ， 包 括 把 数据 拷贝 到 应 用 区 ， 当 数据 还 没 到 时 还 应 包括 等 待 时 间 。 我 们 应 在 
两 端 隐藏 这 些 时 延 。 为 了 更 好 地 隐藏 开销 ， 我 们 进一步 假定 每 个 端点 开销 发 生 在 通信 辅助 部 
件 上 而 不 是 在 主 处 理 嚣 上， 以 此 分 析 以 上 4 类 时 延 包容 技术 是 如 何 运 用 到 典型 的 发 送 者 发 起 
的 消息 传递 通信 中 的 。 
11.2.2 块 数据 传送 


增 大 消息 的 大 小 对 于 分 摊 开 销 以 及 保证 通信 流水 线 的 速率 不 受 端点 消息 处 理 开销 的 限制 
是 很 重要 的 。 这 些 优点 甚至 在 同步 通信 中 也 可 以 获得 。 然 而 ， 如 想 利 用 计算 或 其 他 消息 来 重 
区 通信 ， 我 们 必须 使 用 其 他 时 延 包 容 方法 。 虽然 这 些 方法 可 用 于 大 《包括 块 传送 )、 小 消息 ， 
而 且 作 为 块 传送 的 补充 ， 我们 仍然 用 基准 通信 结构 中 使 用 的 小 消息 来 说 明 。 








O 在 其 他 一 些 建立 在 消息 传递 机 器 上 的 通信 抽象 中 〈 如 在 第 7 章 所 讨论 的 )， 例 如 远程 过 程 调用 或 主动 消息 ， 接 收 
方 送出 一 个 请 求 消息 和 一 个 处 理 这 个 请 求 的 程序 柄 ， 数 据 源 将 数据 送 回 而 不 需要 涉及 那里 的 进程 。 不 过 ， 我 们 
这 里 将 主要 讨论 经 典 的 消息 传递 ， 它 在 程序 设计 模型 层次 具有 支配 的 地 位 。 
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11.2.3 预 通信 


图 11-8 显示 了 图 11-1 中 消息 传递 程序 的 预 通信 方案 。 发 送 方 Ps 的 循环 分 成 两 部 分 。 所 
有 的 发 送 都 移 到 计算 函数 E (BID 之 前 ,这 些 计算 就 推迟 到 一 个 单独 的 循环 中 。 这 样 ， 发 
送 成 为 异步 操作 ， 进 程 不 必 等 到 这 些 操作 完成 便 可 继续 进行 。 


Pa Pg 

for ic-0 to n-1 do a_receive (myA[Q] from Pa); 

compute Alij]; for i0 to n-2 do 

write Afli]; a_receive (myA[{i+1] from Pa) > 

a_send (A[i] to proc.Pp); while (!recv_probe(myA[i]) {}; 
end for use myA[i]; 
for ie¢0 to n-1 do compute g(B[i]); 

compute £(C[i]); end for 

while (!received(myA[n-1]) {}; 


use myA[n-1]}; 
compute g(B[n-i)) 
图 11-8 在 消息 传递 例子 中 通过 预 通信 来 隐藏 时 延 。 在 这 个 伪 码 中 ， 
[a_send] 和 [a_receive ] 分 别 是 异步 发 送 和 接收 操作 

这 样 做 是 否 是 个 好 主意 呢 ? 其 优点 是 消息 尽 可 能 早 地 发 给 接收 者 ; 缺点 是 在 发 送 方 消息 
之 间 很 少 的 工作 被 重 肆 ， 但 这 样 会 加 重 接收 方 缓冲 区 的 压力 ， 因 为 消息 会 在 需要 之 前 到 来 。 
其 网 络 运行 的 结果 是 否 得 到 收益 依赖 于 每 个 消息 的 开销 、 处 理 器 允许 一 次 进行 的 消息 数 、 接 
收 晚 于 发 送 的 时 间 。 例 如 ， 若 只 有 一 两 个 消息 是 待 完成 的 ， 那 么 我 们 可 以 较 好 地 在 异步 发 送 
之 间 分 散 计算 f (B [] ) 的 ， 例 如 建立 计算 和 通信 的 软件 流水 线 就 可 避免 等 待 这 两 个 消息 
完成 而 停止 工作 。 当 通信 辅助 的 开销 较 大 时 ， 也 应 采取 同样 措施 以 便当 每 个 消息 具有 较 大 的 
辅助 开销 时 使 得 处 理 器 繁忙 。 理 想 情况 是 建立 一 个 平衡 软件 流水 线 将 发 送 操作 上 拉 ， 以 便 在 
消息 发 送 的 间隙 做 适当 的 计算 。 

现在 考虑 图 11-8 中 的 接收 方 Pg 。 要 想 通 过 预 通信 隐藏 接收 方 的 时 延 ， 将 这 些 操作 在 代 
码 中 上 移 ， 并 使 用 异步 接收 。a_receive 调用 简单 地 将 接收 描述 送 到 消息 层 ， 然 后 处 理 器 
继续 进行 。 当 数据 到 来 时 ， 辅 助 通信 得 到 通知 将 数据 移 到 应 用 数据 结构 中 ， 然 后 透明 地 传送 
给 处 理 器 。 在 安全 使 用 这 些 数 据 之 前 ， 应 用 必须 检查 数据 是 否 真 的 到 来 (使 用 recv_prob 
调用 )。 当 发 a_receive 调用 ( 预 发 送 ) 时 ,车 消息 已 经 到 达 ， 则 我 们 所 希望 通过 预 发 送 隐 
藏 的 是 通信 辅助 的 开销 ; 否则 应 该 隐藏 传输 时 延 和 接收 处 理 开销 。 

ERR 7 章 所 讨论 的 ， 接 收 开销 通常 比 发 送 开销 大 。 因 此 ， 当 发 生 (或 预 发 生 ) 许多 异 
芗 接收 的 时 候 ， 如 果 将 它们 之 间 插 进 一 些 计算 ， 而 不 是 一 个 紧 接着 一 个 ， 通 常 效 果 要 好 得 
Z. 否则 ,通信 辅助 部 件 跟 不 上 处 理 器 发 出 它们 的 速度 ， 从 而 一 旦 它们 之 闻 的 缓冲 已 满 ， 处 
理 器 就 会 停 灌 。 解 决 的 方法 之 一 是 像 图 11-8 那样 建立 一 个 计算 和 通信 的 软件 流水 ， 每 一 次 
迭代 发 送 一 个 接收 调用 a receive 以 准备 下 一 次 迭代 的 数据 ， 然 后 进行 当前 迭代 中 的 工作 。 
希望 的 情况 是 ， 当 下 一 个 迭代 来 到 时 ， 当 前 和 欠 代 发 出 的 接收 的 消息 应 已 到 达 ， 而 且 已 处 理 完 
毕 ， 数 据 准备 好 。 如 果 接 收 开 销 大 于 每 次 选 代 的 计算 时 间 ，a _receive HAW RHEE 
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代 发 出 而 不 只 是 提前 一 个 迭代 。 

软件 流水 线 由 三 个 部 分 组 成 。 除 包括 刚才 提 到 的 稳定 状态 循环 部 分 外 ， 为 了 启动 和 结束 流 
水 线 还 要 做 一 些 其 他 的 工作 。 该 例子 中 ， 为 了 执行 稳定 循环 中 的 第 一 次 迭代 ， 开 始 时 需 发 一 个 
接收 数据 调用 ， 结 束 时 应 处 理 好 原 循环 中 的 最 后 一 次 迭代 (该 部 分 工作 不 属于 稳定 循环 ， 因 为 
我 们 不 想 对 一 个 不 存在 的 下 次 迭代 发 异步 接收 )。 对 于 接收 者 发 起 的 情况 ， 也 可 以 建立 类 似 的 
软件 流水 线 。 例 如 ， 若 向 执行 P 的 节点 发 送 a_receive 或 get 操作 请 求 时 ， 该 节点 的 事件 
管理 者 会 对 该 请 求 做 出 反应 ， 并 不 需要 程序 中 的 显 式 发 送 操作 就 可 提供 所 需 数据 。 由 于 接收 或 
获取 操作 通过 网 络 真 正 导致 了 取 数 据 ， 预 通信 策略 又 称 为 数据 预 取 。 鉴 于 实际 的 接收 发 起 者 通 
信和 较 多 发 生 在 共享 地 址 空间 中 ， 因 此 有 关 预 取 的 更 详细 的 情况 将 在 11.6 节 讨 论 。 


11.24 跨越 同一 线程 中 的 通信 


现在 假定 并 不 想 在 代码 中 前 提 通 信 操 作 ， 即 并 不 改变 这 些 操作 在 代码 中 的 位 置 。 该 情况 
下 的 隐藏 时 延 的 一 个 简单 方法 是 ， 将 通信 消息 异步 化 ， 该 线程 可 越过 通信 点 继续 进行 其 他 的 
计算 或 异步 通信 消息 操作 。 我 们 可 以 按照 以 上 的 方法 继续 运行 ， 直 到 遇 到 依赖 通信 消息 完成 
的 操作 ， 或 者 到 了 处 理 器 允许 的 同时 进行 的 未 完成 消息 的 极限 数 。 当 然 ， 在 使 用 预 取 策略 
时 ， 蜡 步 接收 操作 意味 着 我 们 必须 增加 探测 或 同步 指令 以 保证 在 使 用 消息 时 数据 是 有 效 的 
(而 且 在 发 送 端 ， 在 重新 使 用 消息 所 在 的 存储 区 时 ， 其 源 数据 已 经 被 拷贝 或 已 发 出 )。 


11.2.5 多 线程 技术 


多 线程 技术 中 ， 当 一 个 进程 发 出 一 个 发 送 或 接收 操作 后 ， 它 可 以 将 自己 挂 起 ， 并 允许 应 
用 中 的 其 他 就 绪 的 进程 或 线程 执行 。 当 一 个 线程 发 出 接收 或 发 送 操作 后 ， 它 也 会 挂 起 自己 ， 
而 其 他 线程 会 切换 进来 。 我 们 希望 当 切 换 进来 的 线程 执行 后 ， 第 一 个 线程 在 被 调度 时 其 发 出 
的 通信 操作 会 执行 完 。 线 程 的 切换 和 管理 可 由 消息 传递 库 来 负责 ， 而 不 是 由 应 用 程序 。 其 任 
务 是 通过 操作 系统 调用 改变 程序 指针 ， 执 行 其 他 保护 的 线程 管理 功能 。 例 如 ， 发 送 原 语 在 实 
现时 可 使 得 发 送 初始 化 后 自动 引发 线程 切换 (当然 ， 在 处理 节点 上 若 没 有 其 他 的 就 绪 线 程 ， 
则 切换 的 还 是 原 线程 )。 多 线程 技术 甚至 还 可 用 于 同步 消息 传递 编程 模型 。 该 技术 是 Trans- 
puter 上 Occam 语言 的 基础 。 

切换 一 个 线程 需要 保存 重新 启动 所 必需 的 处 理 器 状态 ， 包 括 处 理 器 寄存 器 、 程 序 指针 、 
堆栈 指针 、 各 种 处 理 器 状态 字 。 当 线程 再 切换 回来 时 ， 其 保存 的 状态 应 能 正确 恢复 。 用 软件 
实现 状态 的 保存 和 恢复 是 非常 昂贵 的 ， 会 严重 降低 多 线程 所 带 来 的 好 处 。 一 些 消 息 传递 体系 
结构 已 为 多 线程 技术 提供 硬件 支持 ， 例 如 在 硬件 上 提供 多 组 寄存 器 与 程序 指针 。 值 得 注意 的 
是 ， 运 行 在 同一 主 处 理 器 上 与 应 用 程序 独立 的 支持 异步 消息 的 处 理 程序 的 系统 中 ， 应 用 程序 
与 处 理 程序 间 的 多 线程 技术 是 非常 重要 的 ， 即 使 应 用 程序 本 身 并 没有 用 多 线程 技术 。 这 种 形 
式 的 多 线程 技术 在 某 些 研究 性 的 体系 结构 中 已 被 硬件 支持 〈( 例 如， 消息 驱 动 处 理 器 ，Jma- 
chine [Dally et al.1992; Noakes, Wallach, and Dally 1993]) 。 我 们 在 11.7 节 分 析 共 享 地 址 空间 
中 的 多 线程 技术 时 ， 将 详细 讨论 硬件 支持 问题 。 


11.3 共享 地 址 空间 中 的 时 延 包 容 
本 章 其 余部 分 集中 讨论 基于 共享 地 址 空间 硬件 支持 的 时 延 包容 。 该 问题 的 讨论 要 比 消息 





HUF HEAR 615 
传递 详细 ， 这 是 由 于 : 第 一 ， 已 存在 对 通信 的 硬件 支持 使 得 其 技术 与 体系 结构 和 软 硬 件 接口 
更 为 密切 。 第 二 ， 长 时 延 事 件 的 隐 式 特性 〈 如 通信 ) 使 得 时 延 包容 被 系统 解决 的 可 能 性 比 用 
户 程 序 的 大 。 第 三 ， 从 通信 的 粒度 以 及 基本 通信 机 制 的 效率 来 看 ， 时 延 包容 的 有 效 性 依赖 于 
硬件 技术 的 支持 。 总 之 ， 由 于 很 多 时 延 来 源 于 读 、 写 或 者 指令 CHAR send, receive 等 显 式 
通信 指令 )， 因 此 大 多 数 技术 可 适用 于 单 处 理 器 。 事 实 上 ， 由 于 我 们 并 不 能 提前 知道 哪些 读 
写 操作 导致 通信 ， 时 延 隐藏 的 处 理 方式 更 像 多 处 理 器 共享 地 址 空间 中 通信 的 局 部 访问 。 不 同 
点 是 时 延 大 小 以 及 与 缓存 一 致 性 协议 的 交互 (在 缓存 一 致 性 系统 中 ) 。 

关于 共享 地 址 空间 时 延 包 容 的 多 数 讨论 都 适用 于 缓存 一 致 性 系统 ， 也 适用 于 那些 没有 组 
存 共 享 数据 的 系统 。 多 数 情 况 下 ， 假 设 共享 地 址 空间 (以 及 缓存 一 致 性 ) 是 硬件 支持 的 ， 而 
且 其 通信 和 连贯 的 默认 粒度 为 单个 的 字 或 缓存 块 大 小 。 后 面 章节 中 实验 结果 来 自 于 参考 文 
献 ， 这 些 结果 使 用 了 前 几 章 中 的 几 个 应 用 程序 ， 但 它们 却 是 不 同 的 版 本 ， 具 有 不 同 的 通信 计 
算 比 等 其 他 的 行为 特点 ， 而 且 不 总 是 按照 第 4 章 描述 的 方法 。 在 各 实验 中 ， 所 用 的 系统 参数 
也 随 不 同 的 讨论 而 变 ， 因 此 其 结果 不 能 用 来 比较 不 同 的 技术 ， 而 只 是 为 了 方便 解释 。 像 消息 
传递 一 样 ， 我 们 首先 简要 介绍 本 节 用 的 抽象 通信 结构 。 


通信 结构 


共享 地 址 空间 的 基准 通信 是 通过 读 和 写实 现 的， 方便 地 称 为 读 写 通信 。 典 型 的 接收 者 发 
起 的 通信 是 通过 存储 操作 实现 的 ， 该 存储 操作 会 导致 另 一 个 处 理 器 中 存储 器 或 缓存 的 数据 被 
访问 。 因 此 ， 它 是 单 处 理 器 编程 模型 中 存储 访问 的 自然 扩展 : 当 需 要 时 就 访问 存储 字 。 

如 果 共 享 数 据 没 有 缓存 ， 发 送 者 发 起 的 通信 可 以 通过 写 远程 内 存 的 数据 得 以 实现 2 。 对 
于 缓存 一 致 性 的 系统 ， 其 写 的 效果 更 为 复杂 。 写 操作 导致 发 送 者 发 起 的 通信 还 是 接收 者 发 起 
的 通信 依赖 于 缓存 一 致 性 协议 。 例 如 ， 假 设 处理 器 P, 向 分 配 在 处 理 器 P, 的 内 存 写 一 个 字 。 
在 基于 无 效 的 缓存 一 致 性 协议 ， 当 采用 回 写 策略 时 ， 读 操作 只 是 产生 独占 的 读 或 更 新 请 求 以 
及 可 能 的 无 效 操作 ， 同 时 数据 会 传送 给 自己 。 事 实 上 ， 这 种 协议 并 不 会 将 最 近 的 数据 传 到 
Ps。 然 而 请 求 和 无 效 操作 也 包括 网 络 事务 ， 隐 藏 其 中 的 时 延 也 很 重要 ， 以 后 Ps 读 写 数据 时 
就 会 导致 新 值 从 P, 传送 到 Ps 的 实际 通信 。 这 种 情况 实际 上 是 接收 者 发 起 的 通信 。 或 许 ， 异 
步 通信 也 会 使 P 缓存 中 的 数据 传 回 到 Ps 内 存 并 替换 原来 的 数据 。 另 一 方面 ， 在 有 的 更 新 协 
议 中 ， 如 果 Ps 的 缓存 保存 着 数据 的 拷贝 ， 则 写 操作 本 身 会 使 数据 从 P 传送 到 P, 进行 通信 。 

无 论 是 发 送 者 发 起 的 通信 还 是 接收 者 发 起 的 通信 ， 在 共享 地 址 空间 中 通过 硬件 支持 的 通 
信 自然 就 是 细 粒 度 的 ， 因 此 也 使 得 时 延 包容 特别 重要 。 不 同 的 时 延 包容 方法 适合 于 不 同 的 时 
延 类 型 与 量 级 ， 而 且 得 到 不 同 商业 产品 的 接受 。 下 面 的 章节 将 详细 地 讨论 这 些 方法 。 


11.4 共享 地 址 空间 中 的 数据 成 块 传送 


在 共享 地 址 空间 中 ， 显 式 地 通过 用 户 程序 或 者 透明 地 通过 系统 都 可 以 实现 将 数据 合并 成 
大 数据 块 并 启动 块 传输 。 例 如 ， 现 代 计算 机 中 流行 使 用 的 长 缓存 块 是 对 缓存 块 大 小 的 消息 透 
明 块 传送 的 一 种 方法 。 放 松 存储 一 致 性 模型 还 可 进一步 允许 我 们 对 字 或 缓存 块 进行 缓冲 ， 仅 








鸟 “ 一 种 有 趣 的 情形 是 ， 一 个 处 理 器 向 分 配给 另 一 个 处 理 器 内 存 中 的 某 个 字 做 写 操作 ， 第 三 个 处 理 器 再 读 这 个 字 。 在 这 种 
情形 下 ， 将 数据 从 生产 者 到 消费 者 引起 了 两 种 数据 通信 事件 一 一 是 “发 送 方 启动 的 "， 一 是 “接收 方 启动 的 ”。 
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仅 在 同步 点 在 合并 消息 中 将 它们 发 送 ， 这 在 第 9 章 提 到 的 软件 共享 地 址 空间 系统 中 特别 有 
用 。 然 而 ， 这 里 将 集中 讨论 块 传输 的 显 式 发 起 。 


11.4.1 技术 和 机 制 


显 式 块 传送 通过 显 式 地 发 出 一 个 put 命令 发 起 ， 与 send 命令 相似 ,但 由 用 户 程序 中 的 
发 送 者 提供 源 和 目的 地 址 ， 1.9 是 简章 的 描述 。 其 中 ， put 命令 由 通信 辅助 部 件 解释 ， 
然后 将 数据 按照 流水 线 的 方式 从 源 节点 传输 到 目的 节点 。 在 目的 端 ， 通 信和 辅助 部 件 将 数据 从 
网 络 传输 到 特殊 的 存储 区 ， 其 处 理 路 径 如 图 11-10 所 示 。 发 送 / 接 受 消息 传递 机 制 的 主要 区 别 
在 于 发 送 进 程 直 接 指定 程序 数据 结构 (虚拟 地 址 ) 的 能 力 。 既 然 存储 区 是 共享 的 地 址 空间 ， 
以 上 数据 结构 即 为 目的 节点 存放 数据 的 存储 区 。 由 于 将 到 的 消息 会 指定 数据 应 放 的 程序 地 址 
空间 ， 接 收 操作 在 编程 模型 中 是 不 需要 的 。 如 果 目 的 节点 的 辅助 通信 和 是 可 用 的 并 将 数据 直接 
从 网 络 接口 保存 到 内 存 中 的 数据 结构 ， 在 目的 节点 中 的 内 存 系统 中 的 缓冲 和 拷贝 也 是 不 必要 
的 。 然 而 ， 我 们 必须 采用 某 种 形式 的 同步 〈 如 对 标志 轮 询 或 阻塞 ) 以 保证 目的 端 进程 在 使 用 
数据 之 前 所 需 的 数据 已 经 来 到 ， 同 时 还 要 保证 数据 到 来 时 目的 端的 存储 区 是 可 用 的 。 我 们 也 
可 能 使 用 接收 者 发 起 的 块 传输 形式 ， 此 时 传输 数据 的 请 求 是 由 接收 者 发 起 的 ， 而 由 源 的 辅助 
通信 来 处 理 。 


pa pg 
for i¢0 to n-i do 
AfiJe@...; 
end for 


put (A[0..n-1} to tmp[O..n-1)); 


flag © 1; while (!flag) {}; /*spin-wait*/ 
for it0 to n-1 do for i@1 to n-1 do 
compute f(C[i)); use tmplil; 
end for compute g(B[il); 
end for 


图 11-9 对 于 图 11-1 中 的 例子 ， 在 共享 地 址 空间 用 块 传送 的 情形 。 数 组 4 
分 配 在 处 理 器 P 的 本 地 存储 器 ， 数 组 tmp 分 在 Ps 的 本 地 存储 器 


1. 源 处 理 器 通知 辅助 部 件 
2 .执行 如 下 流水 线 操作 直 
到 存储 数据 块 通信 完毕 
2a 源 辅助 部 件 读数 据 块 
2b TAIERE 


2c 目 的 辅助 部 件 存放 数 
据 块 





3. 目的 处 理 器 检查 状态 


图 11-10 在 共享 地 址 空间 的 机 器 从 源 节 点 到 目的 节点 块 传送 的 通路 。 传 
送 以 缓存 块 为 单位 ，. 因 为 它 是 机 器 优化 所 针对 的 通信 的 粒度 
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节点 上 执行 块 传送 的 通信 辅助 部 件 可 以 使 用 与 处 理 一 致 性 协议 事务 的 同一 硬件 ， 也 可 以 
是 专用 于 块 传送 的 独立 DMA 引擎 。 通 信和 辅助 部 件 在 功能 设计 上 可 有 所 不 同 ， 例 如 可 以 只 人 允 
许 连续 的 数据 块 传送 、 等 步 长 、 或 者 更 通用 的 分 发 -收集 (scatter-gather) 操作 。 块 传送 可 借 
助 于 对 缓存 块 传送 的 有 效 支 持 ， 也 可 以 是 完全 独立 的 机 制 。 在 一 致 性 共享 存储 空间 中 块 传送 
可 能 需要 与 一 致 协议 相互 作用 ， 因 此 假定 块 传送 是 建立 在 整个 缓存 块 的 流水 线 传送 的 基础 
上 ;， 即 块 传送 引擎 是 源 端 辅助 硬件 的 一 部 分 ， 该 辅助 器 从 内 存 中 读 出 缓存 块 并 以 流水 线 的 方 
式 传 送 给 网 络 。 图 11-10 显示 了 在 缓存 一 致 性 共享 地 址 空间 中 可 能 的 一 种 块 传送 实现 步骤 。 


11.4.2 策略 问题 和 折 中 方案 


块 传送 中 有 两 个 有 趣 的 策略 问题 : 与 基本 的 共享 地 址 空间 的 交互 以 及 缓存 一致 性 协议 如 
何 处 理 ， 在 目的 节点 上 块 传送 的 数据 存放 在 哪儿 。 

1、 与 高 速 缓存 一 致 性 共享 地 址 空间 的 交互 

第 一 个 有 趣 的 交互 是 与 共享 地 址 空间 本 身 有 关 ， 而 与 是 否 包括 自动 一 致 缓存 无 关 。 在 块 
传送 中 一 个 处 理 器 “ 放 ” 的 数据 可 能 不 在 其 局 部 存储 器 中 ， 而 在 另 一 个 处 理 节 点 的 存储 器 中 
或 其 至 分 布 在 其 他 节点 的 存储 器 中 。 这 里 的 选择 不 允许 出 现 这 样 的 传送 ， 发 起 节点 从 其 他 存 
储 中 检索 数据 并 以 流水 线 的 方式 转发 ， 或 者 让 发 起 节点 向 拥有 节点 的 通信 辅助 部 件 发 消息 并 
要 求 它 们 执行 相关 的 传送 。 

由 于 目前 同一 个 数据 结构 可 以 以 两 种 不 同 的 协议 〈 块 传送 与 缓存 一 致 ) 通信 ， 第 二 种 交 
互 是 与 具体 的 缓存 一 致 性 共享 地 址 空间 相关 的 。 不 管 数据 分 配 到 哪个 主 存 ， 它 可 能 缓存 在 发 
送 者 的 缓存 中 成 胜 态 ， 在 接受 者 的 缓存 中 成 共享 态 或 在 其 他 处 理 器 (包括 接收 者 ) 的 缓存 中 
成 胜 态 。 前 两 种 情况 造成 了 所 谓 的 局 部 一 致 性 问题 ， 也 就 是 说 ， 保 证 发 送 的 数据 成 为 发 送 方 
的 最 新 值 ， 传 输 后 保证 接收 方 的 数据 成 为 一 致 状态 。 第 三 种 情况 形成 了 称 为 全 局 一 致 性 问 
i; 也 就 是 说 ， 保 证 系统 中 任何 地 址 的 值 在 传送 后 都 成 为 最 新 值 (按照 -一致 性 模型 )， 而 且 
与 传输 有 关 的 数据 在 整个 系统 中 都 是 一 致 的 。 再 次 重申 ， 这 里 的 选项 并 不 保证 以 上 三 种 中 的 
任何 情况 ; 只 是 提供 局 部 一 致 而 非 全 局 一 致 ， 或 者 完全 的 全 局 一 致 。 每 一 个 后 续 情 况 都 使 问 
题 的 工作 更 简单 ， 但 给 通信 辅助 部 件 带 来 更 多 的 要 求 。 要 提供 一致， 通信 辅助 部 件 必须 检查 
每 一 个 被 传送 块 的 状态 ， 对 从 相应 的 缓存 中 检索 数据 并 作废 缓存 中 数据 。 传 输 的 数据 可 能 与 
缓存 块 不 是 对 齐 的 ， 这 就 使 得 块 级 的 一 致 性 变 得 更 为 复杂 ， 这 与 有 发 送 节 点 不 包含 被 传送 数 
据 的 目录 信息 的 可 能 性 是 一 样 的 。 显 式 消息 传递 编程 模型 在 该 方面 的 做 法 较 简单 : 由 于 一 个 
进程 所 能 访问 (或 传输 ) 的 任何 数据 都 在 其 私有 的 地 址 空间 ， 并 不 能 被 任何 其 他 的 处 理 器 组 
存 ， 因 此 它 只 要 求 局 部 一 致 而 非 全 局 一 致 。 

在 块 传送 中 即使 保持 局 部 的 一 致 性 ， 通 信和 辅助 部 件 对 每 个 缓存 块 都 要 做 些 工作 ， 并 成 为 传 
输 流水 线 的 完整 部 分 。 因 此 ， 这 种 通信 辅助 部 件 又 可 能 成 为 传输 带宽 的 瓶颈 ， 其 至 影响 那些 并 
个 要求 交 互 的 缓存 块 。 全 局 一 致 可 能 要 求 通信 辅助 部 件 在 发 送 每 个 块 之 前 向 周围 发 送 网 络 事务 
以 戏剧 化 地 减 小 带宽 。 对 于 一 个 块 传输 系统 来 说 , “使 用 收费 ”的 特性 是 很 重要 的 : 即 一 致 性 
传输 不 应 损害 无 需 一 致 情况 下 的 性 能 ， 尤 其 是 后 者 是 大 概率 事件 时 。 例 如 ， 当 块 传送 应 用 于 仅 
支持 显 式 消息 传递 的 程序 中 ， 而 不 加 速 其 他 读 写 的 共享 地 址 空间 程序 中 的 粗 粒 度 通 信 时 ， 仅 仅 
提供 局 部 一 致 而 非 全 局 一 致 是 有 道理 的 。 然 而 ， 像 例 11.1 所 描述 的 ， 要 想 基 于 一 致 读 写 共 享 
地 址 空间 提供 真正 完善 的 块 传送 ， 而 且 还 不 对 编程 模型 进行 限制 ， 全 局 一 致 性 是 本 质 的 。 
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例 11.1 给 出 需要 全 局 一 致 的 简单 例子 ， 假 设 情况 为 缓存 一 致 性 共享 地 址 空间 块 传送 。 

解答 : 考虑 伪 共 享 的 情况 。 一 个 处 理 器 P 要 将 可 能 分 配 在 P 的 本 地 内 存 数 据 发 给 P 处理 
器 ,但 另 一 个 处 理 器 P 最 近 已 经 在 向 这 些 缓存 块 写 人 了 其 他 字 。 则 这 些 缓存 块 在 P, 中 是 无 效 
状态 ， 为 了 将 数据 发 给 P P 必须 将 数据 从 P, 收回 。 假 伪 共 享 的 例子 如 下 : 不 难看 出 ， 在 真 
正 的 共享 地 址 空间 的 程序 中 ， 从 P 发 送 到 已 的 字 本 身 也 许 已 经 被 另 一 个 处 理 器 更 新 。 国 

缓存 一 致 机 器 中 更 详细 的 有 关 块 传送 情况 可 参考 文献 (Kubiatowicz and Agarwal 1993; 
Heinlein et al.1994; Woo, Singh, and Hennessy 1994; Heinlein et al. 1997 )。 

2， 何 处 存放 传送 数据 

其 他 的 令 人 感 兴趣 的 策略 问题 是 块 传送 的 数据 放 在 目的 端的 主 存 中 、 缓 存 中 还 是 两 者 都 
放 。 由 于 目的 端 会 读数 据 ， 数 据 放 人 缓存 是 有 用 的 。 然 而 ， 这 也 有 不 利 的 地 方 。 首 先 ， 会 干 
预 处 理 器 缓存 ， 这 在 现代 系统 中 开销 较 大 ， 而 且 同 时 会 阻碍 处 理 器 访问 缓存 。 第 二 ， 除 非 很 
快 使 用 传送 的 数据 ， 否 则 会 被 替换 出 缓存 ， 因 此 为 了 减少 局 部 缓存 扑 空 应 当 存 入 主 存 。 第 
三 ， 也 是 最 危险 的 ， 传 送 的 数据 会 蔡 换 出 缓存 里 的 其 他 正 处 于 当前 处 理 器 的 活动 工作 集中 的 
数据 。 由 于 这 些 原 因 ， 将 大 数据 块 传人 小 的 第 一 层 缓存 是 不 可 取 的 ， 而 传人 较 大 的 第 二 层 组 
存 中 更 为 有 用 。 


11.4.3 性 能 收益 


在 共享 地 址 空间 中 使 用 大 的 显 式 传送 比 缓存 块 大 小 的 隐 式 通信 具有 多 种 优点 。 然 而 ， 前 
面 讨论 的 消息 传递 的 一 些 优点 会 被 打折 扣 ， 而 且 也 有 一 些 缺 点 。 我 们 将 定量 地 讨论 折 中 方案 
并 对 一 些 性 能 数据 进行 分 析 。 

1. 潜在 的 优点 和 缺点 

以 下 是 块 传送 的 主要 性 能 优点 (前 两 种 已 在 消息 传递 中 讨论 过 ， 因 此 这 里 只 指出 其 区 别 )。 

。 分摊 每 个 消息 的 开销 。 此 优点 也 许 并 不 十 分 重要 ， 因 为 硬件 支持 的 共享 地 址 空间 中 
的 块 传送 的 终点 开销 已 经 很 小 。 事 实 上 ， 显 式 的 可 变 大 小 传输 比 小 的 固定 长 度 传送 
更 趋向 于 较 大 的 终点 开销 ， 因 为 备用 的 缓冲 硬件 很 容易 实现 ， 而 前 者 需要 软件 管理 
和 拷贝 。 结 果 ， 抉 传送 每 次 通信 开销 可 能 大 于 读 - 写 遂 信 。 很 多 系统 的 块 传送 机 制 很 
像 DMA 设备 ， 且 对 物理 地 址 进行 操作 ， 因 此 它们 运行 于 内 核 模 式 而 且 请 求 系统 调 
用 ， 太 大 增加 了 开销 。 这 种 开销 增加 成 为 几 种 商用 的 硬件 一 致 性 机 器 主要 的 阻碍 ， 
目前 这 些 设备 主要 用 来 处 理 系统 操作 (如 页 面 迁移 等 ) 而 不 是 应 用 程序 。 然 而 ， 在 
效率 不 高 的 通信 结构 中 ， 例 如 一 些 由 商品 化 部 件 构成 的 系统 ， 其 每 次 通信 开销 〈 甚 
至 缓存 块 传送 ) 是 很 大 的 ， 基 于 块 传送 的 开销 分 摊 则 显得 非常 重要 。 
大 片 数据 的 流水 线 传送 。 
浪费 的 带宽 较 少 。 通 常 ， 消 息 越 大 ， 则 消息 头 和 路 由 信息 相对 于 有 效 载荷 的 开销 就 
越 小 。 在 现存 的 缓存 行 传送 机 制 中 每 个 缓存 块 都 要 发 送 一 个 头 消息 。 因 此 ， 若 建立 
在 这 种 机 制 上 ， 块 传送 的 上 述 优点 就 会 消失 。 运 用 适当 ， 则 块 传送 也 能 减 小 协议 
CHO, 无效、 确认 等 ) 的 消息 数 。 
传送 数据 在 目的 节点 主 存 中 的 复制 。 由 于 块 传送 通常 写 人 主 存 ， 以 后 在 目的 节点 就 
会 造成 局 部 容量 扑 空 。 这 就 会 减 小 目的 节点 不 得 不 执行 的 远程 容量 扑 空 ， 就 像 CO- 
MA 机 器 一 样 。 然 而 ,不 采用 COMA 体系 结构 ， 那 么 用 户 就 要 管理 主 存 中 复制 数据 的 





一 致 和 替换 。 
同步 和 数据 传输 的 绑 定 。 同 步 标 志 可 以 与 传输 的 消息 结合 在 一 起 ， 不 必 将 数据 传输 
与 同步 分 离 。 虽 然 缺少 显 式 块 接收 操作 ， 从 功能 上 讲 意 味 着 在 端 节点 同步 管理 仍然 
要 与 数据 传输 分 开 ， 这 与 异步 消息 传递 一 样 ， 但 这 会 减 小 需要 的 消息 数 。 
块 传送 的 潜在 的 性 能 缺点 : 
。 每 次 传送 开销 高 。 
。 冲突 增加 。 长 消息 会 在 终点 以 及 网 络 中 造成 较 高 的 竞争 率 ， 因 为 它 在 每 次 发 送 时 占 
用 更 多 的 资源 : 其 提供 的 时 延 包 容 要 求 通信 体系 结构 具有 高 的 带宽 。 另 一 方面 ,前 
面 已 讨论 过 ， 与 缓存 一 致 性 协议 相 比 ， 协 议 消息 要 求 的 带宽 相对 减少 。 
额外 工作 。 为 了 进行 大 块 传输 〈 若 能 有 效 的 完成 )， 程 序 必须 做 额外 的 组 织 工作 。 这 种 额 
外 的 工作 有 时 会 比 块 传输 带 来 的 效益 代价 还 高 (参看 第 3 章 3.6 节 Bames-Hut 的 应 用 )。 

例 11.2 说 明了 使 用 块 传输 而 不 用 读 - 写 的 性 能 改进 ， 尤 其 是 在 分 摊 开 销 和 流水 线 数据 
传输 方面 。 

例 11.2 假设 我 们 将 4 KB 的 数据 从 源 节点 传送 到 目的 节点 ， 其 中 使 用 缓存 一 致 性 共享 
地 址 空间 机 器 ， 一 个 缓存 块 大 小 为 64 字 节 。 假 设 内 存 中 的 数据 是 连续 的 ， 以 便 空间 局 部 性 
可 得 到 很 好 地 开发 。( 当 空间 局 部 性 不 是 很 好 时 ， 习 题 11.6 讨论 的 问题 会 发 生 ) 假定 从 内 存 
中 读 出 一 个 缓存 块 ， 源 通信 辅助 部 件 花费 40 个 处 理 器 周期 ， 需 要 50 个 处 理 器 周期 通过 网 络 
接口 发 出 ， 接 收 者 的 补充 操作 也 花费 同样 的 处 理 器 周期 。 假 设 局 部 读 扑 空 时 延 为 60 个 周期 ， 
远程 读 扑 空 时 延 为 180 个 周期 ， 启 动 一 个 缓存 块 传送 时 间 为 200 周期 。 采 用 块 传送 方式 比 组 
存 扑 空 方式 有 多 少 性 能 提高 ”假设 缓存 操作 时 处 理 器 阻塞 存储 操作 直到 完成 。 

解答 : 从 处 理 角度 看 ， 通 过 读 扑 空 得 到 数据 的 开销 为 : 180 x (4 096/64) = 11 520 周 
期 。 使 用 块 传送 时 ， 传 输 流 水 线 的 最 大 速率 为 max (40, 50, 50, 40) 即 50 周期 / 块 。 这 就 
将 数据 传 到 了 目的 节点 的 局 部 存储 区 ， 处 理 器 通过 局 部 读 扑 空 读 人 ， 每 次 扑 空 开销 为 60 个 
周期 。 于 是 ， 目 的 处 理 器 通过 块 传送 得 到 数据 的 开销 为 200 + (4 096/64) x (50+60)， 即 
7 240 周 期 。 因 此 ， 使 用 块 传送 的 加 速 比 为 11 520/7 240=1.6. W 

实现 块 传送 的 另 一 种 方法 是 使 用 向 量 操作 ， 例 如 对 远程 内 存 的 向 量 读 。 在 这 种 情况 下 ， 
一 个 指令 就 可 将 数据 读 人 向 量 寄存 器 ， 并 不 需要 多 条 的 装 和 人 /保存 指令 ， 同 时 可 节约 指令 带 
宽 和 局 部 缓存 扑 空 。 通 常 的 向 量 寄存 器 是 由 软件 管理 的 ， 其 缺点 是 寄存 器 别名 或 名 字 绑 定 ， 
但 优点 是 减少 缓存 冲突 。 然 而 ， 现 在 的 许多 高 性 能 系统 并 不 含有 向 量 操作 ， 因 此 我 们 将 集中 
讨论 需要 单个 局 部 读 写 操作 访问 和 使 用 数据 的 块 传送 。 

2. 实际 程序 中 的 性 能 效益 和 限制 

块 传送 能 否 有 效 地 应 用 于 实际 程序 依赖 于 程序 和 系统 的 特性 。 现 考虑 一 个 服从 块 传送 的 
简单 例子 ， 网 格 上 的 近邻 方程 求解 器 ， 以 分 析 性 能 受到 的 影响 。 在 此 忽略 前 面 讨论 的 一 致 性 
的 复杂 性 ， 并 假设 传输 是 从 源 节 点 的 主 存 到 目的 节点 的 主 存 ， 而 且 在 任何 地 方 数据 不 被 组 
存 。 我 们 假设 一 种 二 维 网 格 的 四 维 数组 表示 ， 以 及 网 格 在 处 理 器 局 存 中 的 一 种 划分 。 

如 图 11-11 所 示 ， 这 里 处 于 分 区 的 元 素 并 不 是 通过 单独 的 缓存 块 通信 ， 而 是 一 个 进程 可 
将 包含 所 有 相应 元 素 的 消息 一 次 传送 给 其 相 邻 者 。 通 信 与 计算 的 比率 与 PREES., h 
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于 块 传送 的 目的 是 提高 通信 的 性 能 ， 该 比率 本 身 表 示 了 随处 理 器 的 增加 块 传送 的 相对 有 效 
性 。 然 而 ， 每 个 传输 块 大 小 为 mW 个 元 素 ， 因 此 随 p 的 增加 而 减 小 。 传 输 块 的 减 小 意味 着 
块 初始 化 开销 相对 重要 。 这 两 种 因素 的 折 中 产生 了 -一 个 理想 点 ， 该 点 是 在 给 定 网 格 大 小 〈 如 图 
11-12 所 示 ) 时 ， 块 传送 最 有 效 的 处 理 器 数 。 当 网 格 大 小 增 大 时 ， 该 点 移 向 更 大 的 处 理 器 数 。 








图 11-11 在 近邻 方程 求解 器 中 块 传送 技术 的 使 用 。 一 个 进程 可 以 将 它 的 划分 中 的 一 整 行 或 者 列 
以 一 个 消息 发 送 给 在 单个 消息 中 拥有 邻居 划分 的 进程 。 每 个 消息 的 大 小 是 nyp 个 元 素 
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图 11-12 块 传送 所 带 来 的 相对 性 能 改善 。 
图 中 给 出 了 使 用 块 传送 正常 化 
使 用 装载 和 存放 的 执行 时 间 。 
最 低 点 发 生 在 通信 和 量 足 够 大 ， 
处 理 器 数目 并 且 开 销 不 起 支配 作用 的 时 候 


图 11-13 表示 了 在 FFT 应 用 中 该 理想 点 的 效果 ， 其 环境 为 Stanford FLASH 多 处 理 器 系统 
的 模拟 体系 结构 ， 与 SGI Origin2000 十 分 接近 (虽然 它 的 块 传送 能 力 和 性 能 更 强 )。 我 们 看 到 
当 缓存 块 增加 时 块 传送 对 于 一 般 的 缓存 一 致 通信 的 相对 收益 逐渐 消失 ， 这 是 因为 该 程序 中 的 
极 好 的 空间 局 部 性 使 得 长 缓存 块 本 身 的 行为 与 小 块 传输 类 似 。 对 于 最 大 为 128 字 节 的 缓存 块 
(SGI Origin2000 中 的 实际 块 大 小 )， 使 用 块 传送 的 收益 很 小 ， 即 使 用 非常 有 效 的 块 传送 器 。 
图 11-14 是 在 Ocean 上 的 结果 ， 这 是 图 11-11 表示 的 基于 最 近邻 接 通 信 的 更 完全 、 更 规则 的 
应 用 。 在 面向 行 划 分 块 传送 的 连续 数据 的 边界 ， 这 具有 很 好 的 空间 局 部 人 性， 在 按 列 划分 块 的 
边界 时 ， 空 间 局 部 性 就 较 差 ;如 何 开 发 好 块 传送 还 存在 困难 。 当 用 基于 整个 缓存 块 的 流水 实 
现 块 传送 时 ， 除 非 处 于 列 边界 的 字 首 先 拷贝 到 一 块 连续 的 数据 结构 中 ， 和 否则 边界 的 每 个 字 都 
会 通过 单独 的 缓存 块 传送 。 总 的 来 看 ，0cean 中 的 通信 和 计算 比 要 比 FFT 小。 虽然 随 着 处 理 
器 数 减 小 该 比率 在 多 网 格 求解 器 的 网 格 层 的 高 层次 上 会 增加 ， 但 该 层次 上 的 块 传输 仍然 很 
小 ， 并 不 能 分 摊 开 销 。 其 结果 表示 块 传送 对 这 样 的 应 用 没有 多 少 帮助 ， 而 且 块 传送 的 相对 收 
益 对 缓存 快 大 小 的 依赖 性 并 不 很 大 。 其 他 应 用 的 定量 分 析 数 据 参看 (Woo, Singh, and Hen- 
nessy 1994) , 
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的 描述 较 大 ， 那 么 其 传输 可 用 块 传 送 ; 有 关 的 数据 情况 也 是 一 样 的 ， 而 且 有 关 任 务 队列 需要 
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的 同步 也 可 与 这 些 传 输 捆绑 在 一 起 。 
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图 11-13 在 快速 傅立叶 变换 程序 中 成 块 数据 传送 带 来 的 收益 。 两 个 图 分 别针 对 两 种 不 同 的 问题 规模 。 所 用 
的 体系 结构 模型 和 参数 类 似 于 Stanford FLASH 多 处 理 器 。 (Kuskin et al.1994) 也 和 SGI Origin 2000 
相似 。 每 条 曲线 针对 二 级 缓存 中 不 同 的 缓存 块 大 小 (8)，y 轴 表 示 规 格 化 后 的 执行 时 间 ， 规 格 化 
基准 是 同样 缓存 块 大 小 但 没 用 块 传送 方式 的 执行 时 间 。 这 样 ， 不 同 曲 线 的 规格 化 基础 是 不 同 的 
( 自 规 格 化 )， 相 同 x 轴 数 值 对 不 同 缓存 块 大 小 可 能 对 应 相同 的 执行 时 间 ， 但 它们 在 图 中 不 一 定 规 
格 化 到 同样 的 y 值 。 一 个 点 的 y 值 越 大 ， 意 味 着 块 传送 相对 于 普通 读 写 通信 的 性 能 改善 越 小 
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图 11-14 在 Ocean 应 用 程序 中 成 块 数据 传送 带 来 的 收益 。 其 平台 和 数据 的 含义 与 图 11-13 的 完全 相同 。B 是 
机 器 的 二 级 缓存 块 大 小 。 得 到 的 收益 以 及 对 缓存 块 大 小 的 依赖 性 不 像 快速 传 立 叶 变换 程序 那么 大 
块 传送 能 获 益 的 明显 的 一 种 情况 是 : 启动 远程 读 写 访问 的 开销 非常 高 ; 例如 ， 当 共享 地 址 
空间 用 软件 实现 时 即 是 如 此 。 要 知道 通信 体系 结构 其 他 参数 (如 网 络 时 延 、 点 对 点 带宽 等 ) 的 
效果 ， 就 得 对 块 传送 进行 更 多 的 分 析 。 在 此 我 们 仍然 假定 读 扑 空 使 处 理 器 停滞 ， 且 没有 时 延 隐 
藏 ， 通 常 来 说 ， 通 过 远程 读 扑 空 传送 一 个 大 数据 块 的 时 间 是 : 读 扑 空 数 x 远程 读 扑 空 时 间 ， 通 
过 块 传送 使 数据 到 达 目 的 处 理 器 的 时 间 是 ， 启动 开销 + 缓存 块 传输 次 数 x 每 个 缓存 决 的 流水 段 
时 间 + 读 扑 空 数 x 局 部 读 扑 空 时 间 。 最 简单 的 情况 是 可 以 忽略 启动 开销 的 非常 大 的 连续 数据 

片 ， 并 假定 具有 很 好 的 空间 局 部 性 。 在 这 种 情况 下 ， 块 传送 的 加 速 比 限 制 在 下 面 比率 : 
远程 读 扑 空 时 间 (11-1) 

块 传送 流水 段 时 间 + 局 部 读 扑 空 时 间 


其 中 块 传送 流水 段 时 间 是 图 11-10 所 示 的 每 个 流水 段 中 的 最 大 值 。 
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一 个 长 的 网 络 时 延 意味 着 远程 读 扑 空 时 间 的 增加 。 若 点 对 点 的 网 络 带宽 并 不 随 着 网 络 时 
延 增加 而 减 小 ， 则 其 他 的 条 件 不 爱 影响 ， 同 时 较 长 的 时 延 可 支持 块 传送 。 另 外 ， 网 络 带宽 也 
可 以 随 着 时 延 增加 而 成 反比 例 减 小 ; 例如 ， 网 络 时 延 是 通过 减 小 网 络 时 钟 速度 引起 的 。 此 
时 ， 随 着 时 延 增加 ， 在 某 一 点 数据 进入 网 络 的 速度 就 比 通信 辅助 部 件 读 写 内 存 的 速度 小 。 直 
到 该 点 ， 存 储 访问 时 间 决 定 着 块 传输 流水 线 分 段 的 时 间 ， 于 是 网 络 时 延 的 增加 并 没有 改变 块 
传输 的 性 能 ， 因 此 这 是 有 助 于 块 传输 的 。 超 过 该 点 之 后 ， 两 者 比率 的 分 子 和 分 母 随 着 网 络 时 
延 以 相同 的 速度 增加 ， 因 此 块 传送 的 有 关 优 点 仍 保持 不 变 。 

最 后 ， 假 设 时 延 和 开销 国定， 而 带宽 变化 〈 如 给 网 络 链 路 增加 连 线 )。 我 们 也 许 认 为 基 
于 远程 读 停滞 的 通信 和 是 受 时 延 约 束 的 ， 而 块 传送 是 受 带宽 约 东 的 ;于 是 增加 带宽 应 当 有 助 于 
块 传送 。 当 网 络 带宽 限制 块 传送 流水 线 分 段 时 间 时 ， 这 种 说 法 是 对 的 。 然 而 ， 当 增加 网 络 带 
宽 超过 该 点 时 ， 就 意味 着 存储 访问 时 间 将 成 为 瓶颈 ， 因 此 继续 增加 带宽 并 不 能 改进 块 传输 的 
性 能 。 减 小 带宽 则 具有 相反 的 效果 。 因 此 ， 当 其 他 变量 保持 不 变 时 ， 块 传送 在 下 列 情况 下 会 
更 有 效 : 增加 每 个 消息 开销 ， 增 加 网 络 时 延 ， 增 加 带宽 ， 直 到 某 一 点 。 

总 之 ， 通 过 读 - 写 缓存 一 臻 通信 实现 的 块 传送 ， 其 性 能 改进 依赖 于 下 列 因素 : 

。 在 抉 传送 中 花费 在 通信 上 的 执行 时 间 部 分 。 

。 为 了 块 传送 组 织 通信 而 必须 的 额外 工作 。 

。 问题 大 小 和 处 理 器 数 ， 这 会 影响 通信 和 计算 比 与 传送 的 大 小 。 

。 系统 的 开销 、 时 延 与 带宽 。 

。 程序 的 空间 局 部 性 以 及 与 传输 的 粒度 如 何 进行 交互 。 

如 果 我 们 能 够 使 得 所 有 消息 变 得 足够 大 ， 通 信 的 时 延 部 分 可 能 不 是 问题 ， 则 带宽 成 为 重 
要 的 限制 。 但 是 ， 如 果 不 能 ， 我 们 仍然 还 要 通过 重 倒 计算 或 其 他 的 访问 来 隐藏 访问 数据 的 时 
延 。 其 他 三 种 时 延 隐藏 方法 即 是 这 样 做 的 ; 然而， 要 想 对 缓存 块 大 小 的 传输 取得 成 功 ， 还 需 
要 在 微 处 理 器 级 进行 支持 。 除 预 通信 之 外 ， 下 面 我 们 将 讨论 在 同一 个 线程 计算 中 移 过 长 时 延 
访问 的 技术 。 


11.5 ”跨越 长 时 延 事件 


若 访 存 操作 是 非 阻塞 的 ， 则 处 理 器 可 越过 访 存 操作 而 执行 其 他 的 指令 。 对 于 写 操作 ， 这 
种 跨越 可 直接 进行 : 将 写 操作 放 人 写 缓冲 ， 处 理 器 可 继续 进行 。 写 缓冲 可 负责 将 写 操作 发 送 
给 存储 系统 ， 而 且 跟 踪 其 操作 的 完成 。 很 多 处 理 器 可 支持 非 阻 塞 的 读 操作 : 读 操作 进行 时 ， 
处 理 器 可 执行 其 他 的 指令 。 若 没有 另外 的 支持 ， 当 处 理 器 遇 到 依赖 存储 的 结果 时 就 会 停滞 。 
而 问题 是 在 多 数 的 程序 中 相关 指令 往往 距离 读 操 作 很 近 。 如 果 读 在 缓存 中 扑 空 ， 该 情况 下 只 
有 很 少 的 时 延 被 隐藏 。 有 效 地 隐藏 时 延 ， 需 要 越过 读 指令 提前 察看 并 在 指令 流 中 发 现 多 条 与 
读 指令 无 关 的 指令 。 这 需要 在 编译 指令 调度 、 硬 件 或 双方 的 支持 。 隐 藏 写 时 延 通常 不 需要 指 
令 预测 : 由 于 一 般 不 会 很 快 遇 到 相关 的 指令 ， 因 此 在 遇 到 相关 指令 时 可 使 处 理 器 停滞 。 

在 完成 之 前 跨越 该 操作 执行 可 从 缓冲 和 流水 两 方面 得 到 好 处 。 存 储 操作 缓冲 可 允许 处 理 
得 继续 进行 其 他 的 行为 ， 可 推迟 请 求 操作 (如 作废 铝 作 ) 的 传播 与 应 用 ， 也 可 合并 对 同一 个 
字 的 操作 以 及 对 缓冲 缓存 块 的 操作 (第 9 章 讨论 的 基于 页 的 、 完 全 软件 的 、 共 享 虚拟 存储 协 
议 是 缓冲 、 推 迟 传播 直到 同步 点 的 极端 例子 )。 使 多 个 存储 操作 流水 进 人 存储 系统 可 允许 其 
时 延 重合 。 这 些 优点 在 单 处 理 器 以 及 多 处 理 器 中 都 存在 。 
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在 多 处 理 器 中 ， 在 完成 或 提交 之 前 跨越 存储 操作 会 违背 顺序 同一 性 的 充分 条 件 ， 这 在 第 
5 章 已 讨论 过 。 它 是 否 真 的 在 实际 中 造成 SC 冲突 还 依赖 于 其 涉及 的 操作 对 程序 执行 顺序 的 
改变 是 否 是 可 见 的 。 若 要 求 来 自 于 同一 线程 的 存储 操作 不 应 当 (包括 在 其 他 处 理 器 中 ) 出 现 
改变 程序 顺序 的 执行 ，SC 就 会 限制 (这 是 无 法 消除 的 ) 所 能 开发 的 缓冲 和 可 利用 的 重合 的 
数量 。 放 松 同 一 性 模型 允许 较 大 程度 的 重要 ， 包 括 允 许 一 些 类 型 的 存储 操作 可 乱 序 执行 。 因 
此 可 能 重生 的 程度 取决 于 机 器 机 制 和 同一 模型 : 若 不 提供 支持 重 排 〈 例 如 写 缓 冲 、 编 译 或 动 
态 调度 机制， 松散 模型 也 不 会 起 作用 ， 而 且 一 些 能 实现 重 蕉 的 更 强 类 型 受到 同一 性 模型 的 
限制 。 

我 们 对 跨越 操作 执行 的 讨论 是 围绕 越 来 越 先 进 的 机 制 组 织 的 ， 这 些 机 制 需要 重 释 读 写 操 
作 的 时 延 。 其 中 的 每 种 机 制 是 与 一 类 特别 的 同一 模型 自然 相连 的 ; 该 类 模型 允许 其 操作 乱 序 
完成 ,但 是 通过 允许 重合 而 不 是 乱 序 完成 ,这些 机 制 可 应 用 于 更 严格 的 同一 性 模型 并 在 方式 
上 更 加 限制 。 对 于 每 种 情况 ,我 们 将 分 析 其 性 能 增加 和 实现 复杂 性 (假定 需要 完全 开发 其 重 
个 的 最 强 的 同一 性 模型 )， 以 及 顺序 同一 所 能 开发 重合 机 制 的 程度 。 虽 然 很 多 问题 很 自然 地 
适用 于 非 缓存 共享 数据 或 软件 实现 同一 ， 我 们 还 是 集中 于 硬件 缓存 一 致 性 系统 。 为 了 简化 讨 
论 ， 首 先 分 析 只 隐藏 写 时 延 的 机 制 ， 因 为 读 时 延 隐藏 需要 更 详细 的 支持 (虽然 很 多 现代 微 处 
理 器 都 支持 写 时 延 隐 藏 )。 开 始 我 们 假设 读 阻 塞 ， 因 而 处 理 器 不 能 跨越 它们 ;以 后 也 会 分 析 
隐藏 读 时 延 。 


11.5.1 跨越 写 操作 


我 们 首先 开始 讨论 的 是 一 个 简单 的 、 静 态 调 度 的 支持 阻塞 读 的 处 理 器 。 要 想 跨 越 写 扑 
空 ， 我 们 需要 处 理 器 的 惟一 支持 是 写 缓冲 。 我 们 将 发 生 在 一 级 缓存 中 的 扑 空 的 写 操作 简单 地 放 
在 缓冲 里 ， 处 理 器 可 继续 执行 同一 线程 中 的 其 他 工作 。 处 理 器 (或 一 级 缓存 ) 只 有 当 写 缓冲 满 
时 才 引 起 写 停滞 。 写 缓冲 也 可 以 放 于 一 级 缓存 的 前 面 ， 此 时 所 有 的 写 操作 都 放 在 该 缓冲 里 。 

写 缓冲 负责 控制 着 对 其 他 扩展 的 存储 层次 结构 (也 包括 其 他 处 理 器 ) 写 操作 的 可 见 性 ， 
而 且 也 负责 完成 该 处 理 器 中 的 写 操作 。 这 也 缓解 了 处 理 器 内 的 执行 单元 ， 不 必 担心 对 扩展 的 
存储 层次 结构 写 操作 的 顺序 。 现 考虑 与 读 操作 的 重 划 。 为 了 单 处 理 器 的 正确 操作 ， 读 可 对 写 
缓冲 进行 旁 路 ， 而 且 只 要 对 同一 地 址 的 写 操作 在 缓冲 中 没有 挂 起 ， 读 就 可 以 发 送 给 存储 系 
统 。 如 果 在 缓冲 中 挂 起 ,来 自 于 写 缓冲 的 值 可 以 转发 给 读 操 作 (甚至 在 写 操作 完成 以 前 )， 
否则 等 到 写 缓 冲刷 新 后 再 发 送 读 操 作 。 转 发 可 允许 程序 中 的 读 与 其 前 面 的 写 乱 序 完 成 ， 因 此 
在 多 处 理 器 中 与 顺序 同一 冲突 ;而 刷新 操作 则 不 会 。 除 非 读 操作 不 能 在 其 旁 路 的 写 之 前 完 
(连同 数值 )， 和 否则 旁 路 写 缓冲 的 读 也 会 与 顺序 同一 发 生 冲突 。 因 此 ，SC 可 从 写 缓 冲 中 得 到 
好 处 ， 但 其 收益 是 有 限 的 。 从 第 9 章 我 们 知道 ， 处 理 器 同一 (PC) 和 所 有 按 序 保存 是 只 允许 
读 先 于 前 面 的 写 完成 的 同一 模型 。 

现在 讨论 写 之 间 的 重奏 问 题 。 多 个 写 可 放 于 写 缓 冲 里 ， 该 缓冲 也 确定 了 其 可 见 的 顺序 或 
完成 的 顺序 。 如 果 写 允许 无 序 完 成 ， 则 缓冲 就 可 开发 出 写 操 作 中 的 大 量 重 香 并 具有 更 大 的 灵 
活性 。 首 先 ， 若 写 的 地 址 或 缓存 块 在 当前 的 缓冲 中 ， 则 该 写 操作 可 与 该 缓存 块 合并 ;而 且 只 能 
由 该 缓冲 发 出 单个 的 所 有 权 请 求 ， 这 样 也 减 小 了 拥挤 情况 。 尤 其 是 当 该 合并 不 是 最 后 的 缓冲 项 
时 ， 这 就 使 写 操作 的 程序 乱 序 成 为 可 见 。 第 二 ， 当 缓冲 的 写 发 向 存储 系统 时 ， 它 们 可 在 缓冲 中 
引退 ， 这 也 使 得 后 面 的 写 操作 在 其 完成 之 前 跨越 该 操作 。 这 也 允许 写 所 有 权 请 求 流水 通过 扩展 
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存储 系统 ， 但 会 使 得 该 写 操作 的 程序 乱 序 对 于 其 他 处 理 器 可 见 ， 并 可 能 危及 写 的 原子 性 。 

部 分 保存 顺序 (PSO) 或 更 放松 的 同一 性 模型 允许 写 操作 程序 乱 序 完成 。 更 严格 的 模 
型 ， 例 如 SC. TSO 和 PC 从 本 质 上 限制 写 合并 到 写 缓冲 的 最 后 一 项 (即使 是 在 严格 限制 的 环 
境 中 ) ， 因 为 向 缓存 块 中 不 同 字 的 不 同 顺序 写 对 其 他 处 理 器 来 说 不 应 当 是 可 见 的 。 只 有 当 写 
操作 的 可 见 和 完成 顺序 在 扩展 存储 系统 中 可 保留 时 ， 在 较 严 格 的 模型 中 才 有 可 能 提前 引退 写 
操作 以 使 其 他 的 写 操作 越过 。 这 在 基于 总 线 的 机 器 中 相对 容易 些 ， 但 是 在 分 布 式 存储 机 器 中 
则 十 分 困难 ， 因 为 该 机 器 具有 不 同 的 局 部 内 存 和 独立 的 网 络 路 径 。 在 以 下 的 系统 中 ， 保 证 程 
序 中 的 写 顺序 〈 像 SS、TSO 和 PC 所 需要 的 ) 从 本 质 上 要 求 写 操作 在 所 有 涉及 的 处 理 器 提交 
之 前 不 能 从 FIFO 缓冲 的 头 部 引退 。 

总 之 , 一 个 像 SC 这 样 的 严格 模型 能 利用 写 缓冲 实现 用 读 操作 或 其 他 写 操 作 重 辣 时 延 ， 
但 是 要 受到 一 定 程度 的 限制 。 要 想 隐藏 更 多 的 时 延 ， 就 需要 更 放松 的 同一 性 模型 。 在 松散 模 
型 中 ， 何 时 写 操作 发 向 扩展 存储 层次 系统 并 对 于 其 他 处 理 器 可 见 ， 也 依赖 于 对 实现 和 性 能 的 
考虑 。 例 如 ， 只 要 写 操作 能 到 达 写 缓冲 就 可 发 出 作废 操作 ， 或 者 在 缓冲 中 延迟 这 些 操作 直到 
下 一 个 同步 点 。 后 者 的 选择 允许 大 量 的 写 合并 ， 以 及 减 小 由 于 伪 共 享 导致 的 作废 和 扑 空 。 然 
而 ， 这 也 隐 含 着 作废 相关 的 传输 量 将 突 加 给 同步 点 ， 而 不 是 流水 计算 。 

性 能 影响 

假定 阻塞 读 但 并 不 保持 顺序 同一 ( Gharachorloo, gupta, and Hennessy 1991a; Gharachorloo 
1995)， 在 原始 的 SPLASH 应 用 组 上 的 并 行 应 用 模拟 研究 已 显示 出 允许 处 理 器 跨越 写 操作 的 
fink (Singh, Weber, and Gupta1992)。 其 导致 的 技术 分 为 几 个 独立 部 分 ， 允许 违反 程序 中 的 
读 - 写 顺序 的 ， 这 些 技术 可 满足 TSO 或 PC; 同时 允许 违背 程序 中 的 写 - 写 顺序 的 ， 这 些 技术 
可 满足 PSO0。 其 中 后 者 在 本 质 上 是 最 优秀 的 ， 当 读 阻 塞 时 ， 像 松散 存储 顺序 (RMO) 、 弱 序 
(WO) 、 或 释放 同一 (RC) 这 样 的 更 松散 的 模型 都 可 以 实现 。 

图 11-15 显示 了 单 发 射 静态 调度 处 理 器 执行 时 间 的 减 小 (分 为 两 部 分 )， 主 要 针对 两 类 
并 行程 序 当 写 - 读 和 写 - 写 顺序 允许 违背 时 的 结果 。 这 些 程序 是 Ocean 与 Bames-Hut 应 用 的 老 
WAS, TE 16 个 处 理 器 模拟 的 基于 目录 的 缓存 一 致 性 系统 上 运行 问题 较 小 的 程序 ， 其 指令 调 
度 比 目 前 的 微 处 理 器 都 很 落后 。 比 较 的 基准 是 顺序 同一 的 直接 实现 ， 并 满足 充分 条 件 ， 当 处 
理 器 发送 一 个 读 或 写 时 ， 处 理 嚣 停滞， 直到 该 访问 完成 。 (仅仅 使 用 写 缓冲 一 一 通过 阻止 读 直 
到 写 缓 冲 空 一 一 保持 顺序 同一 ， 与 在 所 有 写 时 停滞 进程 相 比 ， 显 示 出 非常 小 的 性 能 改进 。) 

图 11-15 中 的 第 二 个 竖 条 表示 ， 使 用 较 深 的 写 缓冲 以 及 这 些 系统 假设 ， 仅 仅 允 许 写 到 读 
重 排 一 般 就 足 可 以 隐藏 大 多 数 的 处 理 器 写 时 延 。 由 于 存在 很 频繁 的 写 扑 空 ， 在 Ocean 中 并 不 
是 很 成 功 。 整 个 研究 还 显示 出 了 一 些 有 趣 的 附加 效果 。 在 某 种 情况 下 ， 写 停滞 时 间 比 基本 
SC 有 轻微 的 增加 。 这 是 因为 隐藏 写 时 延 对 带宽 的 额外 要 求 与 读 扑 空 发 生 了 冲突 ， 增 加 了 开 
销 。 虽 然 这 对 于 动态 调度 的 处 理 器 隐藏 读 时 延 具 有 更 要 的 意义 ， 但 这 对 于 简单 处 理 器 来 说 具 
有 相对 小 的 影响 。 另 一 个 有 益 的 效果 是 有 时 也 减 小 同步 等 待 时 间 。 随 着 存储 停滞 时 间 的 减 
小 ,不 同 处 理 器 问 存储 停 汪 时 间 的 不 平衡 也 会 减 小 ， 因 而 减 小 了 负载 不 均衡 。 同 时 ， 如 果 一 
个 关键 部 分 中 的 写 时 延 被 隐藏 ， 那 么 该 关键 部 分 就 会 更 快 地 完成 。 保 护 锁 可 更 快 地 传送 到 另 
一 个 处 理 器 ， 这 样 也 减 小 了 对 锁 的 等 待 时 间 。 

图 11-15 中 的 第 三 个 竖 条 表示 了 写 到 写 顺 序 也 可 违背 时 的 结果 。 同 一 个 16 项 写 缓 冲 中 的 


























W-R 
Ocean Barnes- Hut 
图 11-15 利用 放松 同一 性 模型 跨越 写 操作 的 性 能 收益 。 这 些 结果 是 假定 在 静态 调度 的 处 理 器 模型 中 
得 出 的 。 对 于 每 种 应 用 ，Base 代表 没有 时 延 隐藏 的 情况 ，W-R 代表 读 可 旁 路 写 的 情况 
(如 ， 写 - 读 顺序 可 违背 的 情况 )，W-W 代表 写 和 读 都 可 以 旁 路 写 的 情况 。 其 中 Base 情况 的 
执行 时 间 规 格 化 成 100 个 时 间 单 位 。 被 模拟 的 系统 是 使 用 扁平 的 缓存 一 致 性 的 基于 存储 器 
的 目录 协议 ， 很 像 斯 坦 福 的 DASH 多 机 系统 (Lenoski et al.1993)。 该 模拟 器 假定 具有 写 穿 
透 一 级 缓存 和 回 写 二 级 缓存 ， 二 级 缓存 之 间 设 置 较 深 的 16 项 的 写 缓冲 。 该 处 理 器 是 单 发 射 
且 静 态 调度 的 ,在 编译 时 也 没有 面向 时 延 隐 藏 的 特殊 调度 。 其 写 缓冲 是 较 激 进 的 , 读 操作 既 
可 以 旁 路 也 可 以 前 递 。 为 了 保留 写 - 写 顺序 (此 时 不 允许 重 排 写 操作 )， 写 操作 之 间 不 允许 合 
并 ， 而 且 缓冲 区 头 的 写 操作 只 有 完成 时 才能 引退 。 对 于 一 个 读 扑 空 数据 访 存 参 数 假定 ; 一 级 
缓存 于 命中 时 间 为 1 个 周期 ，L 命中 时 间 为 15 个 周期 ; 如 果 扑 空 并 访问 局 部 存储 期 的 时 间 
为 29 个 周期 ， 两 个 消息 远程 扑 空 时 间 为 101 个 周期 , 三 个 消息 远程 扑 空 时 间 为 132 个 周期。 
以 上 情况 中 的 写 时 延 是 非常 小 的 。 该 系统 假定 了 比 现代 系统 的 存储 系统 更 慢 的 处 理 器 
任何 块 都 可 以 进行 写 合 并 ， 只 要 写 操作 到 达 了 缓冲 头 就 可 以 引退 (即使 还 没有 提交 )。 
这 样 。 通 过 存储 和 互 连 的 写 流水 线 更 多 时 候 比 写 缓冲 具有 更 高 的 优先 级 (这 可 允许 合并 和 延 
迟 的 作废 操作 )。 当 然 ， 允 许 存储 系统 进行 多 个 写 也 要 求 缓存 间 时 处 理 多 个 待 完 成 的 扑 空 。 

写 - 写 重 番 其 至 在 Ocean 中 也 可 隆 藏 写 - 读 重 亚 隐藏 后 的 剩余 写 时 延 。 由 于 写 缓冲 中 的 引 
退 速度 较 快 ， 因 此 写 缓冲 并 不 会 轻易 填 满 而 停滞 处 理 嚣 。 由 于 在 释放 之 前 一 系列 的 写 操作 会 
很 快 地 完成 ， 同 步 等 待 时 间 在 某 些 情 况 下 也 进一步 减 小 。 然 而 在 多 数 应 用 中 ， 写 - 写 重 又 很 
少 发 挥 其 优点 ， 因 为 多 数 的 写 时 延 可 通过 允许 读 在 写 之 前 旁 路 被 隐藏 。 限 制 写 - 写 重 释 效果 
的 另 一 个 因素 是 处 理 器 假定 是 读 阻塞 的 ， 因 此 写 - 写 重 赫 不 能 跨越 操作 。 两 种 模型 间 的 区 别 
(如 弱 序 和 释放 同一 ) 以 及 多 模型 (如 TS0: 保持 写 原子 操作 ; PC: 不 保留 》 间 的 细微 差别 
看 起 来 并 不 能 实质 上 影响 性 能 。 

由 于 性 能 很 大 程度 依赖 于 实现 、 问 题 和 缓存 大 小 ， 因 此 评测 一 些 并 不 激进 的 写 缓 冲 、 二 
级 缓存 结构 和 缓存 大 小 (该 缓存 不 能 完全 容纳 所 有 的 重要 工作 集 ) 是 很 有 用 的 。 正 像 我 们 所 
希望 的 ， 一 个 免 锁 定 的 二 级 缓存 对 获得 性 能 改进 是 很 重要 的 。 可 旁 路 的 写 缓冲 对 于 允许 写 到 
读 重 排 的 系统 是 非常 重要 的 ， 尤 其 当 二 级 缓存 是 自由 查找 时 ; 但 对 于 同时 也 允许 写 到 写 重 排 
的 系统 并 不 很 重要 。 原 因 是 前 者 的 从 写 缓 冲 中 写 引 退 是 在 完成 之 后 ， 因 此 极 有 可 能 当 读 操作 
在 第 一 层 缓存 中 扑 空 时 ,一 个 写 仍然 在 写 缓冲 里 ， 这 可 阻塞 读 直 到 写 缓冲 空 ， 进 而 造成 性 能 
损害 。 对 于 后 一 种 情况 ， 写 引退 非常 快 ， 因 此 在 写 缓冲 里 发 现 一 个 写 来 旁 路 的 可 能 性 很 小 。 
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辐 样 的 原因 ， 当 人 允许 写 到 写 重 排 时 写 缓冲 的 大 小 并 不 是 关键 的 。 若 没有 自由 查找 缓存 ， 无 论 
写 到 写 重 排 是 否 允许 ， 读 旁 路 缓冲 里 写 的 能 力 很 少 有 优点 ， 因 为 停 消 二 级 缓存 将 成 为 瓶颈 。 
系统 的 所 有 部 分 都 应 适当 地 设计 以 获得 重 登 效益 。 

采用 较 小 的 和 也 缓存 的 研究 结果 如 图 11-16 所 示 ， 其 中 是 改变 缓存 块 大 小 时 的 结果 。 
首先 考虑 缓存 的 大 小 。 采 用 小 缓存 时 ， 写 时 延 仍 然 可 通过 允许 写 到 读 和 写 到 写 重 排 有 效 地 隐 
藏 ( 像 第 4 章 讨论 的 ， 对 于 Bames-Hut 最 小 的 缓存 并 不 能 代表 理想 情况 )。 有 趣 的 是 ， 隐 藏 
写 时 延 对 总 体 性 能 的 影响 要 比 大 的 缓存 大 的 多 ， 即 使 隐藏 的 写 时 延 总 和 是 很 小 的 。 这 是 因为 
大 缓存 对 于 减 小 读 时 延 比 减 小 写 时 延 更 有 效 ， 因 此 后 者 的 时 延 隐 藏 显得 更 重要 。 所 有 这 些 情 
况 都 假设 缓存 块 的 大 小 为 16 个 字 节 ， 在 今天 是 很 不 理想 的 。 大 的 缓存 块 希望 减 小 这 些 应 用 
的 扑 空 率 ， 从 而 在 某 种 程度 上 减 小 这 些 重 排 对 执行 时 间 的 影响 ， 正 像 在 图 11-16 b 中 所 看 到 
的 Ocean 那样 。 


11.5.2 ”跨越 读 操作 


要 想 有 效 地 隐藏 读 时 延 ， 既 需要 非 阻 塞 读 ， 又 需要 跨 过 相关 指令 的 预测 机 制 。 由 于 转移 
指令 会 在 相关 指令 不 远 后 出 现 ， 编 译 和 硬件 处 理 都 是 复杂 的 。 通 过 代码 预测 将 来 的 路 径 而 发 
现 无 关 指令 ， 要 求 有 效 地 转移 预测 和 推测 式 执行 跨 过 预测 的 转移 指令 。 推 测 式 执行 指令 反 过 
来 要 求 在 错误 预测 时 取消 推测 指令 执行 的 影响 。 

今天 微 处 理 器 工业 的 趋向 是 在 硬件 上 提供 所 有 这 些 特 征 的 越 来 越 复杂 的 处 理 器 。 例 如 ， 
它们 包括 在 如 Intelpentium Pro (Intel 公司 1996) 系列 、Silicon Graphics R10000 (MIPS 技术 
1996) 系列 、Sun UltraSpare (Lee, Kwok, and Briggs 1991) 系列 、 惠 普 PA8000 (Hunt 1996) 系 
列 中 ， 因 为 存储 系统 和 功能 部 件 中 的 时 延 隐藏 在 单 处 理 器 中 也 是 十 分 重要 的 。 这 样 的 设计 和 
机 制 是 昂贵 的 ， 但 是 既然 微 处 理 器 中 都 出 现 了 ， 多 处 理 器 中 也 会 同样 采用 。 一 旦 写 时 延 也 能 
够 隐藏 ， 单 独 的 写 缓冲 就 不 需要 了 。 

1. 动态 调度 与 推测 式 执行 

为 了 更 好 地 理解 如 何 利用 动态 调度 技术 和 推测 式 执行 隐藏 存储 时 延 ， 尤 其 是 这 些 技术 如 
何 与 存储 同一 性 模型 相交 互 ， 我 们 首先 回忆 在 单 处 理 髓 中 这 些 方法 是 如 何 工作 的 。 更 详细 的 
资料 可 在 一 些 书 中 查 到 ， 如 (Hennessy and Patterson1996)。 动 态 调度 是 指 指令 的 取 指 和 详 码 
是 按照 编译 的 顺序 进行 的 ， 但 它们 在 功能 部 件 的 执行 顺序 是 按照 在 执行 过 程 中 操作 数 的 有 效 
性 来 执行 的 。 一 种 协调 乱 序 执行 方法 是 通过 保留 栈 和 Tomasulo 算法 来 实现 (Hennessy and 
Patterson1996)。 动 态 调度 并 不 意味 着 存储 操作 成 为 可 见 的 或 者 可 不 按 程序 顺序 完成 ， 下 面 可 
以 看 到 。 推 测 式 执行 是 指 允 许 处 理 器 考虑 和 调度 将 来 对 程序 执行 不 一 定 有 用 的 执行 指令 ， 如 
越过 一 个 将 要 转移 的 指令 。 功 能 单元 假设 这 些 指 令 有 用 而 执行 它们 ,但 直到 推测 的 有 效 性 确 
定 后 〈 如 转移 的 结果 完成 ) ， 其 结果 才 提 交 给 寄存 器 或 被 其 他 系统 可 见 。 

推测 式 执行 的 关键 机 制 是 指令 预测 或 重 排 缓冲 区 。 指 邻 译 码 后 ， 无 论 是 内 幅 的 或 推测 式 
地 越过 预测 的 转移 ， 它 们 都 被 放 人 重 排 缓冲 区 。 该 重 排 缓冲 区 保持 指令 的 程序 顺序 。 其 中 ， 
那些 不 依赖 于 未 完成 操作 的 指令 将 被 选择 执行 。 排 在 缓冲 前 面 的 未 完成 或 未 执行 指令 很 有 可 
能 是 无 关 的 长 时 延 指 令 (如 ， 读 ) ， 于 是 在 这 种 情况 下 处 理 器 跨 过 未 完成 的 存储 指令 或 其 他 
指令 。 一 旦 操作 数 被 其 他 指令 产生 ， 重 排 缓冲 中 的 指令 就 变 为 就 绪 准 备 执行 ， 并 不 需要 等 到 
其 操作 数 出 现在 寄存 器 堆 中 。 指 令 将 其 结果 保存 在 重 排 缓冲 区 里 而 不 是 提交 给 寄存 器 堆 ， 只 
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b) 用 于 Ocean 的 缓存 块 尺 寸 的 有 效 性 


图 1-16 缓存 大 小 和 缓存 块 大 小 对 跨越 写 操作 的 影响 。 在 a) 中 ,改变 缓存 大 小 时 ， 我 们 假 
定 缺 省 的 缓存 块 是 (小) Oe FA). XMERME LAL 的 缓存 大 小 。 两 
者 被 斜 线 分 开 。b) 显示 的 是 缓存 块 大 小 变化 ， 并 假定 为 64 KB, L 为 256 KB. 
其 中 了 轴 是 规格 化 的 执行 时 间 ， 以 便 使 得 每 个 图 中 最 左边 的 算 形 条 为 一 个 单位 
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要 到 达 缓 冲 区 的 顶部 时 就 引退 〈 即 按照 程序 的 顺序 )。 只 有 在 该 引退 点 ， 读 或 其 他 指令 的 结 
果 才 被 放 入 寄存 器 堆 ， 写 的 数据 才能 被 存储 系统 可 见 。 因 此 ， 即 使 是 最 激进 的 乱 序 执行 ， 存 
储 操作 也 能 按 程序 的 顺序 完成 。 

按照 程序 的 顺序 引退 指令 可 使 推测 简化 : 如 果 转 移 在 重 排 缓冲 中 引退 前 发 现 预测 错误 ， 
则 该 转移 后 的 指令 〈 按 程序 顺序 ) 还 没有 从 重 排 缓冲 中 引退 及 提交 结果 。 此 时 ， 读 还 没有 更 
新 寄存 器 ， 写 的 结果 还 没有 被 存储 系统 看 到 。 当 检测 到 错误 预测 时 ， 转 移 后 的 所 有 重 排 缓冲 
中 的 指令 置 为 无 效 ， 其 相关 的 保留 栈 也 无 效 ， 译 码 也 从 正确 的 目标 地 址 重新 开始 。 按 序 引退 
也 使 得 精确 例外 容易 实现 。 然 而 ， 按 序 引 退 意 味 着 若 读 扑 空 在 其 数据 回来 之 前 到 达 重 排 缓冲 
的 顶部 ， 则 重 排 缓冲 区 ( 非 处 理 器 ) 就 会 停滞 而 且 后 面 的 指令 不 能 引退 。 这 种 FIFO 特性 以 
及 停滞 意味 着 时 延 隐藏 的 程度 可 能 受 重 排 缓 冲 区 大 小 的 限制 。 

2. 在 顺序 和 释放 同一 性 中 隐藏 时 延 

一 个 操作 从 重 排 缓冲 引退 与 完成 的 不 同 是 很 重要 的 。 当 读 操 作 的 值 确定 后 就 完成 了 ,之 
前 也 可 能 已 到 达 了 重 排 缓冲 的 顶部 而 且 能 引退 (修改 处 理 器 的 寄存 器 )。 另 一 方面 ， 一 个 写 
操作 即使 已 到 达 了 重 排 缓冲 的 顶部 而 且 进 入 存储 系统 ， 该 操作 也 未 完成 ， 只 有 当 写 已 被 所 有 
其 他 处 理 器 看 到 后 才 完 成 。 知 道 这 些 区 别 可 以 有 助 于 我 们 理解 无 序 和 推测 式 处 理 器 在 SC 和 
像 释 放 同一 性 等 更 松散 的 模型 中 是 如 何 隐藏 时 延 的 。 

在 RC 中 ， 一 个 写 操作 可 能 在 完成 之 前 从 缓冲 引退 ， 以 允许 后 面 的 操作 更 快 地 引退 。 在 
SC 中， 一 个 写 操作 只 有 在 完成 之 后 引退 〈 至 少 提交 给 全 部 的 相关 处 理 器 ) ， 因 此 一 日 到 达 重 
排 缓冲 的 顶部 并 发 给 存储 系统 ， 它 会 阻塞 较 长 的 时 间 。 在 RC 下 ， 一 个 读 操作 发 给 存储 系统 
后 ， 在 插入 到 重 排 缓冲 中 后 的 任何 时 候 都 可 能 完成 ， 除 非 其 前 面 的 请 求 操作 还 没有 完成 。 在 
SC 下， 虽然 读 可 以 发 给 存储 系统 而 且 可 在 到 达 缓冲 的 顶部 前 完成 ， 但 是 在 缓冲 区 其 前 面 的 
所 有 存储 操作 完成 之 前 它 不 被 发 给 存储 系统 (无需 引退 )。 因 此 ，SC 比 RC 开发 的 重 着 要 少 ， 
但 是 区 别 并 不 像 按 序 执行 那样 大 。 

3， 加 强 时 延 包容 的 其 他 技术 

其 他 技术 一 一 包括 硬件 预 取 、 推 测 读 和 写 缓冲 一 一 可 与 动态 调度 、 推 测 式 处 理 器 结合 在 
SC 与 RC (Gharachorloo, Gupta, #1 Hennessy 1991 b) 中 进一步 隐藏 时 延 。 硬 件 可 发 送 重 排 组 
冲 里 的 预 取 存 储 操作 ， 但 在 同一 模型 中 还 不 能 实际 发 送 给 存储 系统 。 例 如 ， 处 理 咒 可 能 预 取 
读 操作 ， 对 于 SC 在 缓冲 里 其 前 指令 可 能 为 未 完成 的 存储 操作 ， 或 者 在 RC 下 为 未 完成 的 请 
求 操作 ， 于 是 将 它们 重要 。 对 于 写 操作 ， 预 取 允 许 数据 及 所 有 权 在 写实 际 到 达 缓 冲 的 顶部 前 
达到 缓存 ， 而 且 可 以 发 射 给 存储 系统 。 本 质 上 ， 独 占 的 写 处 理 较 早 发 送 。 这 些 预 取 是 非 捆 绕 
的 ， 意 思 是 数据 到 达 缓存 ， 但 并 不 进入 寄存 器 或 重 排 缓 冲 ， 而 且 对 于 一 致 协议 仍然 是 可 见 
的 ， 因 此 预 取 并 没有 违背 同一 模型 。 如 果 该 块 在 读 提 交 之 前 是 无 效 的 ， 其 损害 是 少量 的 额外 
存储 流量 。( 更 一 般 情况 下 的 预 取 将 在 11.6 节 讨论 。) 

当 被 预 取 的 地 址 未 知 时 硬件 预 取 并 没有 效果 ， 而 且 确 定 地 址 本 身 要 求 一 个 长 时 延 操作 的 
完成 。 例 如 ， 如 果 一 个 对 数组 项 41, 的 读 扑 空 之 前 发 生 了 对 索引 7 的 读 扑 空 ， 于 是 这 两 个 操 
作 不 能 重 盖 ; 因为 处 理 器 直到 读 7 操作 完成 之 后 ， 才 知道 41,; 的 地 址 。/ 可 以 预 取 ， 但 是 得 
到 41n 的 地 址 要 求 1 读 操作 完成 。 为 了 增加 重 释 ， 处 理 英 可 使 用 推测 式 读 操 作 。 推 测 式 读 的 
意思 是 在 读 完成 之 前 同一 性 模型 允许 读 推测 地 完成 ， 亦 即 在 到 达 重 排 缓 冲 顶 部 之 前 进行 读 扒 
W, ， 而 且 在 顺序 同一 的 环境 下 进行 。 其 地 址 可 用 作 以 后 存储 操作 的 地 址 ， 但 是 其 使 用 对 于 转 
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移 后 的 指令 应 进行 保护 。 实 质 上 ， 处 理 器 推测 预 取 值 在 读 推测 与 实际 读 按 照 存储 同一 模型 执 
行 之 间 不 会 改变 ; 这 样 ， 推 测 的 读 及 所 有 之 后 操作 的 效果 应 当 是 可 恢复 的 。 

在 本 例 中 ，7 不 仅 被 预 取 ， 而 且 在 它 到 达 重 排 缓 冲 项 端 之 前 也 进行 读 推测 ， 因 此 对 41. 
的 读 也 可 以 提前 预 取 。 我 们 需要 保证 了 的 值 是 正确 的 ， 这 才能 读 到 正确 的 411 值 。 由 于 该 原 
因 ， 推 测 的 读 并 不 装 人 到 实际 的 寄存 器 中 而 是 装 入 到 推测 读 缓冲 里 ， 直 到 读 在 重 排 缓冲 中 引 
退 。 该 推测 读 缓冲 监测 缓存 而 且 报告 对 那些 块 的 行为 。 如 果 是 作废 、 更 新 或 在 其 地 址 在 推测 
读 缓 冲 里 的 一 个 块 的 缓存 发 生 蔡 换 ， 则 推测 读 以 及 其 后 的 重 排 缓冲 中 的 所 有 指令 都 应 该 取消 
而 重新 执行 ， 像 错误 转移 预测 一 样 。 这 样 的 硬件 预 取 以 及 推测 读 支 持 已 出 现在 处 理 器 中 ， 像 
Pentium Pro (Intel 公司 1996), MIPS R10000 (MIPS 技术 1996) 以 及 HP PA-8000 (Hunt 1996). 
值得 注意 的 是 在 SC 下 ， 在 前 面 的 存储 操作 完成 之 前 发 送 的 存储 指令 都 是 推测 读 ， 而 且 进 入 
推测 读 缓 冲 ， 然 而 在 RC 下 仅 当 其 发 送 是 在 前 面 的 分 配 完成 之 前 完成 时 ， 读 是 推测 的 (必须 
监测 缓存 行为 )。 

用 来 增加 重 和 至 的 最 后 一 种 优化 〈 即 使 是 在 动态 调度 的 处 理 器 中 ) 是 一 个 独立 的 写 缓冲 。 
写 并 不 在 重 排 缓冲 的 顶端 一 直 等 到 写 完成 并 占据 重 排 缓 冲 ， 而 是 当 它 到 达 重 排 缓冲 的 顶端 时 
移 人 写 缓 冲 。 写 缓冲 可 允许 它们 对 扩展 存储 结构 是 可 见 的 ， 按 照 同一 模型 跟踪 它们 的 完成 。 
对 于 松散 模型 (如 RC 和 PC) 来 说 ， 写 缓冲 的 用 途 是 很 明显 的 ， 其 中 读 可 以 对 写 旁 路 。 这 
样 ， 读 就 可 以 到 达 重 排 缓冲 的 顶端 并 更 快 地 引退 。 在 SC 下 ， 我 们 可 以 将 写 操作 放 人 和 人 写 缓冲 
里 ， 但 是 读 操作 当 到 达 重 排 缓冲 的 顶端 时 就 会 停 汪 一 直到 写 完成 。 因 此 ， 写 能 看 到 的 许多 时 
延 可 能 不 会 被 将 要 到 达 重 排 缓冲 顶端 的 下 一 个 读 看 到 。 

4. 性 能 影响 

模拟 研究 已 经 检验 了 在 不 同 的 同一 性 模型 下 硬件 预 取 、 推 测 读 和 写 缓冲 技术 能 够 隐藏 时 
延 的 程度 。 对 SC 模型 的 一 项 研究 发 现 ， 读 时 延 的 关键 部 分 事实 上 可 用 具有 推测 执行 的 动态 
调度 处 理 器 隐藏 ， 被 隐藏 时 延 数量 随 着 重 排 缓 冲 的 大 小 增 大 而 增加 〈 大 小 为 人 ~ 128 项 ) 
(Gharachorloo, Gupta, and Hennessy 1992) 。 一 项 更 详细 的 研究 在 先进 的 多 发 射 动 态 调度 处 理 
ft (Pai et al. 1996) 上 对 SC 和 RC 进行 了 比较 ， 同 时 也 检验 了 每 种 模型 分 别 在 硬件 预 取 和 推 
测 读 时 的 效益 。 当 一 级 缓存 采用 写 穿 透 而 不 是 回 写 时 ， 即 使 是 在 一 级 缓存 中 命中 ， 写 也 需要 
较 长 的 时 间 ; 该 研究 检验 了 一 级 缓存 的 两 种 类 型 ， 其 中 假定 采用 回 写 的 二 级 缓存 。 这 种 研究 
只 是 初步 的 ， 因 为 其 用 了 很 小 的 问题 和 按 规模 减 小 的 缓存 。 这 些 模 拟 并 没有 采用 高 级 编译 技 
术 来 调度 指令 ， 这 些 调度 可 通过 动态 调度 和 推测 执行 来 获得 性 能 。 (例如 ， 紧 跟 在 存储 操作 
后 面 放置 更 多 的 无 关 指令 ， 这 只 需要 一 个 小 的 重 排 缓冲 就 足够 了 ) 然而 ， 这 些 结果 显 示 了 机 
制 与 模型 间 交 互 的 重要 性 。 

最 令 人 感 兴趣 的 问题 是 使 用 先进 的 动态 调度 处 理 器 在 软 硬 件 接口 方面 RC 是 否 比 SC 能 
得 到 更 多 的 性 能 。 如 果 不 能 ， 则 放松 同一 性 模型 的 编程 负载 还 不 能 用 这 些 处 理 器 裁定 。( 放 
松 模型 在 支持 编译 优化 的 编程 接口 方面 是 很 重要 的 ， 但 如 果 只 需 编译 进行 重 排 操作 则 编程 负 
HRAM) 图 1L-17 和 图 11-18 显示 的 对 两 个 程序 的 第 二 项 研究 成 果 表 明 ， 即 使 与 读 阻塞 
处 理 右 的 情况 相 比 的 差距 已 非常 接近 ,但 是 RC 仍然 是 有 效益 的 。 该 图 显示 了 没有 任何 高 级 
优化 时 (硬件 预 取 、 推 测 读 和 写 缓冲 ) 的 SC 结果 ， 然 后 在 每 个 的 后 面 显示 了 优化 的 结果 。 
其 中 还 显示 了 处 理 器 同一 (PC) 和 RC 的 结果 。PC 与 RC 的 情况 都 假设 有 写 缓冲 ， 图 11-17 
和 图 11-18 中 首先 显示 了 没有 该 两 种 优化 的 情况 ， 然 后 显示 了 增加 优化 的 结果 。 
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图 11-17 ”假定 具有 推测 式 执行 的 动态 调度 处 理 器 中 ， 具 有 不 同 的 一 致 性 模型 中 FFT 内 核 的 性 能 。 左 边 的 
10 个 柱 条 是 假定 写 穿 透 一 级 缓存 得 到 的 ， 右 边 的 10 个 住 条 是 在 回 写 的 一 级 缓存 中 得 到 的 。 二 
级 缓存 都 是 回 写 的 。SC、PC 和 RC 分 别 是 顺序 的 、 处 理 器 的 、 释 放 的 -- 致 性 。 对 于 SC 有 4 个 
柱 条 。 第 一 个 柱 条 不 含 硬件 预 取 、 推 测 读 以 及 写 缓 冲 ; 第 二 个 柱 条 (pf) 使 用 了 硬件 预 取 ， 第 
三 个 (sr) 也 使 用 了 推测 读 ， 第 四 个 柱 条 (all) 包含 了 所 有 的 三 种 优化 。 对 于 PC 和 RC， 总 是 
假设 使 用 写 缓冲 ， 因 而 只 有 三 组 柱 条 (pf 此 时 意思 是 硬件 预 取 和 写 缓冲 ，sr 包括 所 有 的 三 种 优 
化 。 处 理 器 假定 是 与 MIPSR 10000 类 似 的 (MIPS 技术 1996) ,处 理 器 的 时 钟 频率 为 300 MHz， 而 
是 每 周期 发 射 4 条 指令 。 该 处 理 器 使 用 了 64 项 的 重 排 缓冲 区 ， 具 有 8 项 的 可 归并 写 缓冲 ，4 
KB 的 直接 相连 的 一 级 缓存 ， 以 及 64KB 的 4 路 组 相 联 二 级 缓存 。 由 于 使 用 了 少量 的 数据 组 ， 我 们 
选择 了 较 小 的 缓存 ， 但 足 可 以 充分 体现 时 延 隐藏 的 效果 。 其 他 更 多 的 参数 细节 参照 (Pai et al. 1996) 


当 硬 件 预 取 和 推测 读 都 不 使 用 时 ， 即 使 使 用 动态 调度 处 理 器 ，RcC 比 SC 也 具有 重要 的 优 
势 。 这 主要 是 因为 RC te SC 能 更 成 功 地 隐藏 写 时 延 ， 这 和 简单 的 处 理 器 一 样 。 这 可 以 允许 
写 更 快 地 引退 ， 使 后 面 的 访问 在 前 回 的 写 完成 前 发 送 给 存储 系统 并 完成 。 甚 至 在 写 穿 透 缓存 
中 RC 导致 的 改进 也 较 大 ， 因 为 在 SC 中 处 于 重 排 缓 冲 顶 部 的 写 发 送 给 存储 系统 ， 但 是 必须 
等 待 到 写 操作 在 二 级 缓存 执行 ， 即 使 此 时 在 一 级 缓存 中 命中 。 而 即使 在 SC 下 读 时 延 也 可 得 
到 某 种 成 功 ，RC 却 允 许 更 早 发 送 、 完 成 及 读 引退 。 

SC 下 硬件 预 取 与 推测 读 的 效果 比 RC 下 大 很 多 ， 因 为 在 RC 下 允许 存储 操作 以 任何 方式 
无 序 发 送 和 完成 。 然 而 ， 即 使 有 这 些 优化 ，SC 与 RC 相 比 仍然 存 在 一 些 差距 ， 尤 其 是 在 写 时 
延 隐藏 方面 。 由 于 前 面 讲 的 原因 ， 写 缓冲 在 SC 下 并 不 是 非常 有 用 。 

图 11-17 和 图 11-18 也 证 实 了 ， 与 写 返 回 缓存 相 比 ， 在 SC 下 写 穿 透 的 一 级 缓存 比 回 写 高 
速 缓存 中 写 时 延 的 问题 显得 更 重要 ， 然 而 在 RC 下 两 种 缓存 的 时 延 隐藏 是 一样 的 。SC 下 写 穿 
透 高 速 缓存 和 回 写 高 速 缓存 中 写 时 延 的 区 别 , 在 FFT 中 显得 比 Radix 要 大 ， 因 为 FET 中 在 
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图 11-18 假定 具有 推测 式 执行 的 动态 调度 处 理 器 中 ， 不 同 的 一 致 性 模型 
中 Radix 的 性 能 。 该 系统 的 假设 以 及 图 的 组 织 与 图 11-17 相同 


当前 的 问题 规模 下 的 写 都 在 局 部 数据 中 ， 而 且 在 回 写 缓存 中 命中 ， 而 在 Radix 中 写 的 都 是 非 
局 部 数据 ， 而 且 在 两 种 情况 下 扑 空 。 总 之 ， 在 硬件 预测 帮助 下 PC 介 于 SC 与 RC 之 间 ， 但 是 
推测 读 带 来 的 帮助 不 如 SC。 

最 后 ， 从 图 11-17 和 图 11-18 中 来 看 ， 似 乎 出 现下 面 的 异常 : 不 同 的 设计 方案 中 处 理 器 
的 繁忙 时 间 是 不 同 的 ， 即 使 是 相同 的 应 用 、 问 题 大 小 与 存储 系统 配置 。 其 原因 是 对 超标 量 处 
理 器 方法 的 兴趣 点 不 同 。 由 于 在 同一 周期 发 送 多 条 指令 ,那么 如 何 决定 一 个 周期 是 忙 还 是 处 
于 一 个 特殊 类 型 的 停滞 呢 ? 这 里 没有 一 个 非常 完美 的 答案 。 多 数 文献 中 的 研究 以 及 以 上 结果 
中 的 确定 方法 是 : 只 有 当 所 有 的 指令 时 间 片 都 发 出 时 ， 该 周期 才 属于 忙 时 间 ; 和 否则， 该 周期 
就 属于 第 一 条 (从 重 排 缓冲 的 头 部 开始 ) 应 当 发 送 而 没有 发 送 的 指令 停滞 的 类 型 。 由 于 这 种 
模式 依赖 于 一 致 性 模型 和 具体 实现 ， 因 此 对 于 不 同 的 设计 方案 ， 其 忙 时 间 是 不 同 的 。 

出 于 感 兴趣 ， 我 们 较 详 细 地 检验 了 硬件 预 了 到 和 推测 读 的 相互 影响 ， 尤 其 是 与 应 用 特性 的 
交互 。 当 大 量 扑 空 的 操作 ( 若 不 采用 重 排 缓冲 预 取 ) 在 代码 中 地 址 相近 时 ， 重 排 缓冲 中 操作 
的 预 取 是 最 成 功 的 ， 这 样 这 些 操作 就 会 一 起 出 现在 重 排 缓冲 区 内 。 这 样 的 情况 发 生 在 FFT 的 
矩阵 转换 阶段 ， 因 此 图 11-17 中 的 预 取 效果 显著 。 其 他 程序 显示 ， 编 译 适 当 调 度 操作 是 有 大 
助 的 。 图 11-18 显示 了 基数 排序 应 用 中 使 用 首次 激发 推测 读 〈 预 取 的 地 址 直到 一 次 读 完成 后 
才能 知道 ) 的 情况 。 其 中 ， 有 关 扑 空 是 针对 数组 项 的 ， 该 数组 项 按照 直方 图 索引 ， 但 其 值 也 
是 需要 读 操 作 。 令 人 感 兴趣 的 是 ， 两 程序 中 处 理 器 的 繁忙 时 间 被 推测 读 减 小 了 。 这 是 因为 扒 
测 使 用 读 值 的 能 力 使 得 很 多 本 来 相关 的 指令 成 为 可 执行 的 ， 因 此 增加 了 超标 量 处 理 句 的 利用 
率 。 田 外 ， 即 使 没有 间接 的 数组 读 ， 推 测 读 也 有 助 于 减 小 FFT 中 的 读 时 延 。 这 是 因为 一 级 组 
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存 中 的 冲突 扑 空 减 小 了 ， 原 因 是 对 于 等 待 完 成 的 缓存 块 访问 的 大 量 合 并 : 许多 本 来 导致 二 级 
缓存 冲突 扑 空 的 访问 用 推测 读 来 重合 ， 这 些 访问 因此 就 可 以 由 跟踪 缓存 的 机 制 来 合并 。 这 说 
明 重 要 的 观察 结果 有 时 并 不 是 来 自 研究 的 特征 。 虽 然 推测 读 以 及 通常 的 推测 执行 可 能 由 于 错 
误 推 测 而 受到 损害 及 导致 返 转 ， 但 是 这 在 研究 的 程序 中 很 少 出 现 〈 在 代码 中 采用 易于 预测 而 
且 简 明 的 代码 )。 这 些 结果 与 那些 控制 流 和 访问 模式 很 难 预 测 的 程序 可 能 是 有 区 别 的 。 


11.5.3 小 结 


在 多 处 理 器 中 通过 跨越 读 和 写 来 包容 时 延 的 程度 依赖 于 具体 实现 以 及 存储 同一 性 模型 的 
先进 性 。 在 缓存 一 致 多 处 理 器 中 〈 甚 至 简单 的 读 阻 塞 处 理 器 ) ， 当 采用 松散 存储 同一 模型 时 ， 
包容 写 时 延 相对 容易 。 现 代 的 动态 调度 处 理 器 既 能 够 隐藏 读 时 延 又 能 够 隐藏 写 时 延 ， 但 只 是 
部 分 地 隐藏 。 需 要 隐藏 读 时 延 的 指令 预测 窗口 〈 重 排 缓冲 ) 大 小 是 很 重要 的 ， 而 且 随 隐藏 时 
延 的 增 大 而 增 大 。 幸 运 的 是 ， 能 隐藏 的 时 延 随 窗 口 的 增加 而 增 大 ， 而 在 任何 有 效 时 延 发 生 之 
前 并 不 需要 一 个 很 大 的 临界 值 。 事 实 上 ， 采 用 现代 处 理 器 中 广泛 使 用 的 机 制 ， 即 使 在 顺序 同 
一 ， 至 少 中 档 规模 系统 中 ， 读 时 延 都 能 够 被 合理 地 隐藏 。 指 令 的 编译 调度 有 助 于 处 理 器 更 好 
地 隐藏 时 延 。 

通常 ， 保 守 的 设计 选择 一 一 如 读 阻 塞 或 缓存 阻塞 一 一 较 容 易 保持 顺序 ， 但 是 以 性 能 为 代 
价 。 例 如 ， 在 动态 调度 处 理 器 中 ， 从 重 排 缓冲 里 延迟 写 引 退 直 到 所 有 前 面 的 指令 都 执行 完 以 
避免 在 写 上 转 回 〈 例 如 ， 精 确 的 例外 ) ， 这 样 可 容易 地 保持 顺序 同一 性 ， 但 是 也 使 得 写 时 延 
在 SC 下 更 难 隐藏 。 读 时 延 ， 尤 其 是 写 时 延 在 采用 放松 同一 性 模型 下 都 可 较 好 地 隐藏。 在 硬 
件 同一 性 系统 中 放松 同一 模型 的 实现 要 求 ， 与 在 现代 单 处 理 器 系统 中 所 提供 的 隐藏 读 和 写 或 
甚至 与 顺序 同一 所 需要 的 (参看 习题 11.9) 相 比 ， 并 没有 什么 非常 过 分 的 需求 。 保 持 一 给 
定 的 同一 模型 的 多 数 支持 是 在 靠近 处 理 器 的 缓冲 区 或 缓存 中 ; 存储 体系 的 其 他 层 中 的 处 理 可 
以 按照 要 求 重新 排序 。 

通过 传递 操作 来 隐藏 时 延 的 方法 有 两 个 重要 的 缺点 。 第 一 个 是 它 很 严格 地 要 求 非常 有 效 
的 放松 一 致 模型 ， 尤 其 是 对 于 简单 的 静态 调度 处 理 器 以 及 动态 调度 处 理 器 。 这 将 给 程序 员 增 
加 负担 以 标志 同步 操作 或 插入 内 存 栅 障 ， 虽 然 放松 的 同一 模型 在 很 大 程度 上 可 允许 编译 进行 
许多 优化 。 第 二 个 缺点 是 ， 在 非 动 态 调度 处 理 器 有 效 隐 藏 读 时 延 的 有 效 性 ， 以 及 隐藏 多 处 理 
at (甚至 是 动态 调度 的 ) 中 读 时 延 的 资源 要 求 ， 尤 其 是 当时 延 较 大 时 。 在 这 些 情况 下 ， 其 他 
方法 ， 如 预 通 信和 多 线程 对 于 隐藏 读 或 其 他 形式 的 时 延 会 更 成 功 ， 也 可 能 在 同一 线程 中 与 路 
越 存 储 操作 相 结合 。 


11.6 共享 地 址 空间 中 的 预 通信 


项 通信 支持 ， 尤 其 是 预 取 已 经 广泛 应 用 于 商业 处 理 器 ， 将 来 其 重要 性 可 能 还 要 增加 。 为 
了 了 解 预 通信 技术 ， 我 们 首先 考虑 没有 共享 数据 缓存 的 共享 地 址 空间 ， 其 中 所 有 的 数据 访问 
都 进 入 相关 的 主 存 。 介 绍 基本 概念 之 后 ， 我 们 将 对 缓存 一 致 性 共享 地 址 空间 中 的 预 取 进 行 考 
BK, 包括 性 能 收益 和 实现 问题 。 


11.6.1 没有 共享 数据 高 速 缓存 的 共享 地 址 空间 
在 没有 共享 数据 缓存 的 共享 地 址 空间 中 ， 接 收 者 发 起 通信 由 非 本 地 分 配 的 数据 读 激 发 ， 








RIE HEME 633 





而 发 送 者 发 起 通信 是 由 非 本 地 数据 写 启动 。 在 图 11-1 所 示例 子 代码 的 基准 通信 结构 中 ， 如 
果 假 设 数组 4 分 配 在 处 理 器 Ps 的 本 地 存储 器 而 非 P 的 本 地 存储 器 ， 则 其 通信 征 由 发 送 者 
发 起 的 。 像 消息 传递 中 的 发 送 情况 一 样 ， 我 们 所 能 做 的 最 多 的 预 通信 是 分 成 两 个 循环 〈 参 看 
图 11-19 的 第 一 列 )， 在 对 E (BL) 的 任何 计算 之 前 执行 所 有 的 对 数组 4 的 写 操作 。 采 用 非 
阻塞 写 可 允许 部 分 写 时 延 与 1 (BD 的 计算 性 重合， 当然 在 写 非 阻 塞 时 这 样 的 情况 会 发 
E, 但 问题 是 在 哪里 写 。 效 果 更 为 显著 的 是 使 P, 上 的 写 早 些 完成 ， 这 样 可 允许 Ps 的 读 在 
while 循环 中 更 快 地 出 现 。 





Pa Pg 

for i0 to n-i do while flag = 0 {}; 

compute A(iJ; prefetch(A{0]); 

write Ali]; for i¢0 to n-2 do 
end for prefetch (A{i+1]); 
flag e 1; read A[i] from prefetch_buffer; 
for i€-0 to n-1 do use A[i}; 

compute f£(B[i]); compute g(C[i]); 

end for 


read A[n-1] from prefetch_buffer; 
use A[n-1); 
compute g(C[n-1]) 
图 11-19 共享 地 址 空间 预 取 的 例子 。 该 例 程 假定 共享 数据 不 
被 缓冲 ， 因 此 预 取 的 数据 来 自 于 预 取 缓冲 而 非 缓存 
如 果 数 组 4 分 配 在 P, 的 本 地 内 存 ， 则 其 通信 是 接收 者 发 起 的 。 此 时 生产 者 P 的 写 操 
作 是 本 地 的 ， 而 消费 者 Ps 的 读 则 是 远程 的 。 该 情况 下 的 预 通信 是 在 实际 用 之 前 先 预 取 
(prefetching) 数组 4 的 元 素 ， 像 在 消息 传递 中 需要 数据 之 前 发 送 a_receives 一 样 。 不 同 的 
是 其 预 取 不 是 在 本 地 〈 如 接收 ) ， 而 是 导致 数据 通过 网 络 传输 : 一 个 预 取 请 求 通过 网 络 发 送 
给 远程 节点 (Ps ) ， 该 节点 的 通信 辅助 部 件 响应 请 求 并 将 数据 传 回 。 同 时 ，Ps 继续 执行 其 他 
的 工作 。 有 很 多 方法 实现 预 取 ， 我 们 以 后 将 看 到 。 一 个 是 发 出 一 个 特殊 的 预 取 (prefetch) 指 
令 ， 并 像 消息 传递 中 一 样 建立 一 个 软件 流水 线 。 共 享 地 址 空间 中 的 预 取 代码 如 图 11-19 所 
示 。 软 件 流水 有 一 个 为 第 一 次 迭代 发 射 预 取 操 作 的 开头 部 分 ，n -1 次 迭代 的 稳 态 期 间 ， 在 
该 期 间 内 进行 当前 先 代 的 计算 时 为 下 一 次 迁 代 发 预 取 操 作 、 和 迭代 ， 以 及 由 最 后 一 次 迭代 组 成 的 
结尾 部 分 。 其 中 我 们 看 到 ， 预 取 指令 并 不 能 取代 源 程 序 中 的 实际 读 操作 ( 装 入 指令 )。 另 外 ， 
如 果 要 完成 通过 重 委 隐藏 时 延 的 目标 ， 预 取 指 令 本 身 应 是 非 阻 塞 的 〈 不 应 当 停滞 处 理 器 )。 
由 于 在 这 种 情况 下 共享 数据 不 被 缓冲 ， 预 取 的 数据 则 放 在 称 为 预 取 缓冲 的 特殊 硬件 结构 
中 。 当 下 一 个 迭代 中 一 个 字 被 实际 地 装 入 寄存 器 时 ， 则 从 预 取 缓冲 的 头 而 不 是 从 存储 器 读 。 
如 要 隐藏 的 时 延 大 于 单个 从 代 的 计算 时 ,我 们 应 当 预 取 多 个 迭代 ， 而 且 要 求 一 次 能 保存 多 个 
Fo CRAY 13D 多 处 理 器 就 提供 这 样 的 硬件 支持 ， 数 据 在 缓冲 区 中 成 为 有 效 的 顺序 与 预 取 发 
射 的 顺序 一 致 ， 以 使 处 理 器 可 按照 同样 的 顺序 读 。CAFEY TSE 使 用 一 组 外 部 的 寄存 器 作为 预 
取 缓 冲 。 
即使 数据 不 能 足够 地 提前 预 取 (在 数据 实际 访问 时 没有 到 达 )， 预 取 也 是 很 有 好 处 的 。 
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如 实际 的 访问 发 现 有 一 个 待 完成 的 预 取 与 其 访问 相 联系 ， 它 可 在 其 余 的 时 间 等 待 一 直到 数据 
取 回 ， 这 样 隐藏 了 其 他 的 时 延 。 另 外 ， 依 赖 于 一 次 允许 待 完成 的 预 取 个 数 ， 预 取 可 以 一 个 接 
一 个 地 发 射 以 重要 它们 的 时 延 。 这 样 就 提供 了 流水 数据 移动 ， 虽 然 其 速度 可 能 受到 发 射 预 取 
开销 的 限制 。 


11.6.2 缓存 一 致 的 共享 地 址 空间 


在 缓存 一 致 的 共享 地 址 空间 中 采用 预 通信 更 令 人 感 兴趣 ， 这 是 由 于 : 共享 的 非 局 部 数据 
可 以 通过 预 通信 直接 进入 处 理 器 的 缓存 而 不 需 特殊 的 缓冲 ， 预 通信 可 与 缓存 一 致 协议 相交 
互 。 因 此 我 们 以 此 为 背景 更 详细 地 讨论 这 些 技术 。 

现 考虑 基于 无 效 的 缓存 一 致 协议 。 读 扑 空 要 求 从 它 所 在 的 地 方 取 回 数据 。 产 生 排他 读 的 
写 取 回 数据 以 及 所 有 权 (通过 通知 其 宿主 ， 或 许 作废 其 他 的 缓存 ， 接 收 确认 )， 产 生 更 新 的 
写 操作 只 取 回 所 有 权 。 所 有 这 些 “ 取 ”都 有 时 延 ， 都 是 预 取 的 可 选 对 象 。 我 们 可 以 预 取 数 
据 、 所 有 权 或 两 者 兼 要 。 | 

基于 更 新 的 缓存 一 致 协议 产生 发 送 者 发 起 的 通信 ， 从 目的 节点 的 立场 看 它 提供 了 某 种 形 
式 的 预 通信 。 虽 然 更 新 协议 不 是 非常 流行 ， 但 有 选择 地 对 拷贝 进行 更 新 可 用 于 发 送 者 发 起 的 
预 通信 ， 即 使 在 基于 无 效 协议 的 环境 下 。 一 种 可 能 是 有 选择 地 插入 产生 更 新 的 软件 指令 ; 另 
一 种 是 使 用 混合 的 更 新 无 效 方法 。 本 节 的 后 面 将 讨论 这 些 技术 。 

1. 预 取 的 概念 

两 种 主要 的 分 类 适用 于 多 处 理 器 和 单 处 理 器 : 硬件 控制 的 预 取 和 软件 控制 的 预 取 。 在 硬 
件 控制 的 预 取 中 ， 没 有 特殊 的 指令 插入 程序 代码 ， 而 使 用 特殊 的 硬件 通过 观察 预测 将 来 的 访 
问 ， 而 且 按照 这 种 预测 进行 预 取 。 在 软件 控制 的 预 取 中 ， 预 取 什 么 以 及 何 时 预 取 是 由 编程 者 
或 编译 来 决定 的 希望 是 由 编译 决定 )， 主 要 通过 分 析 代 码 并 在 代码 中 适当 插入 预 取 指 令 。 
本 节 的 后 面 将 讨论 硬件 控制 的 及 软件 控制 的 平衡 。 预 取 也 能 在 块 预 取 (接收 者 发 起 的 大 数据 
块 预 取 ) 和 块 放置 (发 送 者 发 起 ) 中 与 块 传送 结合 。 

在 多 处 理 器 中 ， 在 硬件 和 软件 控制 的 预 取 中 要 确定 提前 多 少 预 取 ，-- 个 关键 问题 是 预 取 
是 绑 定 的 还 是 非 绑 定 的 。 一 个 绑 定 预 取 是 指 预 取 数据 的 值 在 预 取 时 被 绑 定 ， 意思 是 当 进程 以 
后 通过 常规 的 读 操作 ( 装 人 指令 ) 读 该 变量 时 ， 将 看 到 该 变量 被 预 取 时 的 值 ， 即 使 该 值 在 预 
取 和 实际 使 用 期 间 已 被 其 他 处 理 器 修改 而 且 对 于 读者 的 缓存 已 成 为 可 见 。 我 们 讨论 的 在 非 组 
存 一 致 性 情况 下 的 预 取 〈 预 取 进 预 取 缓 冲 ， 如 图 11-19 所 示 ) 是 典型 的 绑 定 预 取 ， 直 接 预 取 
到 处 理 器 中 的 寄存 器 也 是 一 样 的 。 一 个 非 绑 定 预 取 是 指 预 取 指令 带 来 的 值 在 实际 操作 使 用 前 
一 直 保持 修改 ， 像 11.5.2 节 讨 论 的 那样 。 例 如 ， 在 采用 非 绑 定 预 取 的 缓存 一 致 系统 中 ,了 预 
取 的 数据 是 进入 缓存 而 不 是 寄存 器 或 预 取 缓 冲 〈 两 者 一 般 都 不 在 一 致 性 协议 控制 下 使 用 )， 
而 在 预 取 和 实际 使 用 之 间 被 其 他 处 理 器 的 修改 将 按照 协议 更 新 或 作废 该 缓存 块 。 这 意味 着 预 
取 操 作 可 在 任何 时 候 发 出 ， 而 不 影响 并 行程 序 的 语义 或 可 能 产生 的 结果 。 相 反 ， 绑 定 预 取 却 
影响 程序 语义 ， 因 此 我 们 一 定 要 在 提前 发 出 时 特别 小 心 。 例 如 ， 如 果 进 程 在 关键 部 分 增加 了 
共享 的 计数 器 ， 则 在 关键 部 分 之 前 (之 外 ) 发 出 对 计数 器 的 绑 定 预 取 就 会 不 安全 ， 这 是 由 于 
在 预 取 和 获得 锁 之 间 另 一 个 进程 可 能 得 到 了 该 锁 并 修改 了 该 数据 ;然而 在 该 关键 部 分 发 送 非 
绑 定 预 取 是 安全 的 。 由 于 非 绑 定 预 取 可 尽早 产生 ， 因 而 也 具有 性 能 优点 。 

其 他 重要 的 问题 是 有 关 确 定 预 取 什 么 数据 (分析 ) 以 及 何 时 初始 化 预 取 (调度 )。 只 有 
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当 访问 的 地 址 能 提前 确定 时 ， 我 们 才 认 为 该 预 取 是 可 能 的 。 例 如 ， 若 一 个 地 址 恰 在 该 字 被 访 
问 之 前 确定 ， 则 他 就 不 可 能 被 预 取 。 在 用 指针 实现 的 非 规 则 以 及 动态 数据 结构 应 用 中 (如 链 
表 和 树 ) 这 样 考虑 是 非常 重要 的 。 

预 取 技术 的 履 盖 率 是 指 没 有 预 取 时 扑 空 ， 而 在 实际 访问 之 前 可 提前 预 取 的 缓存 扑 空 。 然 
而 ， 得 到 高 的 覆盖 率 并 不 是 惟一 的 目标 。 我 们 不 应 当 预 取 处 理 器 不 需要 的 数据 ， 也 不 能 预 取 
已 在 缓存 里 的 数据 。 这 些 预 取 会 消耗 开销 以 及 缓存 的 访问 带宽 ， 影 响 正常 的 访问 而 做 无 用 的 
事 。 并 不 是 预 取 的 越 多 就 越 好 。 这 些 不 需要 的 预 取 称 为 非 需 预 取 。 要 避免 非 需 预 取 ， 我 们 就 
要 分 析 应 用 程序 中 的 数据 访问 的 数据 局 部 性 以 及 与 缓存 大 小 和 组 织 的 相互 关系 〈 以 便 只 为 了 
那些 且 前 不 在 缓存 中 的 数据 发 送 预 取 ) 。 

最 后 ， 适 时 和 奉 运 在 预 取 中 起 着 重要 作用 。 一 个 预 取 也 许 是 可 能 的 而 且 并 非 不 需要 的 ， 
但 是 可 能 初始 化 太 晚 而 不 能 隐藏 实际 访问 的 时 延 。 或 者 初始 化 太 早 ， 在 实际 访问 之 前 到 达 高 
速 缓存 ， 很 快 或 者 已 被 替换 或 无 效 。 因 此 预 取 应 是 有 效 的 : 早 以 足够 隐藏 时 延 ， 晚 以 使 得 蔡 
换 或 无 效 的 概率 最 小 。 

预 取 分 析 的 目标 是 尽量 增 大 覆盖 率 减 小 非 需 预 取 ， 而 预 取 调 度 的 目标 是 效果 最 大 化 。 以 
下 我 们 将 在 一 定 程度 上 详细 地 考虑 硬件 控制 的 预 取 和 软件 控制 的 预 取 ， 分 析 它们 在 这 些 重要 
问题 上 的 成 功 程度 。 

2. 硬件 控制 的 预 取 

硬件 控制 预 取 的 目标 是 在 硬件 上 提供 执行 时 访问 模式 的 监测 。 硬 件 控制 的 预 取 假定 在 不 
久 的 将 来 访问 遵循 过 去 的 模式 。 在 这 种 假定 下 ， 包 含 某 数据 的 缓存 块 可 被 预 取 而 进入 处 理 器 
的 缓存 ， 以 便 在 以 后 的 访问 可 在 缓存 中 命中 。 以 下 的 讨论 假定 的 是 非 绑 定 预 取 。 

其 分 析 和 调度 都 由 硬件 负责 ， 并 没有 特殊 软件 的 支持 ， 两 者 都 是 在 程序 执行 的 过 程 中 动 
态 执行 的 。 分 析 和 调度 是 十 分 紧密 地 耦合 的 ， 因 为 一 旦 某 缓存 块 认定 为 预 取 块 ， 则 该 块 的 预 
取 就 会 初始 化 : 由 硬件 独立 地 决定 该 发 送 是 十 分 困难 的 。 

预 取 的 硬件 应 简单 而 廉价 ， 而 且 不 应 当 在 处 理 器 周期 时 间 的 关键 路 径 上 。 

许多 简单 的 硬件 预 取 方案 已 经 出 现 。 在 最 基本 的 层次 上 讲 ， 长 缓存 块 本 身 就 是 硬件 预 取 
的 一 种 形式 ， 可 很 好 地 开发 程序 中 的 空间 局 部 性 。 对 于 限制 不 需要 预 取 的 情况 ， 没 有 分 析 依 
据 ; 覆盖 率 依赖 于 程序 的 空间 局 部 性 ， 有 效 性 依赖 于 访问 缓存 块 中 的 第 一 个 字 与 访问 其 他 字 
所 占用 的 时 间 。 例 如 ， 如 果 一 个 进程 简单 地 以 单位 步 长 遍历 一 个 大 矩阵 ， 则 长 缓存 块 的 预 取 
覆盖 率 会 很 好 OF 4 个 字 的 缓存 块 为 75%)， 而且 没有 非 需 预 取 一 一 但 是 效果 不 会 非常 
大 ， 因 为 预 取 发 送 太 晚 。 对 长 缓存 块 的 思想 进一步 扩展 则 是 整 块 预测 方案 (one-block looka- 
head，OBL) ， 其 中 对 于 第 i 块 的 访问 将 激发 对 第 i + 1 块 的 预 取 。 不 同形 式 的 分 析 和 调度 可 
应 用 于 该 技术 ; 例如 当 对 第 i 块 的 访问 被 检测 到 时 ， 可 预 取 第 lk, 或 只 有 当 第 i 块 检 
测 到 一 个 缓存 扑 空 ， 或 当 第 i 块 预 取 后 第 一 次 访问 。 这 种 扩展 还 包括 提前 预 取 多 个 缓存 块 
(如 , 块 i+1，i+2 和 i+3) 而 不 只 是 一 个 块 (Dahlgren，Dubois，and Stenstrom 1995)， 实 际 
是 采用 了 以 下 单 处 理 器 中 流 缓冲 思想 : 当 遇 到 扑 空 时 ， 几 个 后 续 块 预 取 入 一 个 独立 的 绥 冲 ， 
而 不 是 缓存 (Jouppi 1990)。 当 访问 多 为 单 步 长 时 ， 这 种 技术 是 很 有 用 的 。 

对 于 非 单位 跨 距 或 较 大 跨 距 数 据 访 问 的 情形 ， 检 测 和 预 取 访 问 的 一 种 简单 方法 是 : 对 给 
定 指令 〈 即 给 定 的 程序 计数 器 的 值 ) ， 在 一 个 历史 表 中 保留 先前 访问 数据 项 的 地 址 ， 该 历史 
表 由 程序 计数 器 索引 。 当 相同 的 指令 再 次 发 出 的 时 候 (例如 在 循环 的 下 一 次 迄 代 中 )。 如 果 
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在 历史 表 中 发 现 了 相同 的 程序 计数 值 。 就 能 算出 跨 距 等 于 当前 数据 地 址 和 历史 表 中 指令 对 应 
数据 地 址 的 差 。 预 取 就 可 以 针对 当前 地 址 加 上 跨 距 得 到 的 地 址 发 出 (Fu and Patel 1991; Fu, 
Patel, and Janssens 1992) 。 其 历史 表 更 像 一 个 转移 历史 表 ， 实 质 上 是 检测 一 个 指令 访问 数据 
的 规则 步 长 ， 而 且 依 此 预测 将 来 该 指令 访问 的 数据 紧 跟 在 该 步 长 的 后 面 。 当 步 长 为 常数 时 这 
种 方案 可 能 工作 的 很 好 ， 然 而 以 下 我 们 将 讨论 的 硬件 以 及 软件 的 其 他 预 取 方案 也 可 能 在 这 种 
情况 下 很 好 地 工作 。 

到 目前 为 止 ， 发 现 的 这 些 方法 只 是 检测 简单 的 规则 模式 ， 但 当 访问 不 遵循 这 种 模式 时 ， 
它们 并 不 能 防止 非 需 预 取 。 例 如 ， 当 一 个 指令 连续 三 次 访问 不 能 保持 相同 的 步 长 时 ， 以 上 的 
方案 将 预 取 无 用 的 数据 。 这 种 非 需 预 取 造 成 的 拥挤 会 导致 有 用 的 常规 访问 的 竞争 ， 从 而 损害 
性 能 。 

在 更 高 级 的 硬件 预 取 方案 中 ， 历 史 表 不 仅 保 存 指令 最 后 一 次 访问 的 数据 地 址 ， 而 且 还 保 
存 该 指令 访问 的 前 两 个 访问 地 址 间 的 步 长 (Baer and Chen 1991; Chen and Bear 1992) 。 若 该 指 
令 访问 的 当前 数据 地 址 与 前 一 个 地 址 之 间 有 具有 相同 的 步 长 ， 则 认为 是 规则 步 长 模式 ， 并 可 发 
送 预 取 。 否 则 ， 认 为 是 模式 中 的 一 个 断 点 ， 不 能 发 出 预 取 操 作 ， 这 样 可 减 小 非 需 预 取 。 除 了 
地 址 和 步 长 之 外 ， 表 项 也 可 包含 一 些 状态 位 ， 这 些 状态 位 跟踪 该 指令 的 最 近 访 问 是 否 是 规则 
的 步 长 模式 ， 曾 经 处 于 非 规则 模式 ， 或 正 转换 成 规则 模式 ， 或 由 规则 模式 转 来 。 基 于 这 些 步 
长 匹配 ， 一 组 简单 的 规则 可 用 来 确定 是 否 要 发 送 预 取 。 若 结果 是 潜在 预 取 ， 则 缓存 查找 该 块 
是 否 已 存在 ， 若 不 存在 则 发 送 预 取 。 

这 种 模式 可 改进 分 析 ， 但 还 不 能 在 预 取 调度 方面 起 重要 作用 。 尤 其 是 ， 在 循环 中 只 能 提 
前 预 取 一 次 多 代 。 若 一 次 循环 迭代 中 所 做 的 工作 小 于 需要 隐藏 的 时 延 ， 这 将 不 足以 隐藏 时 
延 。 调 度 的 目标 是 得 到 恰好 的 预 取 ， 即 ， 在 需要 数据 的 指令 前 1 个 周期 发 送 预 取 ， 其 中 1 为 
要 隐藏 的 时 延 ， 以 便于 在 指令 需要 数据 时 预 取 刚刚 到 达 ， 而 这 样 的 预 取 才 是 有 效 的 。 这 意味 
着 预 取 应 该 在 实际 需要 数据 的 指令 执行 前 [WB] 个 循环 迭代 发 送 ， 其 中 b 是 预测 的 一 个 循 
环 体 迭代 的 执行 时 间 。 

用 硬件 实现 这 种 调度 的 一 个 方法 是 使 用 前 瞻 程 序 计数 器 (LA-PC)， 该 计数 器 可 超前 于 
当前 实际 的 PCL 个 周期 。LA-PC 用 来 访问 历史 数据 表 并 产生 预 取 的 而 非 当 前 (但 和 当前 PC 
AK) 的 实际 PC。LA-PC 总 是 比 实际 的 PC 超前 启动 一 条 指令 ， 但 每 个 周期 都 在 递增 ， 即 使 
是 处 理 器 由 于 缓存 扑 空 而 停顿 ;这样 LA-PC 总 是 超前 实际 的 PC。 就 像 实际 的 PC 一 样 LA- 
PC 同时 也 查看 转移 的 历史 表 ， 因 此 转移 预测 机 制 也 能 修改 LA-PC 并 保持 正确 的 方向 。 当 检 
测 到 与 LA-PC 相关 的 转移 预测 错误 时 ，LA-PC 则 重 置 为 PC + 1。 其 中 一 个 界限 寄存 器 用 来 控 
制 LA-PC 超前 PC 的 最 大 距离 。 当 超出 该 界限 或 者 未 完成 的 访问 缓冲 区 满 时 〈 此 时 不 能 发 出 
任何 预 取 )，LA-PC 就 会 停顿 。 

LA-PC 和 PC 每 个 周期 都 检查 预 取 的 历史 表 (当然 ， 它 们 可 能 访问 不 同 的 表 项 )。 对 PC 
的 查询 将 按照 规则 更 新 命中 项 的 “前 一 个 地 址 ”和 状态 域 , 但 并 不 产生 预 取 。 每 个 表 项 中 增 
加 了 一 个 “次 数 ” 域 ， 用 来 跟踪 LA-PC 超前 于 PC 的 迭代 数 〔 沁 到 该 指令 的 次 数 )。LA-PC 的 
查询 使 得 命中 项 中 的 该 域 递增 ， 并 按照 规则 产生 一 个 潜在 的 预 取 地 址 。 所 产生 的 地 址 是 该 域 
的 值 乘 以 对 应 项 中 的 步 长 ， 加 上 前 一 个 地 址 域 。 当 PC 在 预 取 历 史 表 中 查询 到 该 条 指令 时 ， 
“次 数 ” 域 递 减 。 更 详细 的 资料 参考 (Chen and Baer 1992) 。 

这 些 硬件 方案 中 的 预 取 只 能 作为 一 种 暗示 ， 因 此 在 扩展 的 存储 系统 中 真正 的 缓存 扑 空 的 
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优先 级 要 高 于 这 些 预 取 。 如 果 预 取 遇 到 了 缓存 扑 空 〈 页 扑 空 或 者 其 他 的 例外 )， 则 该 预 取 被 
简单 地 注销 而 并 不 处 理 该 例外 。 人 们 已 经 提出 更 加 具体 的 硬件 控制 的 预 取 机 制 ， 如 基于 不 规 
则 补偿 的 访问 预 取 (Zhang and Torrellas 1995) 等 。 然 而 ， 即 使 是 最 简单 的 预 取 技 术 也 没有 找 
到 解决 多 处 理 器 中 的 单 处 理 器 预 取 方法 。 相 反 的 趋势 却 是 为 软件 控制 的 方案 提供 可 使 用 的 预 
取 指 令 。 在 讨论 相对 于 硬件 控制 方案 的 优 缺 点 之 前 ， 我 们 先 观察 以 下 软件 控制 的 预 取 。 

3. 软件 控制 的 预 取 

在 软件 控制 的 预 取 中 ， 分析 预 取 的 内 容 以 及 预 取 发 射 的 调度 时 刻 一 般 由 软件 静态 完成 。 
编译 (或 编程 者 ) 在 认为 适当 的 点 将 特殊 的 预 取 指 令 插入 代码 。 像 从 图 11-19 看 到 的 那样 ， 
这 也 可 能 在 某 种 程度 上 重组 循环 。 所 需要 的 硬件 支持 是 提供 这 些 非 阻塞 指令 ， 允 许多 个 未 完 
成 的 访问 ， 以 及 一 些 对 挂 起 访问 的 跟踪 机 制 。 后 两 种 机 制 实际 上 是 在 基于 读 写 的 系统 中 各 种 
形式 的 时 延 包 容 所 要 求 的 。 

我 们 首先 从 一 个 处 理 器 在 访问 流 中 尽力 隐藏 时 延 的 观点 考虑 软件 控制 的 预 取 ， 而 非 由 于 
与 其 他 处 理 器 交互 而 导致 的 复杂 化 。 该 问题 与 单 处 理 器 中 的 预 取 是 等 价 的 ， 只 是 隐藏 的 时 延 
范围 不 同 。 然 后 讨论 由 多 处 理 器 导致 的 复杂 情形 。 

4, 单 处 理 器 中 的 预 取 

考虑 一 个 简单 的 循环 ， 像 图 11-1 描述 的 例子 。 一 个 自然 的 方法 是 在 循环 中 的 数组 访问 
中 总 是 提前 一 个 迭代 发 出 一 个 预 取 指 令 。 这 将 导致 一 个 如 图 11-19 所 示 的 软件 流水 线 ， 但 有 
两 点 不 同 : 数据 送 到 缓存 而 不 是 预 取 缓冲 ， 以 后 的 数据 装 人 是 来 自 数据 的 地 址 而 不 是 预 取 组 
m (Bila, read (A [i] ) Suse (A [i ]))。 这 能 很 容易 地 通过 提前 多 个 选 代 发 出 预 取 ， 
扩展 成 接近 恰好 及 时 预 取 (just-in-time )， 这 在 前 面 已 讨论 过 (见习 题 11.15)。 

为 了 最 小 化 不 必要 的 预 取 ， 分 析 与 预测 程序 中 的 时 间 和 空间 局 部 性 以 及 将 来 访问 的 地 址 
是 非常 重要 的 。 例 如 ， 在 块 矩 阵 因子 分 解 中 很 多 次 重复 使 用 缓存 中 当前 块 的 数据 ， 因 此 预 取 
块 中 的 所 有 访问 是 没有 意义 的 。 在 这 种 软件 情况 下 ， 非 需 预 取 除 了 缓存 查找 带宽 与 可 能 的 无 
用 通信 量 外 还 有 另外 一 个 缺点 : 在 代码 中 导致 了 无 用 的 预 取 指令 ， 这 也 增加 了 执行 开销 。 预 
取 指 令 通常 处 于 条 件 表示 中 ， 而 且 对 于 复杂 的 数据 结构 经 常 需要 额外 的 指令 计算 预 取 的 地 
址 ， 两 者 都 要 增加 指令 开销 。 

如 何 用 软件 很 容易 地 确定 预 取 哪 些 访问 呢 ? 尤其 是 ， 编 译 是 否 能 做 到 ， 或 者 只 能 留 给 编 
Ba? 答案 依赖 于 程序 访问 的 模式 。 当 以 某 种 规则 方式 遍历 数组 时 ， 其 可 预测 度 就 非常 大 。 
例如 ， 一 个 简单 的 预测 是 在 循环 中 何 时 数组 的 元 素 被 访问 ， 而 且 数 组 的 索引 是 循环 嵌 套 的 仿 
射 函数 〈 例 如 ， 循 环 索引 的 线性 组 合 ) 。 下 面 的 代码 是 一 个 例子 ; 








for i e 1 ton 
for j e 1 ton 
sum = sum + A[3i+5j+7]; 
end for 
end for 


给 定 希 望 隐藏 的 时 延 数 量 ， 我 们 能 在 相关 循环 中 提前 多 个 和 迭代 发 出 预 了 到。 数组 访问 的 数量 以 
及 人 遍历 中 的 空间 局 部 性 在 该 例 中 是 容易 预测 的 ， 这 使 得 容易 进行 减 小 非 需 访问 的 局 部 性 分 
析 。 分 析 数 据 局 部 性 的 主要 复杂 度 在 于 预测 由 映射 冲突 导致 的 组 存 扑 空 。 

更 难以 分 析 的 一 类 访问 是 间接 数组 访问 ; 例如 ， 
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for i e 1 ton 

sum = sum + A[index[i]]; 

end for 
然而 若 能 容易 的 预测 i 的 值 ， 就 能 预测 将 访问 的 索引 数组 元 素 ; 但 若 不 能 预测 index [i] 
的 值 ， 因 此 也 就 不 能 预测 将 访问 的 A 的 元 素 。 为 了 预测 对 数组 A 的 访问 ， 我 们 必须 足够 早 
地 预 取 index [i] ， 再 利用 预 取 的 值 确定 数组 A 的 预 取 元 素 。 后 者 要 求 将 新 的 指令 插入 代 
码 。 对 于 调度 ， 若 我 们 通常 提前 预 取 的 迭代 数 为 上， 我 们 必须 提前 2k 个 迭代 预 取 index 
Ci] ， 以 便 在 需要 A [index [i]] 时 可 提前 个 迭代 得 到 值 ， 在 这 点 可 以 使 用 index [i] 
值 来 预 取 A [index [i]] 。 在 这 些 情况 下 分 析 空间 和 时 间 的 局 部 性 比 预测 地 址 还 困难 。 由 
于 我 们 不 能 提前 知道 访问 A 的 空间 关系 ， 甚 至 不 知道 将 访问 A 的 多 少 个 地 址 (索引 数组 中 
的 不 同 的 项 可 能 有 相同 的 值 )。 我 们 的 选择 只 能 是 预 取 所 有 对 数组 A Lindex [i] ] 的 访 
问 ， 或 根本 没有 预 取 ， 或 在 执行 时 得 到 访问 模式 轮廓 信息 以 做 决定 ， 或 利用 高 层 编程 知识 。 

目前 的 编译 技术 在 前 述 的 限制 下 已 经 可 以 很 好 地 处 理 前 面 的 循环 中 的 数组 访问 类 型 。 局 
部 性 分 析 (Wolf and Lam 1991) 首先 用 来 在 给 定 的 缓存 中 预测 数组 访问 何 时 会 扑 空 (通常 在 
一 级 缓存 中 )。 这 导致 了 一 次 预 取 预测 ， 该 预测 可 认为 是 为 给 定 的 迭代 发 出 预 取 的 条 件 式 。 
于 是 利用 基于 时 延 的 调度 来 确定 提前 多 少 个 迭代 发 出 预 取 。 由 于 编译 不 能 确定 在 存储 系统 的 
哪 一 层 发 生 扑 空 ， 只 能 保守 地 假定 最 坏 的 时 延 情况 。 

项 测 冲突 扑 空 是 非常 困难 的 。 基 于 全 相连 缓存 的 局 部 性 分 析 可 能 认为 某 块 应 当 仍 然 在 高 
速 缓存 里 而 不 应 当 发 出 预 取 ;， 但 是 该 块 可 能 由 于 冲突 而 被 替换 ， 此 时 预 取 就 会 带 来 好 处 。 一 
个 可 能 的 途径 是 假定 将 一 个 有 C 个 字 节 的 小 的 相 联 缓存 当 作 一 个 按照 一 定 系数 缩小 的 全 相 
连 缓存， 但 这 并 不 是 安全 的 。 进 程 切 换 使 得 多 用 户 编程 难以 对 扑 空 进行 预测 ， 这 是 由 于 一 个 
进程 可 能 污染 另 一 个 进程 的 缓存 状态 ， 即 使 局 部 性 分 析 并 不 假定 缓存 块 长 时 间 停 留 在 缓存 
中 。 即 使 存在 这 些 问 题 ， 有 限 的 实验 已 经 显示 出 : 当 大 多 数 缓存 扑 空 是 对 循环 中 仿 射 或 者 间 
接 数组 的 访问 时 ， 编 译 产 生 的 预 取 可 取得 潜在 的 成 功 (Mowry 1994)。 这 些 程序 包括 规则 网 
格 或 密集 的 矩阵 〈 也 包括 稀疏 年 阵 ) 计算 (这些 计算 中 包括 间接 的 数组 访问 ， 但 为 了 效率 经 
常 采用 压缩 的 密集 形式 ) 。 这 些 实验 都 是 通过 模拟 获得 的 ， 因 为 实际 的 机 器 刚 开 始 提供 软件 
控制 预 取 所 需要 的 基本 硬件 支持 。 

对 于 编译 来 说 预 取 中 的 真正 困难 是 包含 指针 或 链接 的 数据 结构 (例如 链表 和 树 )。 不 像 
数组 索引 ， 在 遍历 这 些 数据 结构 时 不 能 参考 指针 的 值 ;， 由 于 链表 和 树 中 的 地 址 只 有 访问 该 元 
素 时 才能 知道 ， 因 此 并 不 容易 预 取 。 在 这 样 的 数据 结构 中 预测 其 局 部 性 也 是 很 困难 的 。 目 
前 ， 这 样 的 预 取 必须 由 程序 员 完成 ， 这 可 开发 程序 及 数据 结构 中 的 高 级 语义 知识 ， 如 图 11.3 
所 示 。 基 于 指针 和 链接 数据 结构 的 编译 预 取 已 成 为 研究 的 主题 ， 而 且 别 名 和 指针 会 有 助 于 该 
WHE (Luk and Mowry 1996)。 通 常 ， 编 译 在 其 他 领域 (例如 程序 间 的 分 析 ) 的 局 限 性 也 会 限 
制 其 预 取 分 析 的 有 效 性 。 

例 11.3 考虑 第 3 章 描述 的 Bames-Hut 应 用 中 计算 粒子 引力 的 遍历 问题 。 其 中 ， 每 个 粒 
子 对 应 于 一 个 进程 并 对 其 重复 遍历 ， 而 且 连 续 的 粒子 使 用 许多 树 中 的 数据 ， 在 不 同 的 粒子 处 
理 中 ， 这 些 数据 可 能 停留 在 缓存 中 。 在 这 种 树 遍历 代码 中 如 何 进行 预 取 呢 ? 讨论 多 种 可 能 性 
及 其 折 中 方案 。 

解答 : 对 8 又 树 采 用 深度 优先 遍历 。 然 而 ， 预 先 假定 若 需要 打开 一 个 树 单元 ， 则 其 8 个 
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子 单元 将 被 考查 。 于 是 ， 只 要 确定 一 个 单元 被 打开 ， 就 可 以 为 该 单元 的 所 有 儿子 插入 预 取 
(或 者 我 们 只 要 遇 到 一 个 单元 就 可 以 推测 式 发 送 预 取 ， 而 不 再 访问 儿子 的 指针 )。 由 于 我 们 希 
望 工作 集 至 少 适 合 于 二 级 缓存 中 (这 是 编译 很 难 确定 的 ) ， 因 此 我 们 只 有 在 第 一 次 访问 时 才 
应 当 预 取 单 元 〈 即 第 一 次 访问 的 粒子 ) ， 而 不 是 为 了 后 续 的 粒子 。 缓 存 冲 突 的 可 能 发 生 导 到 
不 可 预测 的 扑 空 ， 对 此 我 们 只 能 采取 一 点 静态 的 措施 。 由 于 预 取 需 要 我 们 做 一 些 工作 (确定 
是 否 是 对 单元 的 第 一 次 访问 ， 是 否 访 问 子 单元 的 指针 等 等 )， 因 而 预 取 的 开销 可 能 是 几 条 指 
令 。 若 预 取 的 开销 经 常 多 于 成 功 的 预 取 ， 这 会 抵消 预 取 的 效益 。 这 种 策略 的 另 一 个 问题 是 当 
存储 时 延 较 长 时 我 们 就 不 能 预 取得 足够 时 。 由 于 我 们 一 次 预 取 完 所 有 的 子 单 元 ， 多 数 情况 下 
为 第 一 个 (或 两 个 ) 子 单元 所 做 的 深度 优先 工作 应 当 足 够 隐藏 其 他 节点 的 时 延 ， 但 该 情况 并 
非 如 此 。 其 改进 的 惟一 方式 是 当 遇 到 单元 时 治 着 树 进行 多 层 的 推测 预 取 ， 而 不 参考 推测 预 取 
的 指针 以 确定 预 取 地 址 ; 以 期 望 取 到 应 预 取 的 单元 ， 当 我 们 到 达 该 单元 时 其 数据 已 在 缓存 
中 。 由 于 预 取 是 非 绑 定 的 ， 因 而 不 会 违背 正确 性 。 在 其 他 使 用 非 结 构 化 的 链表 应 用 中 ， 对 于 
编译 甚至 程序 员 来 说 ， 预 取 成 功 就 变 得 更 加 困难 。 国 

5. 和 多 处 理 器 一 致 性 协议 之 间 的 相互 作用 

并 行程 序 中 预 取 必须 要 考虑 的 另外 两 个 问题 是 预 取 通 信 扑 空 和 所 有 者 预 取 。 两 者 源 于 以 
下 的 事实 ， 当 一 个 处 理 器 访问 一 个 数据 时 ， 其 他 的 处 理 器 也 许 会 正在 访问 或 者 修改 该 数据 。 

在 基于 作废 的 缓存 一 致 性 协议 多 处 理 器 中 ， 数 据 从 一 个 处 理 器 的 缓存 中 移出 (因此 发 生 
thas) 不 仅 因 为 替换 而 且 因 为 共享 。 我 们 在 预 取 时 不 应 当 太 早 ， 以 至 于 该 数据 在 使 用 之 前 已 
无 效 。 幸 和 运 的 是 ， 在 非 绑 定 预 取 中 这 些 只 是 性 能 问题 而 不 是 正确 性 问题 。 

对 于 编译 来 说 预测 将 来 的 作废 和 做 需要 的 分 析 是 很 困难 的 ， 因 为 共享 地 址 空间 的 显 式 并 
行 应 用 程序 中 的 通信 很 难 推断 。 其 中 对 于 编译 有 利 的 一 个 情况 是 : 编译 本 身 并 行 化 程序 。 但 
即使 如 此 ， 动 态 任 务 分 配 和 数据 伪 共享 也 危及 着 分 析 的 成 功 。 

程序 员 具 有 进程 间 通 信 的 语义 信息 ， 因 此 在 具有 作废 操作 的 系统 中 程序 员 较 容易 插入 和 
调度 预 取 。 在 并 行程 序 中 编译 具有 的 一 种 信息 是 由 显 式 同 步 语 句 传达 的 ， 由 于 同步 通常 预示 
着 数据 共享 〈( 例 如， 在 “适当 标记 的 ”程序 中 ， 一 个 进程 修改 数据 以 及 另 一 个 进程 使 用 数据 
是 被 标号 的 同步 操作 分 开 的 ) ， 编 译 可 以 假定 通信 发 生 ， 而 且 当 看 到 同步 信号 时 认为 缓存 中 
的 数据 已 经 无 效 。 当 然 ， 这 有 点 儿 保守 ， 可 能 会 导致 不 必要 的 预 取 ， 尤 其 是 当 同步 非常 频繁 
而 且 在 同步 操作 之 间 很 少 有 数据 作废 时 。 当 然 若 同步 时 能 传达 数据 可 能 被 修改 (或 者 有 效 确 
E) 的 一 些 信息 会 更 好 ， 然 而 事情 往往 并 非 如 此 (Wood et al.1993)。 

作为 另 一 种 加 强 ， 由 于 处 理 器 经 常 在 准备 写 之 前 首先 以 排他 的 所 有 权 取 得 一 个 缓存 块 ， 
因此 在 写 之 前 以 排他 方式 预 取 也 是 有 意义 的 。 若 明智 的 使 用 ， 这 可 带 来 两 方面 的 好 处 。 首 
先 ， 这 可 减 小 后 面 写 操作 的 时 延 ， 因 为 此 时 写 不 必 注 销 其 他 的 块 以 及 等 待 得 到 排他 所 有 权 
(这 已 经 被 预 取 完成 )。 这 是 否 会 对 性 能 带 来 影响 还 依赖 于 是 否 写 时 延 已 经 被 其 他 的 方法 隐 
藏 ， 例 如 放松 同一 性 模型 。 第 二 种 好 处 是 基于 下 面 的 事件 : 一 个 进程 常常 先 读 一 个 变量 ,而 
后 写 该 变量 。 这 种 情况 下 一 个 单个 的 所 有 权 预 取 〈( 即 使 在 读 以 前 ) 会 隐藏 读 和 写 时 延 。 而 且 
使 得 业务 量 减 半 ， 如 图 11-20 所 示 ， 因 此 减少 了 冲突 和 带宽 要 求 ， 进 而 改进 了 其 他 访问 的 性 
能 。 文 献 (Mowry 1994) 定量 地 讨论 了 排他 模式 预 取 的 好 处 。 

6. 硬件 控制 的 预 取 与 软件 控制 的 预 取 

分 析 了 硬件 控制 的 以 及 软件 控制 的 预 取 的 工作 过 程 后 ， 下 面 考虑 一 下 它们 的 相对 优点 。 


886 


887 











888 








640 HAF tH MK RBA 
.i 
没 预 取 : 
fi: 读 扑 空 写 扑 空 (4 位 








Cod AA LA A A A 


在 排他 模式 中 的 预 取 : 
tt: 









Read (A) 
Write (A) 


HERR, Sali me 


图 11-20 


所 有 权 预 取 所 获得 的 收益 ， 假定 开始 时 4 的 最 新 拷贝 在 局 部 缓存 中 不 存在 ， 但 在 其 他 的 缓存 中 在 
在 ， 然 后 对 其 分 别 进行 读 写 操作 。 正 常 的 缓存 一 致 性 对 于 读 操作 将 在 共享 状态 时 预 取 相应 的 块 ， 
然后 通过 通信 得 到 所 有 权 后 再 进行 写 操作 。 具 有 预 取 功能 时 ， 如 果 能 够 识别 这 种 读 写 模式 ， 我 们 就 
可 以 在 读 之 前 发 出 一 个 排他 的 预 取 ， 不 必要 为 写 再 进行 任何 通信 。 当 写 操作 发 生 时 ， 该 块 已 经 处 于 排 
他 状态 。 读 之 前 在 共享 模式 时 进行 预 取 就 可 隐藏 读 时 延 ， 但 并 不 能 隐藏 写 时 延 ， 因 为 写 时 仍然 会 扑 空 


看 件 控 制 预 取 的 最 大 优点 是 : 不 要 求 来 自 于 程序 员 和 编译 的 任何 软件 支持 ;不 要 求 重 编译 代 
码 〈 当 源 代码 不 存在 时 ， 这 是 非常 重要 的 ); 不 要 求 指令 开销 和 代码 扩展 。 另 一 方面 ， 其 最 
显然 的 缺点 是 要 求 硬件 支持 ， 其 预 取 算 法 用 硬 连 线 设置 在 机 器 中 。 然 而 ， 还 必须 与 覆盖 、 最 
小 化 无 需 预 到 、 最 大 化 效果 等 做 许多 权衡 。 以 下 我 们 集中 在 编译 产生 而 非 编程 者 产生 的 软件 
预 取 进行 总 的 权衡 。 


覆盖 率 。 在 分 析 预 取 什么 的 问题 上 ， 硬 件 和 软件 所 采取 的 策略 非常 不 同 。 软 件 策略 
可 检测 代码 中 的 所 有 访问 ,但 只 能 具有 静态 信息 ; 然而 硬件 可 观察 访问 模式 的 窗口 ， 
并 基于 当前 的 模式 预测 将 来 的 访问 。 软 件 策略 具有 覆盖 复杂 访问 模式 的 潜力 ， 但 其 
分 析 具 有 局 限 性 ; 而 硬件 则 局 限于 保持 复杂 历史 纪录 的 开销 以 及 必要 技术 的 精确 性 
(如 转移 预测 )。 与 硬件 不 同 ， 编 译 (甚至 程序 员 ) 不 能 对 动态 信息 做 出 反应 ， 例 如 
由 于 非 预测 的 缓存 冲突 造成 的 替换 。 在 预 取 更 多 类 型 的 访问 模式 上 ， 两 种 方法 的 覆 
盖 率 正在 增加 (Zang and Torrellas 1995; Luk and Mowr 1996); 然而 硬件 方面 的 开销 很 
高 。 用 执行 时 的 信息 反馈 改进 软件 预 取 的 有 效 覆 盖 是 可 能 的 ， 但 在 该 方向 上 并 没有 
更 多 进展 。 

减少 非 需 预 取 。 硬 件 预 取 为 增加 的 覆盖 所 驱动 ， 但 不 致力 于 局 部 性 分 析 以 减 小 非 需 
顶 取 。 它 因此 可 能 浪费 缓存 访问 带宽 以 及 互 连 带宽 ， 甚 至 替换 掉 有 用 的 数据 。 尤 其 
是 在 基于 总 线 的 机 器 中 ,在 预 取 上 浪费 过 多 的 互 连 带宽 至 少 会 法 在 地 使 总 线 饱 和 ， 
进而 降低 而 不 是 增加 性 能 (Tullsen and Eggers 1993 ) 。 

最 大 化 效果 。 在 软件 预 取 中 ， 调 度 是 基于 预测 的 。 然 而 ， 预 取 花 费 多 长 时 间 是 很 难 
项 测 的 ， 例 如 ,存储 结构 中 的 哪 一 层 会 满足 数据 ， 以 及 会 遇 到 多 少 冲突 。 理 论 上 ， 
硬件 可 在 执行 时 采取 调度 ， 它 可 按照 需要 对 PC 进行 提前 预测 。 然 而 ， 由 于 转移 预测 
而 导致 隐藏 长 时 延 会 变 得 非常 困难 ， 每 次 的 错误 预测 都 会 导致 预测 的 PC 重新 设置 ， 
直到 再 对 PC 进行 足够 的 提前 预测 才 会 提高 预测 效果 。 因 而 ， 软 件 和 硬件 策略 在 有 效 
性 或 “恰好 及 时 ”(just-in-time) 预测 上 都 有 潜在 的 问题 。 
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在 动态 调度 的 微 处 理 器 中 ， 硬 件 预 取 用 来 为 等 待 在 重 排 缓冲 中 而 还 没有 发 送 的 指令 预 取 
数据 。 然 而 ， 在 这 种 情况 下 硬件 并 不 检测 模式 以 及 分 析 预 取 什 么 。 这 种 严格 的 硬件 预 取 模式 
在 多 处 理 器 中 变 得 很 普遍 ， 然 而 目前 的 研究 显示 ， 对 更 通用 的 基于 非 单 位 步 长 访问 的 硬件 分 
析 与 预 取 所 需 的 在 片 支持 是 没有 价值 的 。 男 一 方面 ， 微 处 理 器 正 逐 渐 提 供 软 件 使 用 的 指令 预 
取 (其 至 在 单 处 理 器 系统 中 ) 。 有 关 预 取 的 编译 技术 也 在 取得 进展 。 通 常 ， 软 件 预 取 将 数据 
传人 第 一 层 缓 存 而 不 是 预 取 缓 冲 里 。 这 种 以 及 其 他 的 预 取 策 略 问题 在 习题 11.19 中 讨论 。 

7. 发 送 者 发 起 的 预 通信 

除了 基于 更 新 的 协议 (支持 显 式 方式 ) 之 外 ， 软 件 控 制 的 “更 新 ” 、“ 传 递 ” 或 “生产 者 
预 取 ”指令 已 经 出 现 。 一 个 例子 是 出 现在 Kendal Square 研究 中 的 KSR1 处 理 器 的 “后 存储 ” 
指令 ， 该 指令 是 将 整个 缓存 块 的 内 容 存 人 目前 包含 该 块 (大 概 是 旧 的 ) 拷贝 的 缓存 中 。 插 人 
这 些 更 新 指令 的 一 个 合理 位 置 是 在 释放 同步 操作 前 对 共享 数据 的 最 后 一 个 写 操 作 ， 因 为 该 数 
据 是 可 能 被 消费 者 所 需要 的 。 更 新 的 目的 节点 是 目录 项 的 共享 者 (与 更 新 协议 一 样 )， 并 遵 
循 假定 : 过 去 的 共享 模式 可 用 来 很 好 地 预测 将 来 行为 。 (另外 ， 目 的 节点 也 可 用 软件 指令 来 
指定 ， 或 者 数据 可 仅仅 放 进 本 地 的 主 存 缓存 ， 而 不 是 其 他 缓存 ， 即 直 写 而 非 更 新 可 隐藏 来 自 
目的 节点 的 一 部 分 而 不 是 全 部 的 时 延 。) 这 些 基于 软件 的 更 新 技术 具有 与 硬件 更 新 协议 相同 
的 问题 ， 只 是 程度 较 小 : 因为 并 不 是 每 个 写 都 产生 总 线 事务 。 与 更 新 协议 一 样 ， 竞 争 的 多 泥 
合 策略 也 是 可 能 的 《Ohara 1996; Grahn and Stenstrom 1996) 。 

与 预 取 相 比 ， 软 件 控 制 的 发 送 者 发 起 通信 具有 以 下 优点 : 通信 正好 发 生 在 数据 产生 时 。 
另外 与 基于 无 效 的 策略 相 比 ， 减 少 了 重复 生产 者 - 消费 者 模式 的 通信 量 。 然 而 ， 它 也 有 多 种 
缺点 。 第 一 ， 数 据 通信 太 早 ， 使 用 前 有 可 能 已 被 替换 出 缓存 ， 尤 其 是 数据 放 在 本 地 主 缓存 
时 。 另 外 ， 这 种 策略 的 预 通信 和 只 适 于 进行 通信 (一 致 ) 扑 空 ， 而 不 是 容量 或 冲突 扑 空 。 再 
者 ,尽管 消费 者 知道 它 将 取 什么 数据 而 且 能 为 该 数据 发 送 预 取 ， 但 是 如 果 过 去 的 共享 模式 不 
能 很 好 地 预测 未 来 ， 生 产 者 就 会 传递 不 需要 的 数据 ， 或 者 多 次 传递 重复 的 数据 。 进 而 ， 预 取 
检测 缓存 ， 当 在 缓存 中 发 现 所 需 数据 时 则 结束 ， 这 样 就 减少 了 不 需要 的 网 络 传输 ;软件 更 新 
或 传递 并 不 进行 这 样 的 检测 ， 可 能 增加 传输 量 和 竞争 ， 即 使 由 于 不 需要 多 个 协议 事务 就 可 将 
数据 存放 在 正确 的 位 置 可 以 减少 传输 。 最 后 一 点 ， 接 收 者 不 再 控制 接收 到 多 少 个 预 通信 信 
号 ， 这 可 能 导致 缓冲 溢出 。 到 目前 模拟 结果 的 一 点 发 现 ， 对 于 多 数 应 用 来 说 预 取 策 略 比 传递 
或 更 新 策略 好 (Ohara 1996), ， 即 如 果 两 者 都 使 用 时 可 以 互补 (Abdel-Shafi et al.1997)。 

预 取 和 软件 更 新 策略 都 可 以 对 其 能 力 进行 扩展 ， 以 传送 大 的 数据 块 (例如 ， 多 个 缓存 
块 、 整 个 目标 或 随机 定义 的 地 址 区 域 ) 而 非 一 个 单个 的 缓存 块 。 这 称 为 块 预 取 与 块 存放 机 制 
( 块 存放 与 11.5 节 讨 论 的 块 传输 是 有 区 别 的 ， 其 中 数据 存放 在 缓存 中 而 不 是 主 存 )。 这 里 的 
问题 与 那些 预 取 和 软件 更 新 指令 中 的 是 类 似 的 ， 除 了 大 小 不 同 以 外 。 例 如 ， 预 取 或 传递 一 个 
大 的 数据 块 给 主 缓存 可 能 并 不 是 一 个 好 主意 。 


11.6.3 性 能 收益 





多 数 的 预 取 性 能 结果 都 是 通过 目前 为 止 的 模拟 得 到 的 。 为 了 说 明 其 潜力 ， 我 们 考察 程序 
插入 软件 预 取 的 结果 ， 这 些 实验 来 源 于 书 (Woo, Singh，and Hennessy 1994) 中 的 一 些 应 用 
例 程 。 我 们 使 用 程序 插入 的 预 取 是 因为 它们 比 现行 的 最 好 的 编译 算法 更 具有 挑战 。 我 们 也 将 
分 析 目 前 水 平 的 编译 算法 结果 。 
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1. 单 发 射 ， 静态 调度 处 理 器 中 的 收益 

我 们 首先 观察 11.4.3 节 中 的 程序 和 平台 预 取 是 怎样 工作 的 。 为 了 便于 对 块 传送 进行 比 
较 ， 该 实验 仅仅 集中 于 远程 访问 的 预 取 (导致 通信 的 缓存 扑 空 )。 图 11-21a 显示 ， 对 于 可 预 
测 访问 模式 的 程序 或 者 像 FFT 这 样 具 有 很 好 的 空间 局 部 性 的 程序 来 说 ， 预 取 远 程 数 据 对 性 能 
是 有 潜在 帮助 的 。 与 块 传送 的 情况 一 样 ， 大 缓存 块 的 收益 比 小 缓存 块 的 收益 小 ， 因 为 大 缓存 
块 本 身 已 经 得 到 了 相当 意义 的 预 取 。 图 11-21b 直接 对 块 预 取 情 况 的 性 能 进行 了 比较 ， 结 
显示 该 程序 下 的 结果 非常 类 似 。 只 要 假定 一 次 可 允许 足够 的 待 完成 的 块 传送 数 ， 预 取 能 够 发 
挥 块 传送 的 许多 优点 ， 甚 至 一 些 激进 的 的 块 传送 。 图 11-22 显示 了 对 于 Ocean 应 用 的 相同 结 
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图 11-21 快速 传 立 叶 变 换 中 预 取 远程 数据 得 到 的 性 能 收益 。a) 显示 了 预 取 版 本 相对 于 原始 版 本 的 性 能 。 
该 图 恰 可 以 用 图 11-13 来 解释 : 其 中 每 条 曲线 显示 了 在 一 定 处 理 器 数 相 同 缓存 块 大 小 〈B) 的 情 
况 下 预 取 版 本 与 非 预 取 版 本 的 执行 时 间 。b) 显示 了 块 传送 (但 没有 预 取 ， 前 面 已 经 讨论 过 ) 版 
本 的 相对 于 预 取 版 本 〈 但 没有 块 传送 ) 而 不 是 原始 版 本 的 性 能 。 这 是 我 们 可 以 比较 块 传送 预 取 远 
程 数据 的 性 能 。 该 预 取 实 验 总 共 可 允许 一 个 处 理 器 同时 具有 16 个 待 完 成 的 存储 操作 (包括 预 取 ) 
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图 11-22 Ocean 例 程 中 预 取 远程 数据 的 性 能 收益 
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果 。 与 块 传送 一 样 ， 预 取 在 这 里 并 没有 多 少 帮 助 ， 因 为 通信 的 时 间 很 少 ， 而 且 因为 并 不 是 所 
有 的 预 取 数 据 都 是 有 效 的 (面向 列 的 划分 使 得 通信 的 数据 具有 很 差 的 空间 局 部 性 )。 

预 取 在 局 部 访问 中 通常 更 能 获得 成 功 。 例 如 ， 在 Ocean 应 用 中 近邻 网 格 计算 的 迭代 中 ， 
对 于 两 次 扫描 间 的 栅 障 ， 从 相 邻 分 区 足够 早 地 发 送 边界 元 素 的 预 取 ， 使 新 值 正好 在 需要 时 到 
来 是 非常 困难 的 。 然 而 ， 一 个 进程 可 很 容易 地 为 分 区 中 的 网 格 点 (不 被 其 他 的 进程 接触 ) 足 
够 旱地 发 送 预 下。 对 目前 编译 算法 的 研究 结果 显示 ， 当 访问 模式 的 可 预测 性 极 强 时 (Mowry 
1994) ， 编 详 可 在 密集 数据 的 规则 计算 中 成 功 运用 预 取 。 图 11-23 中 的 两 个 应 用 的 结果 包括 在 
16 个 处 理 器 上 运行 的 局 部 和 远程 的 访问 中 。 一 般 来 说 ， 这 些 情况 中 的 仅 有 问题 是 足够 提前 
巴 取 的 能 力 例如， 循环 嵌 套 开始 或 刚 过 同步 点 之 后 什么 时 候 扑 空 发 生 )， 以 及 分 析 和 预测 
冲突 扑 空 的 能 力 。 





| O 预 取 存 储 开销 
HAr 图 同步 








正常 的 执行 时 间 
正常 的 执行 时 间 











a) Ocean b) KEAR LU 


图 11-23 ”编译 产生 预 取 的 性 能 收益 。 结 果 显 示 了 两 个 并 行程 序 在 16 个 处 理 器 模拟 机 上 的 运行 情况 。 第 
一 个 是 Ocean 模拟 程序 的 旧版 本 ， 其 中 将 完全 的 行 分 成 块 ， 因 此 每 块 都 具有 较 高 的 通信 计算 比 
率 ， 因 此 没有 按 面向 列 定 界 的 较 差 的 局 部 性 问题 。 第 二 个 是 非 阻塞 的 较 低 性 能 密度 的 LU 因 了 
分 解 。 其 中 本 地 和 远程 的 访问 都 进行 预 取 ， 不 像 图 11-21 与 图 11-22 那样 。 这 有 3 组 柱 条 对 应 
于 不 同 的 L/L, 大 小 结合 。 每 种 组 合 的 柱 条 代表 非 预 取 (N) 和 选择 预 取 (S) 的 执行 时 间 。 对 
于 中 间 组 合 (8KL 和 64 K 1s)， 其 结果 反映 的 是 预 取 无 区 别 地 O 发 射 的 情况 ,但 没有 局 部 
性 分 析 。 所 有 的 执行 时 间 都 规格 化 为 8 K/64 下 缓存 大 小 组 合 的 无 预 到 执行 时 间 。 其 中 处 理 器 、 
存储 器 以 及 通信 结构 参数 的 选择 与 较 旧 的 斯 坦 福 DASH 多 处 理 器 类 似 ， 见 (Mowry 1994)。 相 对 
DASH 来 说 ， 现 代 系 统 中 的 时 延 大 的 多 。 从 中 我 们 看 到 预 取 有 助 于 性 能 ,缓存 大 小 的 选择 对 预 
取 具 有 不 同 的 影响 。 具 有 预 取 (尤其 是 无 区 别 地 预 取 》 时 的 “ 忙 ”时 间 增 加 是 由 于 ; 预 取 指 令 
开销 包含 在 忙 时 间 中 。 值 得 注意 的 是 对 于 阻塞 的 LU 因子 分 解 性 能 收益 很 小 ， 因 为 对 隐藏 数据 
等 待 的 时 间 更 少 ;由 于 阻塞 的 LU 因子 分 解 比 非 阻塞 的 更 为 普遍 ， 这 也 使 得 方法 研究 更 为 重要 


通过 编译 产生 预 取 虽 然 在 使 用 间接 寻 址 的 稀 朴 数 组 或 矩阵 计算 中 已 经 取得 一 些 成 功 ， 但 
对 更 不 规则 的 或 基于 指针 的 应 用 之 中 还 未 取得 更 大 的 进展 。 例 如 ， 由 于 例 11.3 讨论 的 原因 ， 
编译 算法 在 Bames-Hut 应 用 的 树 人 遍历 中 并 未 取得 成 功 。 正 像 前 面 讨论 的 ， 程 序 员 在 这 些 情况 
下 能 做 得 更 好 ， 而 且 执行 时 搜集 的 数据 有 助 于 标识 出 产生 最 多 扑 空 的 访问 。 

对 于 预测 完全 成 功 的 情况 ,局 部 性 分 析 已 经 建立 并 在 不 丢失 更 多 有 效 覆 盖 的 情况 下 充分 
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减 小 发 送 的 预 取 个 数 ; 因而 比 非 局 部 性 分 析 时 不 加 选择 地 预 取 所 有 的 预测 访问 〈 如 图 11-24 
所 示 ) 要 更 好 。 通 过 写 停滞 而 实现 的 顺序 同一 性 的 处 理 器 结构 中 ， 建 立 排他 所 有 权 预 取 可 充 
分 地 隐藏 写 时 延 ; 但 是 当 写 时 延 已 经 通过 放松 存储 同一 模型 隐藏 时 ， 这 种 预 取 并 非 很 重要 。 
在 任何 情况 下 ， 这 种 预 取 都 可 以 大 大 减 小 传输 量 。 


Bim OF 选择 
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Ocean LU MP3D Cholesky Locus 
a) 不 必要 的 预 取 b) 覆盖 率 


图 11-24 通过 进行 局 部 性 分 析 选 择 预 取 的 收益 。 不 需要 预测 的 部 分 充分 减 小 了 ， 但 整体 优势 并 没 
有 降低 。MP3D 是 模拟 纯净 流体 力学 的 应 用 ，Cholesky 是 一 个 稀疏 矩阵 因子 分 解 的 内 核 
程序 ，LocusRoute (简写 为 “Locus”) 是 VLSI CAD 中 的 线路 由 应 用 。 MP3D 和 Cholesky 使 
用 间接 数组 访问 ， 而 LocusRoute 使 用 指针 实现 链表 链接 ， 因 而 很 难得 到 令 人 满意 的 性 能 
最 后 ， 定 量 的 评价 显示 只 要 缓存 合理 增 大 ， 预 取 对 缓存 的 干涉 效果 是 可 忽略 的 ( Mowry 
1994; Chen and Baer 1994)。 这 些 也 说 明 ， 与 硬件 预 取 相 比 ， 只 要 加 以 挑选 ， 软 件 预 取 实际 
上 会 导致 更 少 的 不 必要 的 传输 以 及 更 少 的 缓存 冲 罕 扑 空 。 然 而 ， 额 外 指令 以 及 相关 的 地 址 计 
算 开 销 有 时 也 是 很 重要 的 ， 尤 其 是 那些 不 规则 访问 模式 的 应 用 。 
2. 多 发 射 动 态 调度 处 理 器 中 的 收益 
软件 控制 预 取 的 效果 已 经 通过 模拟 在 多 发 射 动态 调度 的 处 理 器 上 进行 了 测量 (Luk and 
Mowry 1996; Bennett and Flynn 1996a，1996b)， 而 且 也 与 简单 的 静态 调度 处 理 器 进行 了 比较 
(Ranganathan et al,1997)。 不 管 动态 调度 处 理 器 提供 的 时 延 包 容 (包括 重 排 缓冲 中 的 硬件 预 
取 操 作 ) ， 软 件 预 取 在 进一步 减 小 执行 时 间 上 显示 出 有 效 性 。 动 态 调度 处 理 器 在 数据 等 待 时 
间 上 减 小 的 百分率 比 静态 调度 的 处 理 器 在 某 种 程度 上 要 小 。 然 而 ， 由 于 数据 等 待 时 间 在 执行 
时 间 中 占据 更 大 的 比率 (与 减 小 访 存 等 待 时 间 相 比 动态 调度 的 超标 量 处 理 器 可 更 有 效 地 减 小 
指令 处 理 时 间 )， 由 于 预 取 而 在 所 有 执行 时 间 上 减 小 的 百分比 ， 在 两 种 情况 下 常常 是 可 比 的 。 
在 动态 调度 的 超标 量 处 理 器 中 ， 预 取 在 减少 数据 等 待 时 间 方面 的 效果 并 非 很 好 ， 其 原因 
来 自 两 方面 。 增 长 的 指令 处 理 速率 意味 着 更 少 的 计算 时 间 来 与 预 取 相 重 秋 ， 而 且 预 取经 常 结 
束 得 太 迟 。 另 外 ， 动 态 调度 的 处 理 器 会 导致 存储 操作 遇 到 更 多 的 资源 竞争 ， 其 至 在 到 达 一 级 
缓存 之 前 〈 例 如 ， 挂 起 的 请 求 表 、 功 能 部 件 、 跟 踪 缓冲 等 )。 这 是 因为 它们 允许 多 个 存储 操 
作 同 时 待 完成 ， 而 且 在 读 扑 空 时 并 不 停滞 。 预 取 会 进一步 加 重 这 些 资源 竞争 ， 因而 会 增加 非 
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预 取 访 问 的 时 延 。 由 于 这 种 时 延 发 生 在 一 级 缓存 之 前 ， 而 不 能 用 预 取 有 效 地 隐藏 。 这 类 资源 
冲突 会 导致 下 列 问题 一 一 简单 地 提早 发 出 预 取 不 会 总 能 解决 以 后 的 预 取 问题 :不 仅 前 面 的 预 
取 常 常 浪费 ， 而 且 这 些 预 取 将 会 很 长 时 间 占 用 处 理 器 资源 ， 因 为 多 个 待 完成 的 预 取 可 同时 存 
在 。 文 献 (Ranganathan et al.1997) 的 研究 表明 ， 通 过 改变 预 取 发 送 的 提前 时 间 并 不 能 大 大 
地 改进 性 能 。 与 单 发 射 静态 调度 的 处 理 器 相 比 ， 从 预 取 的 观点 看 ， 多 发 射 动 态 调度 的 超标 量 
处 理 器 的 一 个 优点 是 指令 预 取 的 开销 往往 较 小 ， 因 为 在 超标 量 处 理 器 中 预 取 指 令 经 常 占用 空 
的 时 间 片 ， 这 样 可 与 其 他 指令 相 重 午 。 

3. 与 放松 存储 同一 性 的 比较 

将 预 取 与 放松 同一 模型 的 比较 研究 发 现 ， 在 读 阻塞 的 静态 调度 处 理 器 中 这 两 种 技术 是 非 
常 互补 的 《Gupta et al. 1991) 。 放 松 模型 的 目的 是 减 小 写 停滞 时 间 ， 而 不 过 多 地 处 理 读 停 滞 
时 间 ， 而 预 取 有 助 于 减 小 读 停 洁 时 间 。 即 使 都 采用 预 取 机 制 ， 顺 序 和 松散 同一 之 间 在 性 能 上 
的 基本 区 别 也 是 存在 的 ; 原因 是 预 取 不 能 像 放 松 同一 性 那样 有 效 地 隆 藏 写 时 延 。 在 非 阻塞 读 
的 动态 调度 处 理 器 中 ， 放 松 模型 同时 有 助 于 减 小 读 停滞 时 间 和 写 停 滞 时 间 。 预 取 也 同时 有 助 
于 两 者 ， 然 而 以 下 考察 是 有 趣 的 : 是 采用 顺序 同一 性 且 只 有 预 取 有 助 于 性 能 还 是 只 有 放松 同 
一 模型 有 助 于 性 能 。 即 使 当 顺 序 同 一 性 所 有 能 改进 性 能 的 优化 都 应 用 【〔 像 硬件 预 取 、 推 测 
读 、 写 缓冲 ) 时 ， 结 果 发 现在 动态 调度 的 处 理 器 中 使 用 无 软件 预 取 的 放松 一 致 模型 比 使 用 软 
件 预 取 的 顺序 同一 模型 会 更 有 优点 (Ranganathan et al.1997)。 其 原因 是 虽然 预 取 与 放松 同一 
性 相 比 可 在 某 种 程度 上 更 有 助 于 减少 读 停滞 时 延 ， 但 几乎 与 放松 同一 性 一 样 ， 对 隐藏 写 时 延 
是 不 起 作用 的 。 


11.6.4 小 结 











作为 对 缓存 一 致 性 共享 地 址 空间 中 的 预 通信 讨论 的 总 结 ， 目 前 最 通用 的 方法 是 在 微 处 理 
器 中 提供 被 软件 预 取 使 用 的 预 取 指令 ， 该 指令 可 由 编译 或 程序 员 插 入 。 与 之 相同 的 机 制 可 用 
于 单 处 理 器 或 多 处 理 器 系统 中 。 研 究 发 现在 数据 访问 模式 相对 规则 的 可 预测 的 应 用 中 ， 预 取 
可 成 功 地 隐藏 时 延 ， 而 且 该 情况 下 的 编译 算法 已 开发 成 功 。 在 硬件 -一致 中 ， 预 取 与 块 数据 传 
送 相 比 ， 即 使 在 后 者 工作 得 很 好 的 情况 下 ， 也 能 很 成 功 ; 纵然 预 取 涉及 处 理 器 的 每 一 个 缓存 
块 访问 。( 在 每 个 通信 的 终点 开销 很 大 的 系统 中 一 一 例如 软件 实现 的 共享 地 址 空间 一 一 块 传 
送 可 能 相对 来 说 更 成 功 ) 然而 ， 预 取 非 规则 的 计算 (尤其 那些 大 量 使 用 指针 的 计算 ) 还 有 很 
长 的 路 要 走 。 由 于 程序 员 具 有 计算 中 访问 模式 的 信息 知识 ， 而 这 些 知识 能 够 得 到 较 时 或 更 好 
的 调度 ， 因 而 程序 员 插 入 的 预 取 仍然 胜 过 编译 插入 的 预 取 。 硬 件 预 取 只 以 非常 局 限 的 形式 得 
以 通用 ， 例 如 在 动态 调度 处 理 器 中 的 重 排 缓 冲 里 以 预 取 操 作 的 形式 。 即 使 硬件 预 取 享有 不 需 
应 用 程序 重 编译 的 重要 优点 ， 但 它 并 不 能 在 通用 预 取 中 用 作 分 析 和 调度 ， 而 且 在 多 处 理 器 中 
的 前 景 也 并 不 清楚 。 支 持 发 送 者 发 起 的 预 通信 指令 也 不 像 预 取 那样 通用 。 预 取 的 一 些 实现 问 
题 在 习题 11.18 中 讨论 。 


11.7 共享 地 址 空间 中 的 多 线程 技术 


硬件 支持 的 多 线程 也 许 是 隐藏 时 延 最 万 能 的 技术 。 与 其 他 方法 相 比 ， 在 概念 上 它 具 有 下 
列 优点 ; 
， 它 不 要 求 特殊 的 软件 分 析 或 支持 (除了 在 并 行程 序 中 具有 上 比 处 理 器 数 更 多 的 显 式 线 
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程 或 进程 )。 
因为 动态 调用 ， 它 可 以 〈 像 可 预测 的 事件 一 样 ) 非 预测 地 处 理事 件 ， 例 如 缓存 冲 罕 
和 通信 扑 空 。 

+ 尽管 前 面 的 技术 目的 是 隐藏 存储 访问 时 延 ， 但 它 却 可 以 隐藏 任何 长 时 延 事件 ， 只 要 

事件 在 执行 时 被 检测 到 。 这 样 的 事件 包括 同步 与 指令 时 延 。 
。 像 预 取 一 样 ， 多 线程 并 不 改变 存储 同一 模型 ， 因 为 它 不 重 排 在 一 个 线程 中 的 实际 的 
存储 操作 。 

尽管 具有 这 些 潜在 的 优点 ， 当 前 多 线程 在 商业 系统 中 还 没有 成 为 通用 的 时 延 包 容 技术 。 
这 有 两 个 原因 : 第 一 ， 它 要 求 微 处 理 器 体系 结构 发 生 重 大 的 改变 。 第 二 ， 它 在 单 处 理 器 和 桌 
面 系统 中 的 使 用 价值 至 今 还 没有 足够 的 证 明 ， 这 是 主导 市 场 的 最 大 因素 。 下 面 我 们 将 会 看 到 
这 样 说 的 原因 。 然 而 ， 随 着 时 延 相对 于 处 理 器 速度 逐渐 增 大 ， 很 多 的 处 理 器 提供 了 可 扩展 为 
多 线程 的 高 级 技术 ， 而 且 与 指令 级 并 行 相 结 合 开发 出 新 的 多 线程 级 技术 ， 这 种 趋势 在 将 来 可 
能 会 改变 。 

我 们 先 从 消息 传递 背景 下 多 线程 的 简单 形式 开始 ， 其 中 来 自 一 个 线程 中 的 指令 -- 直 执行 
遇 到 一 个 长 时 延 事件 为 止 ， 此 时 该 线程 切换 出 去 ， 而 另 一 个 线程 切换 进来 。 一 个 线程 的 状态 
称 为 一 个 上 下 文 ， 于 是 多 线程 也 称 为 多 上 下 文 处 理 。 这 种 在 上 下 文 切换 时 要 保存 和 恢复 的 状 
态 包括 处 理 器 寄存 器 、 程 序 指针 、 堆 栈 指针 、 以 及 处 理 器 状态 字 的 每 个 进程 要 保留 的 部 分 
(例如 ， 条 件 码 等 )。 上 下 文 切换 的 开销 可 能 还 包括 流水 线 中 指令 的 冲 空 ， 以 下 我 们 将 看 到 。 
如 果 我 们 将 容许 的 时 延 足够 大 ， 可 在 上 下 文 切换 时 将 切换 出 的 上 下 文 用 软件 包 存 在 内 存 中 ， 
当 切 换 回 来 时 再 装 人 上 下 文 。 这 就 是 多 线程 在 消息 传递 时 机 器 中 是 如 何 工作 的 ， 因 此 一 个 标 
准 的 单线 程 微 处 理 器 可 在 该 情形 下 工作 。 在 硬件 支持 的 共享 地 址 空间 中 ,甚至 在 单 处 理 器 
中 ,我们 所 要 容许 的 时 延 并 没有 那么 大 。 用 软件 保存 和 恢复 状态 的 开销 太 大 而 使 切换 变 得 设 
有 价值 ， 此 时 我 们 可 能 要 求 硬件 支持 。 我 们 将 稍微 定量 地 检验 这 种 开销 和 时 延 的 关系 。 

现在 考虑 处 理 器 的 利用 率 ， 即 处 理 器 花费 在 执行 有 用 指令 的 时 间 ， 不 包括 停滞 及 其 他 的 
开销 。 一 个 线程 执行 指令 直到 遇见 一 个 长 时 延 事件 的 时 间 称 为 忙 时 间 ， 花 费 在 线程 之 间 切 换 
的 时 间 称 为 切换 时 间 。 若 没有 就 绪 的 线程 ， 处 理 器 就 会 停滞 一 直到 一 个 线程 就 绪 或 者 长 时 延 
事件 完成 。 不 管 任何 原因 ， 花 费 在 停滞 事件 上 的 所 有 时 间 称 为 空闲 时 间 。 处 理 器 的 利用 率 可 
表示 为 : 





z 忙 时 间 
利用 率 = aa Datla SANN] (11-2) 

显然 保持 小 的 切换 时 间 是 很 重要 的 。 即 使 我 们 能 够 通过 多 线程 包容 所 有 的 时 延 而 能 完全 
消除 空 亲 时间， 利用 率 和 性 能 也 会 受到 切换 时 间 的 限制 。 


11.7.1 技术 和 机 制 

对 在 给 定 的 周期 中 从 单个 线程 发 射 指令 的 微 处 理 器 ， 按 照 何 时 进行 线程 切换 可 将 硬件 支 
持 的 多 线程 分 为 两 类 。 迄 今 这 种 方法 在 消息 传递 、 在 多 编程 中 用 来 容许 磁盘 时 延 ， 本 节 中 让 
线程 一 直 执 行 直 到 遇 到 一 个 长 时 延 事件 〈 例 如 ， 一 个 缓存 扑 空 、-… 个 同步 事件 或 个 长 周期 
指令 ， 如 除法 ) 而 且 换 到 另 一 个 就 绪 的 线程 。 这 种 叫做 阻塞 的 方法 ， 因 为 一 次 上 下 文 切换 只 
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有 当 一 个 线程 因为 某 种 原因 阻塞 或 者 停滞 时 才 发 生 。 在 共享 地 址 空间 系统 中 ， 该 方法 用 在 
MIT 的 Alewife 研究 原型 中 (Agarwal et al.1995)。 其 他 的 硬件 支持 的 主要 方法 是 (不 管 是 否 明 
到 长 时 延 事件 ) 简单 的 每 个 处 理 器 周期 切换 线程 ， 这 可 在 单 周 期 粒度 上 在 多 个 就 绪 线 程 池 之 
间 有 效 地 交替 使 用 处 理 器 的 资源 。 当 一 个 线程 遇 到 一 个 长 时 延 事件 时 ， 该 线程 标志 为 未 就 绪 
而 停止 执行 ， 直 到 长 时 延 事件 完成 而 又 加 入 就 绪 池 。 这 称 为 交替 方法 。 下 面 我 们 较 详 细 地 考 
察 该 两 种 方法 ， 观 察 其 量化 特征 与 折 中 以 及 它们 的 量化 评价 和 细节 。 当 在 单线 程 处 理 器 中 讨 
论 完 两 种 方法 后 ， 将 考察 多 线程 与 指令 级 并 行 性 的 结合 (超标 量 结构 )， 该 方法 有 望 克服 传 
统 方式 的 局 限 性 (参看 11.7.5 节 )。 

1. 阻塞 的 多 线程 

阻塞 的 多 线程 的 硬件 支持 通常 包括 多 个 硬件 寄存 器 堆 和 多 个 线程 使 用 的 程序 计数 器 。 一 - 
个 活动 的 线程 或 上 下 文 是 指 当前 分 配给 硬 拷贝 之 一 的 线程 。 活 动 线程 的 数量 可 能 比 就 绪 线 程 
(没有 停滞 但 准备 好 执行 ) 的 数目 小 ， 而 且 也 受 资源 硬 拷贝 数 的 限制 。 我 们 首先 从 高 屋 上 观 
察 一 下 容许 的 时 延 、 线 程 切 换 开 销 以 及 活动 线程 之 间 的 关系 ， 其 中 使 用 的 分 析 方 法 与 前 面 分 
析 处 理 器 利用 率 的 方法 是 一 样 的 (Culler 1994), 

假定 一 个 处 理 器 提供 N 个 活动 的 线程 N 路 多 线程 )， 每 个 线程 重复 下 列 操作 : 非 停滞 
地 执行 有 用 的 指令 R 个 周期 (RR 是 停滞 间 的 忙 时 间 ， 称 为 运行 长 度 ); 遇 到 一 个 长 时 延 时 间 
而 切换 到 另 一 个 线程 。 现 假设 每 次 要 包容 的 时 延长 度 为 工 个 周期 ， 一 次 线程 或 上 下 文 切换 
开销 为 C 个 周期 。 给 定 一 组 值 R、L、C， 则 处 理 器 利用 率 与 线程 数 N 的 关系 如 图 11-25 所 
示 。 其 中 有 两 种 操作 方式 : 利用 率 随 线程 数 成 线性 增长 ， 直 到 一 个 临界 点 ， 在 该 点 变 为 饱 
和 。 下 面 分 析 其 原因 。 


1.0 


0.8 
E 
#08 
0. 4 
0-2 图 11-25 阻塞 多 线程 中 处 理 器 相对 于 线程 数 的 利用 率 。 
1 2 3 4 5B 7 该 图 显示 了 两 种 操作 区 段 : 线性 区 段 和 饱和 区 


线程 数 日 段 。 其 中 假定 R= 和 0，L = 200，C = 10 个 周期 


开始 ， 在 一 个 线程 的 停滞 期 间 (Z) 增加 线程 的 数目 可 使 其 他 的 线程 做 更 多 有 用 的 工 
作 ， 而 且 其 时 延 可 继续 隐藏 。 一 旦 N 变 得 足够 大 ， 其 他 的 线程 都 经 过 一 个 周期 返回 (每 个 
都 是 R 个 周期 运行 时 间 ，C 周期 的 切换 开销 )， 此 时 又 回 到 第 一 个 线程 ， 我 们 可 能 包容 所 有 
的 工时 延 。 除 此 之 外 ， 设 置 多 个 线程 并 无 其 他 好 处 ， 因 为 所 有 的 时 延 都 已 被 隐藏 。 饱 和 时 
的 N 值 可 通过 以 下 式 求 出 : (N-1) R+NCH=L, 或 


R+L 
R+C 





Nau = 


除了 该 点 之 外 ， 处 理 器 总 是 或 忙于 运行 一 个 线程 或 发 生 切 换 开销 ， 因 此 其 利用 率 为 


R 1 
R+C 








Usa = 


C (11-3) 
l+p 
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如 果 NN 相对 于 上 来 说 并 非 足 够 大 ， 则 其 他 的 N - 1 个 线程 就 会 在 上 时 延 经 过 之 前 完成 。 
因此 处 理 器 在 R+ 工 周期 内 做 的 有 用 工作 为 (N - 1) x RERNR 个 周期 ， 其 他 时 间或 者 是 停 
WMA EWR, ERAN ARAMA RA: 


NR _ 1 i 
UnzR TNX I (11-4) 
I+, 





这 种 分 析 显 然 很 简单 ， 因 为 它 假定 了 等 长 的 执行 时 间 只 并 忽略 掩 了 扑 空 或 其 他 长 时 延 
事件 的 突 发 性 。 平 均 情况 分 析 可 能 导致 我 们 假设 在 时 延 包 容 非 常 关键 时 ， 处 理 突 发 事件 需要 
的 线程 少 于 实际 的 需要 。( 更 精确 的 模型 参看 [Culler 1994]) 然而 这 样 的 分 析 对 于 一 些 关键 
点 来 说 是 足够 的 。 对 于 任意 的 线程 数 U,, ， 由 于 能 得 到 的 最 好 的 利用 率 都 将 随 着 切换 开销 C 
的 增加 而 减 小 ， 因 而 减 小 切换 开销 是 非常 重要 的 。 切 换 开 销 的 大 小 也 影响 着 隐藏 时 延 的 类 
型 ; 例如 ， 除 非 切 换 开销 非常 小 ， 否 则 流水 线 时 延 或 二 级 缓存 的 扑 空 时 延 是 很 难 隐藏 的 。 

若 我 们 在 人 硬件 上 支持 多 个 活动 的 线程 (包括 独立 的 寄存 器 堆 、PC 等 等 )， 切 换 开销 就 可 
以 变 得 很 小 。 这 样 在 发 生 上 下 文 切换 时 不 用 软件 就 可 以 简单 地 从 一 个 硬件 状态 切换 到 另 一 个 
状态 ,这 也 是 大 多 数 硬 件 多 线程 处 理 器 所 采用 的 方法 。 典 型 地 ， 一 个 大 的 寄存 器 堆 可 以 静态 
地 分 成 多 个 寄存 器 帧 ， 以 此 作为 对 活动 线程 的 支持 〈 称 为 段 式 寄存 器 堆 )， 或 者 像 缓 存 一 样 
对 寄存 器 堆 进 行动 态 管理 以 保存 活动 线程 的 寄存 器 。 

虽然 硬件 支持 的 复制 上 下 文 状态 可 将 活动 线程 切换 减 小 到 一 个 周期 (实现 时 是 改变 指针 
而 不 是 找 贝 大 的 数据 结构 )， 但 另 一 种 上 下 文 切换 开销 我 们 目前 还 没有 讨论 。 这 就 是 来 自 指 
令 执行 流水 线 的 开销 。 

当 一 个 长 时 延 事件 发 生 时 ， 我 们 要 将 当前 的 线程 切换 出 去 。 并 假设 长 时 延 事 件 是 缓存 扑 
空 。 缓 存 扑 空 只 能 发 生 在 指令 流水 线 的 取 数 据 阶 段 ， 在 流水 线 的 后 面 。 典 型 地 ， 假 设 
命中 / 扑 空 只 有 回 写 阶 段 检测 ， 而 该 阶段 在 流水 线 的 最 后 。 这 意味 着 当 我 们 知道 缓存 扑 空 而 
且 应 当 将 当前 的 线程 切换 出 时 ， 来 自 该 线程 的 其 他 指令 ( 洪 在 的 条 指令 ， 与 流水 线 的 深 
度 相当 ) 已 被 取出 并 在 流水 线 中 了 〈 如 图 11-26 所 示 )。 此 时 我 们 将 面临 三 种 可 能 性 ，1) f 
许 该 序列 指令 执行 完 ， 并 同时 人 允许 从 新 的 线程 中 取 指 令 ; 2) 在 新 线程 开始 取 指 之 前 允许 这 
些 指令 完成 ; 3) 排 空 指 令 流 水 线 ， 然 后 允许 从 新 的 线程 取 指 。 


Te Te Te [oa for Poe) 
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图 11-26 流水 线 中 延 后 检测 扑 空 的 影响 。 线 程 4 是 处 理 器 上 运行 的 当前 线程 。 指 令 4 中 的 组 
存 扑 空 在 流水 线 的 第 二 个 取 数 阶段 (DF2) 之 后 才 检 测 到 (M, EA 指令 流 经 流水 
线 中 的 回 写 阶段 [WB])。 此 时 ,同一 线程 4 后 面 的 6 条 指令 (从 4 +1 到 4 +6) 
已 经 进入 7 个 阶段 流水 线 的 不 同 阶段 (两 个 周期 的 取 指 [IF] ，-- 个 周期 的 寄存 器 取 
数 【RF]， 一 个 执行 [EX] 周期 ， 然 后 是 两 个 周期 的 取 数 和 回 写 )、 如 果 当 检测 到 
扑 空 (下 面 一 行 打 叉 的 位 置 ) 时 将 所 有 的 指令 作废 ， 则 至 少 会 浪费 7 个 周期 的 工作 


第 一 种 情况 实现 较为 复杂 ， 其 原因 有 二 。 第 一 ， 由 于 来 自 于 不 同 线程 的 指令 将 同时 存在 
于 流水 线 中 ， 这 就 要 求 改变 标准 的 流水 线 寄存 器 与 相关 解决 机 制 ( 互 锁 机 制 )。 这 样 ， 在 流 
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经 流水 线 的 指令 必须 标志 相应 的 上 下 文 ， 而 且 (或 者 ) 要 设置 多 个 流水 线 寄存 器 来 区 分 来 自 
不 同上 下 文 的 结果 。 这 除了 增加 面积 外 ， 每 个 流水 段 的 多 个 流水 线 寄 存 器 意味 着 ， 寄 存 器 必 
须 经 过 多 路 复 用 进入 锁 存 以 供 下 一 个 流水 段 用 ， 这 可 能 增加 处 理 器 的 执行 周期 时 间 。 因 为 阻 
塞 模式 的 部 分 动机 是 其 设计 简单 以 及 尽量 不 花费 设计 与 修改 就 可 利用 商业 处 理 器 的 能 力 ， 因 
此 这 可 能 不 是 非常 适当 的 选择 。 这 种 选择 的 第 二 个 问题 是 导致 缓存 扑 空 的 指令 在 流水 线 中 ， 
而 且 由 于 流水 线 中 来 自 同一 个 线程 的 指令 依赖 扑 空 返回 的 数据 而 使 流水 线 停 灌 。 

第 二 种 选择 避免 来 自 多 个 线程 的 指令 同时 存在 于 流水 线 ， 但 由 于 指令 相关 仍然 逃避 不 了 
流水 线 停 汪 的 问题 。 第 三 种 选择 避免 了 上 述 的 两 种 问题 ， 而 且 由 于 标准 的 单 处 理 器 流水 线 就 
具有 冲 空 流 水 线 的 能 力 ， 其 实现 起 来 较 简单 。 尽 管 阻塞 方式 会 与 浪费 在 切换 上 的 流水 线 深度 
的 周期 个 数 相当 ， 但 阻塞 多 线程 还 是 受 欢 迎 的 选择 。 

在 阻塞 方法 中 如 何 触发 上 下 文 来 隐藏 不 同 种 类 的 时 延 呢 ” 当 缓 存 扑 空 时 ， 可 由 硬件 支持 
的 扑 空 检测 触发 切换 。 对 于 同步 时 延 ， 我 们 可 以 简单 地 在 导致 长 时 延 的 同步 事件 (或 者 是 所 
有 的 同步 事件 ) 后 插入 显 式 的 上 下 文 切 换 指令 。 由 于 同步 事件 可 能 由 同一 处 理 器 上 的 其 他 线 
程 来 处 理 ， 为 了 防止 等 待 超时 而 死 锁 需要 显 式 的 切换 指令 。 长 时 间 的 流水 线 停滞 也 需要 在 像 
除法 等 长 时 延 指令 之 后 插 和 人 显 式 切换 指令 。 最后， 流水线 的 短 停滞 (如 数据 失效 等 ) 很 难 通 
过 阻塞 方法 来 隐藏 。 

总 之 ,阻塞 方 法 相对 来 说 实现 开销 低 (以 后 将 详细 讨论 ), 而 且 具 有 好 的 单线 程 性 能 
( 当 处 理 器 中 只 有 一 个 线程 在 运行 时 不 发 生 上 下 文 切换 ， 这 种 模式 与 标准 的 单 处 理 器 相似 )。 
其 缺点 是 切换 开销 大 : 大约 等 于 流水 线 的 深度 ， 即 使 寄存 器 或 者 处 理 器 的 其 他 状态 不 需要 保 
存 或 存 入 存储器。 这 种 开销 限制 了 能 隐藏 的 时 延 类 型 以 及 效率 。 例 11.4， KA (Laudo, 
Gupta, and Horowitz 1994) ， 考 察 了 其 性 能 影响 。 

例 11.4 假定 有 4 个 线程 ，4，B，C 和 刀 ， 在 一 个 处 理 器 中 执行 。 这 些 线程 具有 以 下 
的 行为 ; 

4 发 射 两 条 指令 ， 第 2 条 指令 导致 缓存 扑 空 ， 然 后 再 发 射 4 条 以 上 的 指令 。 

B 发 射 一 条 指令 ， 然 后 跟 有 一 个 两 个 周期 的 流水 线 相关 ， 接 着 是 两 条 以 上 指令 ， 最 后 的 

指令 导致 缓存 扑 空 ， 紧 跟着 是 两 条 以 上 指令 。 

C 发 射 4 条 指令 ， 第 4 条 指令 引起 缓存 扑 空 ， 紧 跟着 发 送 3 条 以 上 的 指令 。 

六 发射 6 条 指令 ， 第 6 条 指令 引起 缓存 扑 空 ， 紧 跟着 一 条 以 上 的 指令 。 

试 说 明 在 阻塞 多 线程 执行 中 流水 线 的 时 间 片 被 线程 使 用 和 浪费 的 和 情况。 假定 流水 段 数 为 

4， 因 此 上 下 文 切换 开销 为 4 个 周期 ， 一 次 缓存 扑 空 为 10 个 周期 (为 了 说 明 容 易 在 此 假 

定 的 数 较 小 )。 

解答 : 图 11-27 显示 了 解决 方案 ， 假设 按照 循环 (round-robin) 算法 选择 线程 ， 并 从 
线程 4 开始 。 当 多 数 的 存储 时 延 都 被 隐藏 时 ， 这 是 以 上 下 文 切换 开销 为 代价 的 。 假 设 在 该 
指令 序列 的 开始 流水 线 是 平稳 的 ， 我 们 可 以 从 第 一 条 指令 到 达 WB 阶段 ( 即 ， 图 11-27 的 底 
部 显示 多 线程 执行 的 第 一 个 周期 ) 开始 对 周期 计数 。 在 多 线程 执行 的 51 个 周期 中 ，21 
个 处 于 忙 周期 ， 两 个 为 流水 线 停滞 周期 ， 没 有 存储 停滞 的 空闲 周期 ，28 个 为 上 下 文 切换 周 
期 ， 因 而 处 理 器 的 利用 率 为 (21/51) x 100/100， 即 41% ， 尽 管 我 们 假定 的 缓存 扑 空 损失 
很 低 。 国 
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2. RE SRE 

在 交替 的 方法 中 ， 每 个 处 理 器 周期 从 不 同 的 就 绪 的 活动 线程 ( 装 人 一 个 硬件 上 下 文 ) 中 
选择 一 个 指令 ， 同 时 线程 切换 是 每 个 周期 进行 一 次 ， 而 不 是 仅 当 遇 到 长 时 延 事件 时 才 发 生 。 
当 一 个 线程 发 生长 时 延 事 件 时 ， 该 线程 就 被 挂 起 并 从 就 绪 线 程 池 中 移出 ， 直 到 长 时 延 事件 完 
成 该 线程 才 标 记 为 就 绪 的 (该 线程 在 硬件 状态 资源 中 一 直 保 持 活 动 的 状态 )。 此 时 使 用 分 段 
的 或 复制 的 寄存 器 堆 来 避免 保存 和 恢复 寄存 器 。 交 替 方 式 的 重要 优点 是 没有 上 下 文 切换 开 
销 。 由 于 上 下 文 切 换 是 每 周期 进行 的 ， 因 而 不 需要 检测 以 激发 上 下 文 切换 ; 同时 有 足够 的 线 
程 ， 来 自 同一 线程 的 指令 不 会 同时 处 于 流水 线 中 ， 因 此 没 必要 挤 掉 指令 。 因 此 ， 当 有 足够 的 
并 发 线程 时 ， 所 有 的 时 延 都 被 隐藏 且 没 有 切换 开销 ， 这 样 处 理 器 每 个 周期 都 做 有 用 的 工作 。 
图 11-28 显示 了 一 个 理想 情况 的 例子 ， 甚 中 我 们 假定 了 6 个 活动 的 线程 。 交 替 方 式 的 典型 缺 
点 是 高 的 硬件 开销 和 复杂 度 ， 当 然 具 体 的 缺点 和 其 他 潜在 的 缺点 还 与 所 用 的 交替 方式 有 关 。 
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图 11-28 交替 多 线程 中 理想 设置 下 的 时 延 包容 。 图 的 顶部 显示 了 当 每 个 作为 惟一 执行 的 线 
程 时 ，6 个 活动 线程 在 处 理 器 中 的 执行 情况 。 图 的 底部 显示 了 处 理 器 在 就 绪 线 程 
间 采 用 循环 (round-robin) 算法 周期 切换 的 情况 ， 其 中 省 略 了 那些 最 后 一 条 指令 
引起 处 理 器 停顿 但 仍然 还 没有 解决 的 线程 。 例 如 ， 对 于 线程 4 (实心 部 分 )， 只 
有 其 长 时 延 的 访 存 操 作 得 到 满足 后 才能 重新 选择 ， 再 次 进入 round-robin 的 循环 模式 
交替 模式 经 历 了 一 个 相当 长 期 的 演变 。 较 早 的 交替 方式 对 同时 进入 流水 线 的 来 自给 定 线 
程 的 指令 数量 和 类 型 具有 严格 的 要 求 ， 这 减少 了 对 硬件 互 锁 以 及 冲 空 人 
化 了 处 理 器 设计 ， 但 对 单线 程 的 性 能 产生 了 严重 影响 。 最 近 出 现 的 交替 模式 已 大 大 减少 了 
些 限 制 ， 以 下 将 看 到 这 一 点 。 实 际 应 用 中 的 交替 模式 的 另 一 一 个 显著 竺 点 是 在 时 是 包 容 衣 六 
用 缓存 减 小 时 延 。 至 今 使 用 交替 方式 的 机 器 根本 不 用 缓存 ， 而 只 是 靠 多 线程 时 延 包 容 
(Smith 1981; Alverson et al.1990). 更 近 的 研究 建议 提倡 交替 模式 以 及 基于 缓存 的 全 面 流水 线 
互 锁 (Laudon, Gupta, and Horowitz 1994) (阻塞 的 多 线程 系统 由 于 要 尽量 保持 单线 程 的 有 效 
执行 而 使 用 缓存 )。 下 面 我 们 介绍 交替 模式 发 展 的 几 个 阶段 。 
3. 基本 的 交替 模式 


第 一 个 交替 的 多 线程 模式 应 用 在 Denelcor HEP 异种 部 件 处 理 器 多 处 理 器 中 , 该 机 器 在 
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1978 至 1985 年 期 间 开 发 (Smith 1981)。 每 个 处 理 器 具有 128 个 活动 上 下 文 、64 个 用 户 级 、 
64 个 特权 级 (尽管 实际 中 只 有 50 个 用 户 可 见 )。 由 于 机 器 没有 缓存 ， 而 且 每 个 存储 访问 都 
有 存储 时 延 ， 因 而 即使 存储 时 延 很 小 〈 无 冲突 时 20 ~ 40 个 周期 ) 也 需要 多 个 活动 上 下 文 。 
(多 模块 的 存储 器 都 设置 在 多 级 互连网 的 另 一 端 ， 同 时 处 理 器 对 其 “局 部 ”模块 还 有 男 外 的 
直接 连 线 ) 其 中 128 个 活动 上 下 文 是 寄存 器 堆 以 及 其 他 关键 状态 的 128 个 复制 。HEP 中 的 流 
水 线 的 深度 为 8， 支 持 对 非 存储 指令 的 互 锁 ， 但 不 允许 一 个 以 上 的 存储 、 转 移 、 除 法 操作 同 
时 存在 于 流水 线 。 这 就 意味 着 每 个 处 理 器 允许 多 个 活动 线程 有 效 地 使 用 流水 线 ， 甚 至 没有 存 
储 以 及 其 他 的 停滞 。 增 加 缓存 以 及 进一步 隐藏 存储 时 延 则 需要 更 多 的 线程 。 这 也 意味 着 程序 
中 的 显 式 并 行 度 必须 远 远大 于 处 理 器 数 ， 从 而 限制 了 应 用 程序 的 运行 效果 。 

4. 更 好 地 使 用 流水 线 

只 允许 来 自 于 一 个 线程 的 单个 存储 操作 的 缺点 是 ， 单 线程 的 性 能 差 和 需要 大 量 的 线程 。 
因此 HEP 的 派生 系统 也 受 同 样 的 限制 。 这 样 的 系统 包括 Horizon (Kuehn and Smith 1988) 和 
Tera (Alverson et al.1990) 多 处 理 顺 。 它 们 仍然 没有 设置 缓存 ， 完 全 依靠 多 存储 访问 的 时 延 
包容 。 

第 一 个 设计 是 Horizon， 实 际 中 从 来 没有 制造 过 。 不 像 HEP， 它 却 人 允许 来 源 于 同一 个 线 
程 的 多 个 存储 操作 同时 存在 于 流水 线 上 。 然 而 ，Horizon 却 没 有 提供 流水 线 互 锁 ， 即 使 非 存 
储 操作 ， 同 时 将 相关 分 析 留 给 了 编译 。 其 思路 非常 简单 。 基 于 编译 分 析 ， 每 个 指令 有 3 位 的 
“预测 ”标志 域 ， 该 域 指示 出 本 指令 后 的 多 少 个 周期 才 与 该 指令 无 关 。 假 设 某 指令 的 预测 域 
为 5， 则 意味 着 该 指令 的 后 第 5 条 指令 〈 存 储 指令 或 其 他 ) 与 本 指令 无 关 ， 因 而 即使 没有 硬 
件 互 锁 解决 相关 也 可 与 当前 指令 同 处 于 流水 线 中 。 因 此 ， 当 一 条 指令 遇 到 长 时 延 事 件 时 ， 此 
线程 等 到 5 个 指令 后 才 变 成 未 就 绪 ， 而 不 是 立刻 改变 。 预 测 域 的 值 最 大 为 7， 机 器 可 禁止 来 
自 于 同一 线程 的 7 条 以 上 指令 ， 直 到 当前 指令 离开 流水 线 。 所 提供 预测 最 小 位 数 受 以 下 因素 
的 影响 :指令 字 所 贡献 的 位 数 ， 编 译 使 用 更 深度 预测 的 能 力 ， 尤 其 是 对 寄存 器 的 压力 (每 个 
指令 的 3 条 结果 x 预测 指令 数 ); 更 深度 的 预测 以 及 更 大 的 寄存 器 压力 可 能 会 给 指令 调度 带 
来 反作用 。 

在 Horizon 中 每 个 “指令 ”或 周期 可 包括 三 个 操作 : 其 中 一 个 可 能 是 存储 操作 。 这 就 意 
味 着 要 得 到 最 大 的 预测 深度 ， 需 要 找到 21 条 无 关 的 操作 ， 因 此 依赖 于 编译 的 高 级 指令 调度 
技术 是 很 重要 的 。 对 于 特殊 的 应 用 程序 ， 很 可 能 每 条 指令 或 每 两 条 指令 发 送 一 个 存储 操作 。 
由 于 最 大 预测 深度 大 于 存储 操作 间 的 平均 距离 ， 因 而 允许 多 个 存储 操作 同时 进入 流水 线 是 很 
重要 的 。 然 而 当 没 有 缓存 时 ， 每 个 存储 操作 都 是 长 时 延 事件 ， 此 时 就 需要 更 多 的 就 绪 线 程 来 
隐藏 时 延 。 尤 其 是 单线 程 的 性 能 〈 非 多 线程 化 程序 的 性 能 ) 在 没有 缓存 时 小 数量 的 预测 并 没 
有 多 大 的 帮助 ， 而 且 受 到 很 大 的 限制 。 

由 Tera 计算 机 公司 研制 的 Tera 体系 结构 是 没有 缓存 的 交替 多 线程 系列 中 最 新 款式 的 。 
Tera 处 理 线程 依赖 的 方式 与 Horizon 和 HEP 不 同 ， 而 是 使 用 了 混合 的 方式 : 提供 了 非 存储 操 
作 的 流水 线 互 锁 CR HEP) 以 及 类 似 Horizon 的 存储 指令 的 预测 。 

Tera 机 器 将 操作 分 为 存储 操作 、 算 术 (或 逻辑 ) 操作 以 及 控制 操作 (例如 转移 )。 非 通 
用 的 定制 处 理 器 每 个 指令 可 发 送 3 个 操作 (RR Horizon): 或 者 每 种 类 型 中 的 一 个 ,或 者 两 
个 算术 操作 一 个 存储 操作 。 算 术 与 控制 操作 进入 一 个 流水 线 ， 此 时 由 硬件 互 锁 多 许 来 自 一 个 
线程 的 多 个 操作 。 其 流水 线 的 深度 很 大 ， 即 使 指令 之 间 并 没有 相关 ， 同 一 个 线程 的 连续 的 两 条 
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指令 之 间 也 要 具有 一 个 可 调整 的 最 小 发 送 时 延 (大 约 16 个 周期 , 流水 线 深度 大 于 该 值 )。 因 
E, 虽然 允许 来 自 同 一 线程 的 多 条 指令 可 同时 进入 流水 线 , 但 即使 隐藏 指令 时 延 也 需要 多 个 交 
蔡 的 线程 (大约 16 个 )。 即 使 没有 存储 操作 ， 单 线程 至 少 需 要 16 个 周期 才能 完成 一 条 指令 。 

存储 操 作 则 显示 出 一 个 较 大 的 问题 。 虽 然 Tera 机 器 使 用 了 较 强 的 存储 和 网 络 技术 ， 但 
在 没有 竞争 的 情况 下 ， 存 储 操作 的 平均 时 延 也 需要 70 个 周期 (一 个 处 理 器 周期 为 2.8 ns)。 
因此 Tera 使 用 编译 技术 为 存储 操作 产生 预测 域 ， 其 语义 与 Horizon 稍 有 不 同 。 每 个 包括 存储 
操作 的 指令 ( 称 为 存储 指令 ) 具有 3 个 比特 的 预测 域 ， 该 域 标示 出 紧 跟 在 后 面 的 多 少 条 指令 
(存储 器 或 其 他 ) 与 本 存储 操作 无 关 。 其 后 续 指 令 不 必 彼 此 无 关 ， 只 是 与 被 标志 的 指令 无 关 
即 可 。 该 线程 可 在 导致 未 就 绪 前 可 越过 该 存储 指令 发 送 那些 后 续 指 令 。 这 些 预测 的 变化 使 得 
在 预测 度 较 大 时 编译 较 容易 地 调度 指令 ， 而 且 也 减轻 了 寄存 器 的 压力 。 具 体 说 明 见 例 11.5。 

例 11.5 假设 Tera 中 连续 的 两 条 指令 间 的 最 小 发 送 时 延 是 16， 要 隐藏 的 平均 存储 时 延 
是 70 周期 。 在 完全 隐藏 时 延 的 最 好 情况 下 需要 的 最 少 线程 数 ? 在 该 情况 下 每 个 存储 器 需要 
多 大 的 预测 ? 

RE: 最 小 发 送 时 延 16 意味 着 ， 在 不 考虑 存储 器 的 情况 下 需要 16 个 线程 来 充满 流水 
线 。 由 于 每 个 线程 中 几乎 每 条 指令 一 个 存储 操作 ， 若 每 个 线程 在 遇 到 存储 操作 而 未 就 绪 前 可 
发 送 4 条 无 关 的 指令 ，16 个 线程 就 可 以 隐藏 70 个 周期 的 存储 时 廷 ， 即 预测 深度 为 4 就 可 以 。 
由 于 实际 的 时 延 经 常会 高 于 70 个 周期 ， 因 而 提供 需要 较 深 的 预测 (最 多 为 7，3 位 )。 当 然 
更 长 的 时 延 需要 更 大 的 预测 值 和 高 级 编译 (或 更 多 的 线程 )。 因 而 ， 在 非 存 储 流水 线 中 虽然 
会 减 小 最 小 发 送 时 延 ， 但 我 们 还 是 希望 减 小 线程 数 。 国 

从 前 述 可 以 认为 支持 几 十 个 活动 线程 就 足够 了 ， 因 而 Tera (与 HEP 类 似 ) 在 硬件 上 支 
持 了 128 个 活动 的 线程 。 在 Tera 中 ， 将 所 有 的 处 理 器 状态 (程序 计数 器 、 处 理 器 状态 字 与 寄 
存 器 ) 复制 了 128 次 ， 结 果 导 致 了 4 096 个 64 位 通用 寄存 器 (每 个 线程 32 个 ) ，1 024 个 转 
移 目 标 寄 存 器 (每 个 线程 8 个 )。 对 大 量 线程 的 支持 出 于 以 下 多 方面 的 原因 ， 同 时 反映 出 机 
器 对 时 延 隐藏 (而 不 是 减少 时 延 ) 的 依靠 。 第 一 ， 有 些 指令 可 能 根本 没有 大 的 预测 值 ， 特 别 
是 读 指令 ， 当 一 个 指令 含有 3 个 操作 时 ， 若 预测 值 为 4 个 指令 ， 则 意味 着 在 读 指令 与 依赖 其 
的 指令 之 间 必 须 有 12 个 无 关 的 操作 。 第 二 ， 当 多 数 的 存储 访问 进入 网 络 后 ， 可 能 造成 争 用 ， 
此 时 要 隐藏 的 时 延 可 能 大 于 70 个 周期 。 第 三 ， 对 大 量 线程 支持 的 目标 不 仅 隐藏 指令 和 存储 
时 延 ， 而 且 也 容许 同步 等 待 时 间 。 这 些 同步 时 间 是 由 负载 不 平衡 以 及 关键 资源 的 冲突 造成 
的 ， 而 且 其 时 延 往往 比 数据 访问 时 延 大 得 多 。 

与 其 他 时 延 隐藏 技术 相 比 ，Tera 系统 以 及 以 前 系统 的 设计 者 在 设计 多 处 理 器 时 采纳 了 更 
为 激进 的 观点 。 不 像 我 们 目前 使 用 的 方法 一 一 首先 减少 时 延 ， 再 隐藏 其 余 的 一 一 这 种 方法 根 
本 不 特别 注重 减少 时 延 ; 这 种 处 理 器 只 是 集中 于 通过 线程 交替 隐藏 细 粒 度 的 访问 时 延 。 但 值 
得 讨论 的 是 一 般 商 业 处 理 器 依赖 于 缓存 以 及 很 少量 的 硬件 上 下 文 ， 因 而 并 不 适合 于 普通 的 多 
机 处 理 。 因 为 现代 会 聚 体系 结构 中 的 长 时 延 以 及 存储 的 物理 分 布 ， 选 用 相对 非 时 延 包 容 的 商 
用 微 处 理 器 作为 组 建 模块 意味 着 必须 非常 注重 缓存 的 数据 局 部 性 以 及 主 存 级 的 数据 分 布 。 这 
使 得 以 性 能 为 目的 的 编程 更 为 复杂 ， 因 为 除非 最 简单 的 情况 ， 编 译 还 不 能 成 功 地 自动 管理 局 
部 性 ; 因此 这 种 方法 的 洪 能 还 不 是 很 清楚 。Tera 方法 认为 使 得 多 处 理 技术 真正 通用 的 惟一 途 
径 是 置 局 部 性 管理 于 软件 之 外 ， 并 建立 在 处 理 器 对 时 延 包 容 高 度 支 持 的 体系 结构 之 上 。 若 存 
在 足够 的 额外 线程 而 且 该 技术 取得 成 功 ， 则 在 程序 员 的 眼 里 机 器 才 确 实 是 一 个 PRAM ( 即 ， 
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忽略 数据 访问 开销 )， 这 样 程序 员 就 可 以 将 精力 集中 在 并 发 性 而 不 是 时 延 管理 上 。 当 然 ， 这 
种 方法 会 牺牲 商业 处 理 器 和 缓存 的 作用 ， 并 直接 面 对 设 计 非 标准 高 性 能 处 理 器 及 相关 系统 软 
件 的 臣 大 耗费 。 这 也 可 能 导致 单线 程 性 能 降低 ， 这 意味 着 其 至 单 处 理 器 的 应 用 必须 充分 多 线 
程 化 〈 或 系统 充分 并 行 化 ) 以 获得 高 的 性 能 。 

S， 对 单线 程 流水 线 的 充分 支持 以 及 使 用 缓存 

到 目前 为 止 讨 论 的 交替 方法 与 阻塞 多 线程 方法 有 很 大 的 不 同 ， 两 者 都 具有 局 限 性 。Tera 
的 交替 方式 对 基本 的 HEP 方式 进行 了 改进 ， 但 高 的 利用 率 仍然 依赖 多 个 并 发 线程 。 不 用 组 
存 意味 着 每 个 存储 操作 都 是 长 时 延 操 作 。 这 除了 会 增加 需要 的 线程 以 及 隐藏 时 延 的 难度 外 ， 
每 次 存储 访问 都 要 消耗 存储 以 及 通信 带宽 ， 因 而 机 器 也 要 提供 巨大 的 带宽 。 

另 一 方面 ， 阻 塞 的 多 线程 方式 对 商业 的 处 理 器 修改 较 少 。 它 使 用 缓存 而 且 在 缓存 命中 时 
并 不 发 生 线程 切换 ， 因 而 保持 了 高 的 单线 程 性 能 ， 而 且 需 要 的 线程 数 较 少 。 然 而 它 的 切换 开 
销 大 ， 不 能 隐藏 短 时 延 。 同 时 ， 高 的 切换 开销 也 使 得 该 方法 不 能 包容 单 处 理 器 中 并 不 是 很 大 
的 时 延 。 因 而 ， 很 难 确定 哪 种 方式 适合 单 处 理 器 ， 哪 种 方式 适合 高 端 市 场 。 

在 交替 方式 中 同时 支持 缓存 以 及 完全 的 单线 程 流水 线 也 是 可 能 的 ， 这 就 要 求 使 用 小 数量 
的 线程 隐藏 存储 器 时 延 、 比 阻塞 方式 低 的 切换 开销 、 以 及 对 单 处 理 器 的 更 好 支持 。 该 方面 的 
详细 研究 参看 (Laudon, Gupta, and Horowitz 1994)。 从 HEP 和 Tera 方法 中 我 们 可 以 看 出 , 3 
BH TARAD PB: 保持 一 组 活动 线程 ， 每 个 活动 线程 具有 自己 的 寄存 器 和 状态 字 ， 每 
个 周期 允许 处 理 器 从 一 个 就 绪 线 程 中 选择 一 条 指令 。 这 种 选择 非常 简单 ， 像 用 round-robin 方 
法 从 就 绪 线程 中 选择 。 一 个 线程 遇 到 长 时 延 事 件 时 导致 本 身 未 就 绪 ， 直 到 该 长 时 延 事件 完成 
为 止 ， 这 与 前 面 讨论 的 一 样 。 关 键 的 不 同 点 是 其 流水 线 是 标准 的 微 处 理 器 流水 线 ， 而 且 具 有 
全 面 的 旁 路 和 转发 支持 ， 可 使 得 来 自 同一 个 线程 的 指令 在 连续 的 周期 发 送 (与 阻塞 方式 相 
同 ); 不 像 Tera 那样 具有 最 小 的 发 送 时 延 。 在 最 理想 的 情况 下 ， 一 个 态 深 度 的 流水 线 可 包含 
同一 线程 的 大 个 指令 。 除 此 之 外 ， 用 缓存 减 小 时 延 意味 着 很 多 存储 操作 并 非 长 时 延 事 件 ， 因 
此 一 个 线程 在 大 部 分 时 间 是 就 绪 的 ， 而 且 隐 藏 时 延 的 线程 数 是 很 小 的 。 例 如 ， 若 一 个 线程 每 
30 个 周期 发 生 一 次 缓存 扑 空 ， 每 次 扑 空 开销 为 120 个 周期 ， 于 是 保持 处 理 器 的 完全 利用 只 
需要 5 个 线程 〈 其 中 一 个 为 扑 空 线程 ) 。 

这 种 交替 方式 中 的 开销 来 源 与 阻塞 方式 是 一 样 的 。 一 个 缓存 扑 空 导致 该 线程 未 就 绪 ， 但 
该 扑 空 在 流水 线 的 后 期 才 被 检测 到 ; 若 只 有 少数 的 交错 线程 ， 此 时 发 生 扑 空 的 线程 可 能 已 经 
把 其 他 的 指令 取 到 流水 线 中 。 不 像 Tera 机 器 那样 ， 编 译 可 通过 预测 域 保证 流水 线 中 的 这 些 
后 续 指 令 与 该 扑 空 指令 无 关 ; 在 这 里 我 们 必须 自己 处 理 这 些 指 令 。 与 阻塞 方式 同样 的 原因 ， 
建议 选择 的 方法 是 排 空 这 些 指令 ， 即 将 这 些 指令 标记 为 不 对 处 理 器 状态 进行 修改 的 指令 。 与 
阻塞 方式 的 关键 不 同 点 是 ， 由 于 其 他 线程 的 指令 是 一 个 周期 接 一 个 周期 进入 流水 线 的 ， 不 是 
所 有 的 指令 需要 排 空 的 一 一 只 有 那些 来 自 扑 空 线程 的 指令 才 需 要 。 央 而 ,线程 未 就 绪 的 开销 
比 阴 塞 方式 小 得 多 ， 后 者 流水 线 中 所 有 的 指令 都 需要 排 空 。 事实 上 ， 如 果 就 绪 和 活动 的 线程 
足够 (这 要 求 大 量 的 机 器 状态 复制 ， 并 非 该 方式 提倡 的 )， 扑 空 线程 的 指令 根本 不 能 进入 流水 
线 ， 则 就 不 需要 排 空 流水 线 (与 HEP/Tera 的 方式 形 同 )。 与 阻塞 方式 的 比较 如 图 11-29 所 示 。 

使 线程 未 就 绪 的 效果 是 短 时 延 〈 如 局 部 存储 器 访问 或 长 指令 时 延 ) 比 阻 塞 的 情况 更 容易 
隐藏 ， 这 也 使 得 交替 方式 更 适合 单 处 理 器 中 的 多 线程 技术 。 对 于 一 些 在 阻塞 情况 下 不 能 被 隐 
藏 的 非常 短 的 时 延 ， 如 流水 线 相关 等 ， 常 常 不 需要 使 得 线程 未 就 绪 就 可 以 通过 线程 周期 切换 
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的 方式 自然 地 隐藏 。 在 4 个 线程 4 深度 流水 线 中 使 用 阻塞 方式 的 例子 (如 图 11-27 所 示 ) 的 
不 同 效果 如 图 11-30 所 示 。 在 该 简单 的 例子 中 ,假定 在 指令 序列 的 开始 流水 线 处 于 稳定 状 
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图 11-29 完全 支持 单线 程 的 交 车 策略 下 线程 变 为 未 就 绪 的 开销 与 阻塞 策略 下 上 下 文 切 换 开销 
的 比较 。 图 中 首先 显示 了 假定 的 7 段 流水 线 ， 然 后 是 阻塞 策略 中 延 后 扑 空 检测 的 影 
响 : 其 中 所 有 指令 都 来 自 于 线程 4 并 且 流 水 线 中 的 指令 都 被 碾 压 ; 再 后 是 交 蔡 线程 
策略 的 情况 。 在 交替 线程 策略 中 ， 来 自 于 三 个 不 同 线程 的 指令 进入 流水 线 ， 只 有 来 
自 于 线程 4 的 指令 才 被 碾 压 。 此 种 情形 下 ， 扑 空 的 切换 开销 是 3 个 周期 而 非 7 个 周期 
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图 11-30 交替 策略 中 的 时 延 包 容 。 现 假定 流水 线 为 4 个 阶段 ， 分 别 为 取 指 (下 ) 、 译 码 (D) 、 执 行 〈E) A 
写 (WB)。 图 的 顶部 显示 了 当 该 线程 是 处 理 器 中 惟一 执行 者 时 ，4 个 活动 线程 的 执行 情况 。 底 部 
显示 了 处 理 器 在 线程 间 的 切换 人 情况。 与 图 11-27 一 样 ， 其 时 隙 中 的 指令 是 该 周期 从 流水 线 引退 
(即将 引退 ) 的 指令 。 显 示 的 前 4 个 周期 中 ， 来自 于 每 个 线程 的 指令 分 别 引 退 。 到 第 5 个 周期 来 
自 线程 4 的 指令 即将 引退 ， 但 此 时 检测 到 扑 空 需要 未 就 绪 挂 起 ， 于 是 该 位 置 成 为 空闲 。 该 时 刻 流 
水 线 的 其 他 3 条 指令 (空闲 时 际 的 后 面 ) 来 自 于 其 他 不 同 的 线程 ， 这 样 除 了 该 扑 空 指令 本 身 的 一 个 
周期 外 没有 其 他 的 切换 开销 。 当 8 的 下 一 条 指令 到 达 WB 阶段 (第 9 个 周期 ) 时 ， 此 时 检测 到 扑 空 
并 需要 转 为 未 就 绪 。 此 时 ， 由 于 线程 4 已 经 是 未 就 绪 的 ， 分 别 来 自 于 线程 C 和 D 指令 已 经 进入 流 
水 线 ， 同 时 还 有 5 的 不 只 一 条 指令 (如 图 所 示 ， 该 指令 已 经 进入 流水 线 的 取 指 阶段 ， 第 12 个 周期 
将 要 引退 )。 这 样 ， 线 程 8 扑 空 的 指令 浪费 了 一 个 周期 ， 而且 线 程 互 的 一 条 指令 也 被 废除 掉 。 类 似 
ih, RE C 应 该 在 第 13 周期 引退 的 指令 发 生 扑 空 时 ， 也 会 导致 来 自 于 C 的 -条 指令 废除 ， 等 等 
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态 ， 则 处 理 器 的 利用 率 为 21/30 或 70% (图 11-27 中 的 利用 率 为 21/51 或 41%)。 为 了 说 明 方 
便 ， 本 例 使 用 的 是 一 些 非 实际 的 参数 ， 而 事实 上 在 几乎 每 周期 发 送 一 条 存储 指令 的 现代 超标 
量 处 理 器 中 , 在 阻塞 方式 中 缓存 扑 空 导 致 的 切换 开销 可 能 非常 高 。 与 阻塞 方式 相 比 ， 该 方式 
的 缺点 是 实现 起 来 较 复杂 。 

阻塞 方式 以 及 最 后 一 种 交替 方式 〈 因 而 也 称 为 交替 方式 ) 从 简单 的 具有 流水 线 互 锁 以 及 
缓存 的 商用 处 理 器 出 发 ， 通 过 修改 而 实现 多 线程 。 正 像 前 面 所 述 ， 即 使 用 在 超标 量 处 理 器 
中 ,在 给 定 的 周期 其 发 送 的 指令 也 是 来 自 同一 个 线程 。 适 合 超标 量 需要 更 高 级 的 多 线程 技 
术 , 但 为 了 简单 起 见 ， 我 们 首先 检验 其 性 能 与 实现 问题 ， 这 可 直接 对 两 者 进行 比较 。 


11.7.2 性 能 收益 


模拟 研究 显示 阻塞 和 交替 的 方式 〈 使 用 全 流水 线 互 锁 及 缓存 ) 都 能 有 效 地 隐藏 读 与 写 时 
延 (Laudon，Gupta，and Horowitz 1994; Kurihara, Chaiken, and Agarwal 1991)。 同 时 也 发 现 所 
需要 的 活动 上 下 文 数 很 少 ， 大 约 在 4~ 8 个 之 间 ， 该 数量 可 能 随时 延 的 增 大 (相对 处 理 器 周 
期 的 时 间 ) 而 改变 。 

我 们 先 检 验 对 一 些 并 行程 序 的 模拟 结果 (Laudon 1994)。 其 结构 模型 仍然 是 具有 16 个 处 
理 器 的 缓存 一 致 性 多 处 理 器 系统 ， 使 用 平面 的 基于 主 存 的 目录 协议 。 处 理 器 模型 为 ， 单 发 
送 ，MIPS R4000 的 定点 流水 线 ，Alpha 21064 的 浮 点 流水 线 。 缓 存 的 结构 为 ; 小 的 (64 KB) 





单 级 缓存 ， 不 同类 型 访问 的 时 延 采用 Stanford DASH 多 处 理 器 原型 (Lenoski et al.1992), th 


之 ,建立 阻塞 与 交替 方式 的 目的 是 尽量 改进 处 理 器 的 性 能 。 在 供 研 究 的 7 个 应 用 程序 中 ， 其 
中 3 个 的 多 线程 加 速 比 为 2.0~3.5 之 间 ， 其 他 3 个 的 加 速 比 为 1.2~ 1.6 之 间 ， 而 最 后 一 个 
应 用 的 加 速 比 可 以 忽略 ， 因 为 其 几乎 没有 并 行 性 (如 图 11-31 R) BERR Be ES 


是 优 于 阻塞 模式 ， 这 与 前 面 的 讨论 相 吻 合 ， 所 有 的 应 用 的 几何 平均 加 速 比 为 2.75 比 1.9。 


研究 发 现 当 发 生 很 多 短 的 流水 线 停滞 〈 如 浮 点 加 、 浮 点 减 、 乘 法 指令 等 ) 时， 交替 方式 
显示 出 最 大 的 优点 ; 这 是 因为 这 些 时 延 不 能 被 阻塞 方式 隐藏 ， 而 能 被 交替 方式 无 开销 地 隐 
藏 。 长 的 流水 线 时 延 ， 如 几 十 个 周期 的 除法 操作 ， 都 能 被 两 种 方法 很 好 的 隐藏 (虽然 交替 方 
式 由 于 很 小 的 切换 开销 具有 较 好 的 隐藏 效果 )。 即 使 扩展 存储 的 结构 和 性 能 参数 改变 〈 例 如 ， 
长 的 时 延 ， 多 级 缓存 ) ， 交 蔡 方式 的 优点 依然 保持 。 甚 至 在 现代 的 每 个 周期 的 多 发 射 操作 处 
理 器 中 其 优点 可 能 会 更 大 ， 因 为 缓存 的 扑 空 率 增 大 导致 上 下 文 切换 增加 。 两 种 多 线程 方式 的 
潜在 缺点 是 多 个 执行 的 线程 共享 同一 个 缓存 、TLB、 转 移 预 测 单元 ， 这 会 增加 其 中 的 负 王 涉 
(例如 ， 在 低 相 联 度 缓 存 中 线程 间 的 映射 冲突 )， 然 而 ， 研 究 中 显示 这 些 负 效应 是 很 小 的 。 

图 11-32 显示 了 对 于 两 个 应 用 的 更 为 详细 的 处 理 器 执行 时 间 ( 取 所 有 处 理 器 的 平均 时 
间 )， 并 显示 了 有 趣 的 效果 。 对 于 单个 上 下 文 来 说 ，Bames-Hut 由 于 使 用 小 的 单 级 的 直接 映像 
的 相 邻 缓存 而 导致 了 严重 的 存储 停 灌 时 间 (该 应 用 具有 4 和 个 体 的 小 复杂 度 )。 每 个 处 理 器 
使 用 更 多 个 上 下 文 可 有 效 地 隐藏 这 种 数据 访问 时 延 ， 在 图 中 切换 开销 较 小 的 交替 方式 显示 得 
更 为 明确 。 在 Bames-Hut (Water) 应 用 中 时 延 的 其 他 主要 方式 是 长 时 延 的 浮 点 指令 ， 尤 其 是 
除法 。 交 替 方式 能 比 阻塞 方式 更 有 效 地 隐藏 这 种 时 延 。 但 是 ， 当 上 下 文 的 数量 超过 4 时， 两 
者 隐藏 能 力 增加 会 逐渐 减 小 。 这 是 因为 模拟 的 除法 单元 不 是 流水 线 的 ， 当 来 自 多 个 线程 的 
除法 增多 时 该 单元 成 为 了 资源 瓶颈 PTHOR 是 使 用 多 个 上 下 文 而 不 能 显著 提高 性 能 的 一 个 应 
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图 11-31 阻塞 和 交替 多 线程 的 加 速 比 。 图 中 的 柱 条 显示 了 在 单 执行 线程 的 处 理 器 中 7 个 应 用 程序 执行 时 随 


正常 的 执行 时 间 





上 下 文 数 目 变 化 〈4 和 8) 的 加 速 比 。 所 有 的 结果 都 是 在 16 个 处 理 器 上 执行 得 到 的 。Locus 应 用 在 
图 11-24 中 已 经 介绍 过 。Water 是 模拟 液态 下 水 分 子 分 子 运动 的 模拟 程序 。PTHOR 是 逻辑 电路 的 
并 行事 件 驱动 的 模拟 器 ， 其 并 发 剖 视图 见 图 2-5 所 示 。 多 处 理 器 系统 模拟 模型 假定 每 个 处 理 器 配 
置 单 级 的 64-KB 的 直接 映射 的 加 写 缓存 。 存 储 系统 时 延 假 定 缓存 命中 时 为 1 个 周期 ， 当 缓存 扑 空 
若 在 局 部 存储 器 中 得 到 数据 时 ， 该 时 延 统一 为 24 ~ 25 个 周期 ， 扑 空 且 在 远程 户主 访问 时 延 为 73 
~ 135 个 周期 ， 扑 空 时 在 非 宿主 目录 节点 访问 时 延 为 9 ~ 156 个 周期 。 按 照 现代 的 观点 来 看 ， 这 
些 时 延 显然 是 不 够 的 。 类 似 MIPS R4000 的 整数 单元 具有 7 个 周期 的 流水 线 ， 浮 点 单元 具有 9 个 阶 
段 的 流水 线 (5 个 执行 阶段 )。 除 法 指令 的 时 延 为 61 个 周期 ， 与 其 他 单元 不 同 的 是 浮 点 单元 没有 
流水 线 。 在 遇 到 浮 点 指令 时 采用 两 种 策略 切换 线程 (或 者 说 使 线程 成 为 未 就 绪 )。 阻 塞 策略 对 同 
步 事件 或 除法 指令 采用 显示 的 切换 指令 ， 此 时 耗费 3 个 周期 ( 比 7 个 周期 的 切换 要 少 ， 因 为 切换 
行为 在 译 码 阶段 之 后 就 已 经 知道 ， 而 不 必 等 到 回 写 阶段 )。 交 蔡 策 略 在 该 情况 下 使 用 了 后 退 指令 
(在 11.7.4 节 讨论 )， 其 结果 是 根据 要 废除 的 指令 个 数 不 同 ， 其 消耗 的 周期 数 为 1 ~ 3 个 周期 
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图 11-32 多 线程 下 两 个 应 用 的 执行 时 间 分 析 。 忙 时 间 是 指 花 费 在 执行 应 用 程序 指令 的 时 间 ， 流 水 线 


停顿 时 间 是 指 由 于 流水 线 或 指令 相关 而 耗费 的 时 间 ， 数据 停顿 时 间 和 同步 停顿 时 间 分 别 
是 指 社 费 在 存储 系统 以 及 同步 事件 的 时 间 。 最 后 ， 上 下 文 切换 时 间 是 指 上 下 文 切 换 的 开销 
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用 ， 有 时 增多 上 下 文 反而 有 害 。 当 上 下 文 数 为 2 时， 存储 时 延 能 有 效 地 隐藏 ， 然 而 其 主要 的 
瓶颈 是 同步 时 延 。 该 应 用 不 具有 额外 的 并 行 性 以 有 效 地 开发 多 个 上 下 文 : 即使 使 用 多 个 线 
程 ， 其 大 量 的 时 间 也 是 耗费 在 同步 点 上 。 注 意 ， 当 上 下 文 数量 增多 时 ，PTHOR 的 忙 时 间 增 
多 。 这 是 因为 该 应 用 使 用 了 一 组 分 布 的 任务 队列 ， 随 着 线程 增多 ， 管 理 这 些 队 列 的 费用 会 增 
大 。 这 些 额 外 的 指令 也 会 导致 缓存 扑 空 。 

与 预 取 一 样 ， 多 线程 会 隐藏 同类 的 数据 访问 时 延 ， 而 且 在 不 同 的 情况 下 各 有 特点 〈 例 如 
多 线程 可 有 效 隐藏 同步 和 指令 时 延 ， 预 取 则 不 能 直接 隐藏 )。 两 者 混合 应 用 导致 的 性 能 收益 
并 不 是 很 好 理解 的 。 例 如 ， 多 线程 的 应 用 会 导致 缓存 中 多 线程 间 的 建设 性 和 破坏 性 的 干涉 ; 
而 这 是 不 可 预测 的 ， 给 预测 分 析 带 来 了 很 大 困难 。 与 预 取 一 样 ， 多 线程 在 阻塞 读 处 理 器 中 可 
与 放松 同一 模型 形成 很 好 的 互补 ; 在 更 先进 的 处 理 器 中 的 交互 作用 还 不 是 很 清楚 。 

以 下 两 节 将 详细 讨论 阻塞 方式 与 交替 方式 的 实现 问题 ， 主 要 包括 与 商用 处 理 器 相 比 增 加 
的 部 分 。 当 然 读者 若 对 内 容 较 熟悉 ， 也 可 以 直接 阅读 11.7.5 节 的 超标 量 处 理 器 中 的 多 线程 
技术 部 分 。 


11.7.3 阻塞 方式 的 实现 问题 


阻塞 方式 与 交 蔡 方式 都 具有 三 种 要 求 : 状态 复制 、 程 序 指针 (PC) 单元 的 加 强 、 控 制 
加 强 。 状 态 复制 基本 上 包括 复制 寄存 器 、 程 序 计 数 器 、 以 及 每 个 活动 上 下 文 相 关 的 程序 状态 
字 ， 这 与 前 面 讨 论 的 相同 。 在 多 线程 控制 中 多 处 理 器 需要 的 PC 具有 重大 的 改变 。 为 了 加 强 
控制 需 增 加 一 些 逻 辑 和 寄存 器 ， 以 支持 上 下 文 间 的 切换 管理 、 上 下 文 就 绪 和 未 就 绪 等 。 我 们 
将 对 这 些 需 求 一 一 进行 讨论 。 

1. 状态 复制 

我 们 首先 对 寄存 器 堆 和 处 理 器 状态 字 分 别 进行 讨论 。 为 每 个 上 下 文 分 配 一 个 寄存 器 堆 或 
者 一 个 静态 的 大 段 寄存 器 可 以 加 快 寄存 器 的 访问 ， 当 然 这 会 使 得 难以 有 效 地 使 用 硅 的 面积 
(如 图 11-33 所 示 )。 例 如 ， 在 阻塞 方式 中 由 于 一 个 上 下 文 一 直 执 行 到 遇 到 一 个 长 时 延 时 间 为 
止 ， 因 而 当 其 他 的 上 下 文 困 置 时 只 有 一 个 活动 的 寄存 器 在 使 用 。 至 少 多 个 寄存 器 堆 之 间 可 以 
共享 读 写 端口 ， 因 为 这 些 端 口 会 潜在 地 占据 寄存 器 堆 中 硅 的 面积 。 除 此 之 外 ， 不 同 的 线程 实 
际 使 用 的 寄存 器 数量 可 能 不 同 ， 而 随 着 执行 其 所 需要 的 寄存 器 数 会 动态 变化 。 因 而 ， 上 下 文 
间 动 态 地 共享 大 的 寄存 器 堆 可 能 比 静态 地 划分 寄存 器 堆 有 更 高 的 使 用 率 。 这 就 导致 了 类 似 组 
存 的 寄存 器 结构 : 以 上 下 文 数 和 寄存 器 偏 移 为 索引 ;当然 也 具有 潜在 的 缺点 ; 寄存 器 堆 增 大 
会 增加 访问 时 间 。 为 了 更 有 效 地 改进 寄存 器 堆 ， 已 有 多 种 途径 (Nuth and Dally1995; Laudon 





图 11-33 ”多 线程 处 理 器 中 分 段 的 寄存 器 堆 。 该 寄存 器 堆 分 为 
4 个 帧 ， 假 定 在 给 定 的 时 间 可 允许 4 个 活动 的 上 下 
文 。 每 个 活动 上 下 文 的 寄存 器 值 通 过 切换 保留 在 该 
上 下 文 的 寄存 器 帧 中 ， 每 个 上 下 文 的 帧 是 通过 编译 
管理 的 ， 就 像 是 自己 的 完整 的 寄存 器 堆 一 样 。 帧 中 
的 寄存 器 访问 是 通过 当前 硬件 寄存 器 帧 指针 实现 
的 ， 该 指针 指定 了 在 帧 中 的 偏 黎 ， 此 编译 不 需要 知 
道 一 个 上 下 文 使 用 哪个 帧 这 是 在 执行 时 确定 的 )。 
切换 到 不 同 的 活动 上 下 文 只 需要 改变 当前 帧 指针 
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1994; Omondi 1994; Smith 1985)， 但 所 有 情况 下 复制 的 可 能 性 依然 存在 。MIT 的 Alwife 机 器 
在 Sun Spare 处 理 器 中 通过 修改 其 寄存 器 窗口 机 制 来 提供 多 个 复制 的 寄存 器 堆 。 

现代 的 “处 理 器 状态 字 ” 实 际 上 包括 多 个 寄存 器 ;只 有 一 部 分 (如 泽 点 状态 /控制 等 ) 
保持 具体 进程 的 状态 而 非 全 局 的 机 器 状态 ， 因 而 只 有 这 些 是 需要 复制 的 。 男 外 ， 多 线程 又 引 
人 了 一 个 新 的 全 局 状态 字 ， 称 为 上 下 文 状态 字 (CSW)。 该 字 包 含 一 指明 当前 正在 执行 的 线 
程 标志 ,一 位 指明 该 上 下 文 是 否 是 可 以 被 切换 的 (以 下 我 们 将 看 到 当 发 生 异 常 时 该 位 是 非 使 
能 的 )， 一 个 比特 向 量 指明 哪个 当前 活动 的 上 下 文 是 准备 执行 的 。 最 后 ，TLB 控制 寄存 器 需 
要 修改 以 支持 多 上 下 文中 的 不 同 地 址 空间 的 标志 ， 并 且 允 许 一 个 单个 的 TLB 项 用 来 被 多 个 
上 下 文 共享 一 个 页 。 

2. 程序 计数 器 单元 

不 同 的 活动 上 下 文 必须 在 硬件 上 保持 其 自己 的 PC。 有 效 支持 异常 的 处 理 器 也 提供 了 最 
少 的 硬件 复制 ， 因 为 在 很 多 方面 异常 很 像 上 下 文 切换 。 除 了 PC 链 外 (PC 链 用 来 保持 流水 线 
不 同 流水 段 中 指令 的 PC 值 ) ， 这 种 处 理 器 还 提供 一 个 称 为 异常 程序 指针 (EPC) 的 寄存 器 。 
EPC 是 由 PC 链 来 填充 的 ， 总 是 保存 最 后 一 个 来 自流 水 线 引 退 指令 的 地 址 。 当 发 生 异 常 时 ， 
由 于 错误 的 指令 而 停止 装 和 人 EPC， 流 水 线 中 所 有 未 完成 的 指令 全 部 排 空 ， 同 时 将 异常 处 理 程 
序 的 地 址 放 入 PC。 当 异常 处 理 返回 时 ，EPC 装 入 PC 以 便 错误 的 指令 能 够 重新 执行 。 这 正 是 
在 多 上 下 文 机 制 中 所 需要 的 功能 。 我 们 只 需要 复制 EPC 寄存 器 ， AAAA ARA 
存 器 。 每 个 上 下 文 的 EPC 用 来 处 理 异常 或 者 上 下 文 切换 。 当 一 个 上 下 文正 在 操作 时 ， 该 
下 文 将 其 RPC Heit PCR, MICE LEXIE, USRR, BETI Roe 
的 行为 与 单线 程 的 情况 是 完全 一 样 的 。 在 上 下 文 切换 时 ， 遇 到 错误 指令 (长 时 延 指令 ) 停止 
BA EPC， 同 时 将 流水 线 中 未 完成 的 指令 排 空 〈 与 异常 一 样 ); 装 人 选择 的 下 一 个 上 下 文 的 
EPC， 执 行 其 第 一 条 未 完成 的 指令 ， 如 此 执行 。 将 EPC 用 作 两 种 用 途 的 缺点 是 异常 程序 不 能 
进行 上 下 文 切换 (否则 以 前 保存 EPC 的 地 址 就 会 丢失 )， 因 而 异常 时 上 下 文 切换 被 禁止 ， 当 
异常 返回 时 切换 使 能 位 。 然 而 ， 在 该 情况 下 PC 的 保存 与 恢复 还 是 通过 软件 来 完成 的 。 

3， 控 制 

在 阻塞 方式 实现 中 控制 逻辑 的 关键 功能 是 检测 何 时 切换 发 生 、 选 择 下 一 个 上 下 文 、 协 调 
并 执行 切换 。 以 下 我 们 一 一 介绍 。 

在 阻塞 方式 中 ， 一 个 上 下 文 切 换 可 由 以 下 三 种 事件 激发 : 缓存 扑 空 ， 显 式 上 下 文 切换 指 
令 、 同 步 事件 和 长 时 延 指令 ; 超时 操作 。 超 时 事件 是 用 来 保证 单个 的 上 下 文 不 会 执行 太 久 ， 
或 查询 等 待 一 个 被 同一 处 理 器 上 其 他 线程 设置 的 标志 位 。 在 缓存 扑 空 时 切换 基于 三 个 信和 号: 
缓存 扑 空 标志 ， 上 下 文 使 能 位 ， 就 绪 上 下 文 标志 位 。 实 现 显 式 上 下 文 切换 指令 的 一 个 简单 的 
方法 是 假设 后 续 的 指令 发 生 缓存 扑 室 〈 即 ， 使 缓存 扑 空 信号 有 效 或 发 出 另 一 个 信和 号 激发 上 下 
文 切换 逻辑 ); 这 将 导致 上 下 文 切换 并 在 下 一 条 指令 后 重新 执行 。 最 后 ， 超 时 信和 号 可 通过 一 
个 门限 计数 器 来 实现 。 

虽然 选择 下 一 个 线程 的 策略 很 多 ， 但 是 实际 中 只 是 简单 地 以 round-robin 7A 
心 上 下 文 间 的 关系 以 及 上 下 文 执行 的 历史 一 一 也 工作 得 不 错 。 此 时 的 信号 要 求 是 当前 上 下 文 
标志 、 就 绪 且 活动 的 线程 向 量 ,， 以 及 是 否 需 要 切换 的 检测 信和 号。 

最 后 ， 阻 塞 方式 中 的 上 下 文 切换 还 需要 以 下 的 行为 。 这 些 行 为 要 求 在 处 理 器 流水 线 中 的 
不 同 阶段 完成 ， 因 而 控制 逻辑 必须 在 一 个 时 间 窗 口上 使 能 各 种 信号 。 
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"保存 当前 线程 中 第 一 条 未 完成 的 指令 地 址 〈 例 如 ， 其 上 下 文 的 EPC)。 

* 排 空 流水 线 中 所 有 的 未 完成 指令 。 

* 从 选择 的 〈 或 保存 的 ) 上 下 文 的 PC OR AF EPC) 开始 执行 。 

“在 TLB 边界 寄存 器 中 装 人 正确 的 地 址 空间 标志 。 

* 装 人 相关 的 新 上 下 文 的 控制 /状态 寄存 器 (来 自 于 以 前 保存 的 )， 包 括 浮 点 控制 /状态 

寄存 器 以 及 上 下 文 标志 。 

”在 多 寄存 器 堆 中 切换 寄存 器 堆 的 指针 ， 指 向 新 的 上 下 文 。 

总 之 , 阻塞 的 上 下 文 交换 方式 中 实现 的 主要 开销 是 对 寄存 器 堆 的 复制 以 及 管理 ， 这 不 仅 
涉及 面积 ， 而 且 还 涉及 寄存 器 堆 的 访问 时 间 。 如 果 后 者 在 处 理 器 周期 时 间 的 关键 路 径 上 ， 则 
为 了 保持 高 的 时 钟 频率 需要 增加 流水 线 的 深度 ; 但 这 又 会 加 大 转移 错误 预测 的 损失 。 所 有 这 
些 因 素 都 是 应 该 进行 性 能 评价 的 。 除 此 以 外 ， 其 他 的 硬件 开销 很 小 。 


11.7.4 交 蔡 方式 的 实现 问题 


阻塞 方式 实现 容易 的 一 个 关键 原因 是 大 多 数 时 间 其 行为 很 像 一 个 单线 程 处 理 器 ， 只 是 上 
下 文 切换 时 才 会 导致 其 他 复杂 性 以 及 处 理 器 状态 的 改变 。 交 替 方 式 由 于 在 线程 间 实 现 单 周期 
切换 而 需要 更 多 的 一 点 支持 。 处 理 器 的 状态 必须 实现 单 周期 切换 ， 而 且 指令 发 射 单元 必须 在 
连续 的 周期 发 射 多 个 活动 上 下 文 的 指令 。 同 时 需要 一 种 机 制 实现 : 使 得 上 下 文 活动 或 非 活 
动 ， 每 周期 要 实现 将 活动 / 非 活动 的 状态 送 往 指令 单元 。 下 面 再 分 别 讨论 一 下 状态 复制 、PC 
单元 以 及 需要 的 控制 。 

1. 状态 复制 

与 阻塞 方式 一 样 ， 寄 存 器 堆 必须 能 动态 地 复制 或 管理 ， 但 由 于 连续 的 周期 内 可 能 访问 不 
同 的 上 下 文 寄存 器 ， 因 而 快速 访问 寄存 器 的 压力 就 会 增 大 。 我 们 不 能 依赖 于 多 阻塞 方式 访问 
模式 的 逐渐 改变 而 实现 。( 因 此 ，Tera 处 理 器 使 用 存储 体式 或 交替 的 寄存 器 堆 ，_… 个 线程 也 
会 因为 寄存 器 体 忙 而 导致 未 就 绪 )。 其 中 必须 被 复制 的 进程 状态 字 部 分 与 阻塞 方式 类 似 ， 即 
使 处 理 器 一 定 要 在 每 个 周期 切换 状态 字 。 

2. 程序 指针 单元 

区 别 最 大 的 部 分 是 PC 单元 。 来 自 不 同 线程 的 指令 同时 存在 于 流水 线 ， 处 理 器 必须 能 够 
每 个 周期 发 送 不 同 线程 的 指令 ， 以 避免 因 未 就 绪 的 线程 而 停滞 。 此 时 流水 线 也 会 受到 影响 ， 
因为 在 实现 正确 的 旁 路 和 转发 时 ，PC 链 必 须 保持 不 同 流水 段 指令 对 应 的 上 下 文 标志 。 对 于 
PC 单元 本 身 来 说 ,需要 一 种 新 的 机 制 以 实现 下 列 功能 ， 处理 上 下 文 的 实用 性 ， 排 空 指令 ， 
跟踪 下 一 条 要 发 送 的 指令 ,处理 转移 及 异常 等 。 以 下 我 们 将 对 其 进行 部 分 的 讨论 ， 更 全 面 的 
内 容 可 参考 文献 (Laudon 1994) 。 

下 面 考虑 上 下 文 的 有 效 性 。 当 遇 到 缓存 扑 空 或 显 式 后 退 指令 (使 得 上 下 文 在 指定 的 周期 
内 不 可 用 ) 时 ， 上 下 文 会 变 成 不 可 用 。 例 如 在 同步 事件 处 理 时 发 送 后 退 指令 (如 果 指 定 的 后 
退 时 间 期 满 时 同步 事件 还 没有 发 生 ， 而 且 该 线程 又 成 为 可 用 时 ， 则 该 线程 的 周期 会 浪费 _ 寺 
到 等 待 的 事件 得 到 满足 ， 或 者 发 送 另 一 条 后 退 指令 )。 通 过 清 “上 下 文 可 用 ”信号 可 使 得 该 
上 下 文 停滞 继续 发 送 指令 。 为 了 排 空 流水 线 中 的 该 线程 的 指令 ， 我 们 必须 向 所 有 的 流水 段 发 
出 上 下 文 标志 信号 ， 因 为 我 们 不 知道 哪个 流水 段 包含 该 上 下 文 的 指令 。 在 缓存 扑 空 的 情况 
下 ， 呈 致 扑 空 的 指令 地 址 装 和 人 EPC。 一 旦 扑 空 得 到 处 理 而 该 上 下 文 又 可 用 时 ， 若 上 下 文 被 和 
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择 ， 则 PC 总 线 从 EPC 装 人 。 显 式 后 退 指令 nea 只 是 不 从 该 后 退 指 令 开始 恢 
复 ， 而 是 从 后 一 条 指令 开始 恢复 。 在 EPC 中 包含 一 个 下 一 位 ， 该 位 表示 从 错误 指令 恢复 还 
是 从 下 一 条 指令 恢复 。 

即使 在 一 个 标准 的 、 单 上 下 文 单 处 理 器 中 ， 三 种 来 源 可 决定 一 个 线程 将 要 发 送 的 下 一 个 
指令 : 下 一 个 顺序 指令 ， 来 自转 移 目 标 缓冲 (BTE) 中 的 转移 预测 ， 预 测 错误 时 的 计算 结 
R 。 当 一 次 流水 线 中 只 有 一 个 上 下 文 时 ,一 旦 确定 则 “nextPC”( NPC) 寄 存 器 就 可 以 作 
为 下 一 个 指令 地 址 来 驱动 PC 总 线 。 然 而 在 交替 的 处 理 器 中 ， 在 某 上 下 文 的 下 个 指令 地 址 确 
定 并 准备 放 人 了 PC 总 线 的 周期 期 间 不 允许 进 行 上 上 下文 调 度 。 另 外 ,由 于 上 下 文 的 NPC 可 能 
由 不 同 指令 的 不 同 流水 端 来 确定 一 一 例如 ， 错 误 转移 预测 要 比 正 确 的 预测 或 者 非 转移 指令 的 
确定 迟 得 多 一 一 在 同一 时 刻 不 同 上 下 文 可 产生 NPC 值 .因此 ,不 同上 下 文 的 NPC 值 需 
保存 在 寄存 器 中 ， 直 到 相应 的 上 下 文 执行 下 一 条 指令 时 才 将 其 驱动 到 PC 总 线 上 (如 图 11-34 
所 示 )。 


下 一 个 顺序 指令 
预测 的 分 支 地 址 


计算 的 分 支 地 址 


HARES 





PC 总 线 


PC 总 线 


a) 阻塞 的 方法 b) 交叉 的 有 两 个 上 下 文 


图 11-34 具有 两 个 上 下 文 时 在 阻塞 和 交替 多 线程 方法 中 驱动 PC 总 线 。 如 果 使 
用 更 多 的 上 下 文 ， 交 替 策 略 会 需要 更 多 的 复制 ， 而 阻塞 策略 则 不 会 


转移 处 理 也 需要 另外 的 机 制 。 当 预测 错误 而 要 排 空 流水 线 时 ， 上 下 文 的 标志 要 广播 到 所 
有 的 流水 段 ， 但 这 与 无 效 上 下 文 的 功能 是 相同 的 。 当 实际 的 转移 目的 地 址 计算 出 时 ， 推 测 发 
送 的 指令 可 能 在 所 有 的 流水 段 ， 甚 至 可 能 还 没有 发 送 到 流水 线 中 (由 于 其 他 上 下 文 的 交替 是 
随机 的 )。 为 了 发 现 已 预测 的 地 址 以 进行 正确 的 预测 ， 当 转移 指令 在 流水 段 中 推进 时 携带 预 
测 地 址 是 很 必要 的 。 例 如 ， 一 个 预测 的 PC 寄存 器 链 与 PC 链 在 执行 时 并 行 推进 ， 当 转移 操 
作 到 达 适 当 的 流水 段 时 可 装 入 和 检查 该 预测 链 。 

最 后 ,我 们 考虑 在 一 个 上 下 文中 发 生 异 常 的 情况 。 一 种 选择 是 使 得 该 上 下 文 为 就 绪 而 让 
位 于 异常 处 理 ， 并 使 得 异常 处 理 与 其 他 的 上 下 文 交 蔡 执 行 (Tera 采用 了 类 似 的 方法 )。 在 这 
种 情况 下 ， 另 一 用 户 线程 也 可 能 发 生 异 常 ， 因 而 异常 处 理应 支持 多 个 异常 发 生 的 情况 。 另 一 
种 选择 是 ， 当 任何 上 下 文中 有 异常 发 生 时 ,使 得 所 有 的 上 下 文 为 就 绪 ， 排 空 流水 线 中 的 所 有 
指令 ， 当 异常 返回 时 再 使 能 所 有 上 下 文 。 但 当 异 常 频繁 时 ， 这 会 降低 性 能 。 这 也 意味 着 当 异 
常 发 生 时 ， 所 有 活动 上 下 文 的 (异常 PC EPC) 应 装 人 其 对 应 线程 的 第 一 个 未 完成 的 指令 。 
这 比 阻塞 方式 更 加 复杂 ，、 在 阻塞 方式 时 只 需要 保存 当前 正 执行 (发 生 异 常 ) 线程 的 EPC 








918 


919 


662 Hit BK RAH 











920 








3. 控制 

BR PC 单元 之 外 的 与 控制 相关 的 两 个 有 兴趣 的 问题 是 : 如 何 追 踪 上 下 文 的 有 效 性 信息 以 
及 提供 给 PC 单元 ; 每 个 处 理 器 周期 如 何 选择 并 切换 到 下 一 个 上 下 文 。“ 上 下 文 有 效 ” 信 号 
在 缓存 扑 空 时 被 修改 ， 或 被 扑 空 返回 时 的 回 退 及 停滞 操作 修改 。 缓 存 扑 空 导致 的 有 效 状态 可 
通过 每 个 上 下 文 的 挂 起 扑 空 寄存 器 来 追踪 ， 该 寄存 器 在 扑 空 时 装 人 ， 在 扑 空 返回 时 检查 并 使 
能 适当 的 上 下 文 。 对 于 显 式 回 退 指令 ， 我 们 可 为 每 个 上 下 文保 持 一 个 计数 器 ， 遇 到 回 退 指令 
时 初始 化 成 回 退 值 (此 时 上 下 文 的 有 效 信 号 也 清除 )。 该 计数 器 每 个 周期 减 1， 当 减 到 0 时 
该 上 下 文 的 有 效 信号 重新 置 位 。 

回 退 指令 也 可 以 用 来 隐藏 指令 时 延 ， 但 是 在 交替 多 线程 方式 中 很 难 选择 一 个 好 的 回 退 周 
期 数 。 由 于 编译 可 透明 地 重新 安排 指令 ， 这 种 情况 就 变 得 更 加 复杂 。 随 着 处 理 器 的 更 新 换 
代 ， 这 种 回 退 值 在 不 断 改 变 。 幸 运 的 是 ， 短 指令 时 延 常常 被 其 他 上 下 文 的 交替 自然 地 隐藏 ， 
而 不 用 回 退 指令 ， 如 图 11-30 所 示 。 对 长 指令 时 延 的 更 好 的 解决 还 依赖 于 更 多 的 上 下 文 ， 如 
计 分 板 技 术 。 

至 于 选择 下 一 个 上 下 文 ， 一 个 合理 的 方法 是 根据 上 下 文 的 有 效 程度 按照 round-robin 算法 
选择 。 

11.7.5 在 多 发 布 处 理 器 中 集成 多 线程 


到 目前 为 止 ， 我 们 讨论 的 多 线程 与 一 个 周期 发 射 的 操作 数 是 正 交 的 。 而 Tera 系统 中 每 
个 周期 发 送 三 条 指令 ， 其 单线 程 中 的 多 指令 的 包装 (成 一 个 宽 指 令 ) 是 通过 编译 来 实现 的 ， 
硬件 所 做 的 工作 是 每 周期 从 单个 线程 中 选 出 一 个 三 操作 的 指令 。 单 个 的 线程 常常 没有 足够 的 
指令 级 并 行 性 以 填 满 每 周期 的 时 间 片 ， 现 代 处 理 器 中 已 经 如 此 ;然而 随 着 每 周期 发 送 更 多 的 
指令 ， 这 种 情况 会 变 得 更 严重 。 当 存在 多 个 线程 时 ， 一 个 自然 的 想法 是 每 个 周期 发 送 来 自 不 
同 线程 的 指令 ， 这 样 可 更 有 效 地 填充 发 送 时 间 片 。 这 种 方法 称 为 并 发 多 线程 (simultaneous 
multithreading) 而 且 已 有 很 多 的 研究 (Hirata et al. 1992; Tullsen, Eggers, and Levy 1995)。 并 
发 多 线程 与 交替 多 线程 类 似 ， 只 是 每 个 周期 来 自 不 同 有 效 线程 中 的 操作 竞争 使 用 发 射 时 间 片 
以 及 功能 部 件 。 

男 一 方面 ， 传 统 的 多 发 射 处 理 器 对 效率 的 影响 来 自 两 个 方面 。 第 一 ， 由 于 在 单线 程 中 发 
现 指令 级 并 行 的 能 力 有 限 ， 因 而 并 不 是 所 有 的 时 间 片 都 能 填 满 。 第 二 ， 由 于 长 时 延 指 令 而 使 
得 很 多 周期 没有 事情 可 调度 。 简 单 的 多 线程 只 致力 于 第 一 个 问题 ， 而 并 发 多 线程 则 致力 于 两 
者 的 解决 〈 如 图 11-35 Aras). 

对 于 编译 来 说 ， 在 同一 周期 从 不 同 的 线程 中 选择 操作 来 调度 可 能 是 很 困难 的 ， 但 在 动态 
调度 的 微 处 理 器 中 已 支持 很 多 这 样 的 机 制 。 取 指 单元 必须 扩展 成 能 在 一 个 周期 从 多 个 上 下 文 
中 取 操 作 ， 并 放 人 重 排 缓冲 区 中 ; 不 管 来 自 于 哪个 上 下 文 ， 发 送 逻 辑 可 从 该 缓冲 区 中 选择 指 
令 发 送 。 对 多 发 射 动态 调度 单线 程 处 理 器 的 研究 表明 ， 空 闲 周 期 和 空闲 时 间 片 在 长 时 延 指 
令 、 缓 存 扑 空 、TLB 扑 空 以 及 装 人 时 间 片 (其 中 前 两 个 尤其 重要 ) 中 具有 很 好 的 分 布 。 时 间 
浪费 和 时 延 原 因 的 多 样 性 显示 细 力 度 多 线程 是 一 个 不 错 的 方案 。 

除了 在 交替 多 处 理 器 中 讨论 的 发 送 外 ， 在 实现 并 发 多 线程 处 理 器 时 还 会 遇 到 几 种 新 的 问 
a (Tullsen et al.1996)。 第 一 ， 从 不 同 的 线程 中 取 指 的 灵活 性 究竟 有 多 大 ?灵活 性 越 大 (对 
比 于 在 一 个 周期 内 从 单个 上 下 文中 取 , 或 在 一 个 周期 从 单个 线程 中 最 多 取 两 个 操作 ) , 取 值 
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RF b) (交叉 的 ) 多 线程 c) 间 时 发 生 的 
8 ) 单 线程 的 多 线程 的 
图 11-35 同时 并 行 的 多 线程 。 图 中 说 明了 在 4 发 射 的 处 理 器 中 简单 的 交替 多 线 
程 和 同时 并 行 多 线程 潜在 的 性 能 改进 情况 。 阴 影 部 分 以 及 方 框 中 的 不 
人 间 岁 案 用 来 区 分 不 同 的 操作 与 线程 ， 空 白 方 框 表示 空闲 指令 时 陈 


逻辑 与 指令 缓存 设计 就 越 复 杂 。 然 而 ， 更 多 的 灵活 性 会 减 小 空闲 取 指 时 间 片 的 频率 。 第 二 ， 
如 何 选择 下 一 个 要 取 指 的 上 下 文 ? 我 们 可 以 按照 固定 的 特权 顺序 选择 上 下 文 〈 例 如 ， 可 以 先 
选择 上 下 文 0 填充 指令 ， 再 选择 上 下 文 1 等 等 )， 也 可 以 按照 上 下 文 的 执行 信息 来 选择 CB 
W, 给 定 当前 在 取 指 单元 或 重 排序 缓冲 中 指令 最 少 的 上 下 文 最 高 的 优先 级 ， 或 者 给 定 当 前 未 
处 理 完 的 缓存 扑 空 最 少 的 上 下 文 最 高 的 优先 级 )。 最 后 ， 每 个 周期 如 何 从 重 排 缓冲 中 选取 就 
绪 的 操作 ? 在 动态 调度 处 理 器 中 的 标准 实现 是 选择 最 老 的 就 绪 操 作 ， 其 他 的 选择 ， 如 基于 操 
作 属于 的 线程 以 及 线程 的 行为 等 ， 可 能 更 适合 这 种 情况 。 

有 关 多 处 理 器 上 下 文中 的 并 发 多 线程 的 性 能 数据 非常 少 。 对 于 单 处 理 器 的 性 能 收益 以 及 
刚才 讨论 的 折 中 方案 的 对 性 能 的 影响 研究 发 现 该 技术 很 有 希望 ， 而 且 与 动态 调度 的 单线 程 处 
理 器 相 比 ， 并 发 多 线程 中 对 推测 执行 的 支持 并 不 重要 ， 这 是 因为 存在 更 多 的 有 效 线程 ， 因 而 
可 能 有 非 推测 的 指令 可 选择 (Tullsen et al. 1996). 

总 之 ， 随 着 数据 访问 和 同步 时 延 相 对 于 处 理 器 的 速度 在 逐渐 增 大 ， 在 多 处 理 器 中 应 用 程 
序 的 数据 访问 的 模式 越 来 越 复杂 而 且 不 可 预测 (多 处 理 在 不 断 成 熟 并 扩展 )， 多 线程 在 隐藏 
时 延 方面 越 来 越 成 功 。 多 线程 是 否 在 实际 中 与 微 处 理 器 结合 依赖 于 许多 因素 ， 例 如 是 否 使 用 
其 他 的 时 延 包容 技术 〈 如 预 取 ， 动 态 调度 ， 放 松 一 致 模型 等 ) ， 以 及 多 线程 技术 如 何 与 之 相 

合 。 鉴 于 多 线程 要 求 额外 的 显 式 线程 、 强 烈 的 复杂 度 以 及 状态 的 复制 ， 一 个 有 意义 的 选择 
是 将 多 个 简单 的 处 理 器 集成 在 一 个 芯片 上 ， 不 同 的 线程 在 不 同 的 处 理 器 上 执行 。 此 时 定性 的 
平衡 是 比较 清楚 的 ， 但 无 论 作为 桌面 系统 还 是 多 处 理 器 的 单 节点 ， 在 耗费 和 性 能 方面 如 何 与 
并 发 多 线程 相 比 较 还 不 是 十 分 清楚 。 

表 11-2 总 结 并 比较 了 在 共享 地 址 空间 中 隐藏 时 延 的 4 种 主要 技术 的 一 些 关键 特征 ， 这 
在 11.4~11.7 节 中 已 经 讨论 过 。 这 些 技术 可 以 并 且 常 常 混合 使 用 。 例 如 ， 读 阻塞 的 处 理 器 
可 利用 放松 一 致 性 模型 隐藏 写 时 延 ， 可 用 预 取 或 多 线程 隐藏 读 时 延 。 而 且 我 们 已 经 看 到 动态 
调度 处 理 器 可 从 预测 、 放 松 一 致 模型 以 及 多 线程 中 分 别 获 益 。 在 动态 调度 处 理 器 中 这 些 技术 
如 何 相互 作用 、 甚 至 在 读 阻 塞 处 理 器 中 预 取 与 多 线程 如 和 何 互 补 ， 随 着 处 理 器 速度 与 数据 访问 
时 延 的 差距 增 大 ， 这 些 技术 如 何 成 功 隐藏 时 延 ， 这 些 问 题 可 能 在 将 来 会 很 清楚 。 
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表 11-2 共享 地 址 空间 中 4 种 时 延 包 容 技术 的 关键 性 质 





性 质 放松 模型 预 R 多 线程 成 块 数据 传送 
race ES G (Mae GR 写 、 读 同步 写法 
处 理 器 ) 读 和 指令 
写 (动态 调 
度 ， 处 理 器 ) 
软件 需求 标注 同步 操 可 预测 性 显 式 额外 的 识别 并 协调 成 志 
作 并 发 性 传送 
额外 硬件 支持 几乎 不 要 几乎 不 要 很 大 在 处 理 器 中 没有 
但 在 存储 系统 中 要 
有 成 块 传送 器 
在 商用 微 处 理 器 中 是 否 A 有 目前 没有 不 需要 
提供 支持 
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11.8 免 锁 定 的 缓存 设计 


通过 本 章 我 们 已 经 看 到 ， 除 了 处 理 器 需要 的 支持 ( 男 加 的 带宽 以 及 存储 和 通信 系统 较 低 
的 占用 率 ) 之 外 ， 共 享 地 址 空间 中 的 几 种 时 延 包 容 技术 的 有 效 性 要 求 缓存 一 次 允许 多 个 扑 空 
挂 起 。 在 引出 本 章 的 结论 之 前 ， 我 们 首先 看 一 看 这 样 的 免 锁 定 绥 存 的 设计 。 
在 允许 多 个 待 完 成 扑 空 的 缓存 子 系统 中 有 几 个 关键 的 设计 问题 : 
”多 少 以 及 哪 种 扑 空 允许 同时 处 于 待 完成 状态 ”与 处 理 器 一 样 ， 同 时 允许 多 个 写 比 多 
个 读 更 容易 。 复 杂 度 上 的 两 个 不 同 点 是 : 1) 单个 读 多 个 写 ，2) MER, 
”如 何 跟踪 多 个 未 完成 的 扑 空 v 对 于 读 ， 我 们 需要 跟踪 的 是 : 字 请 求 的 地 址 ， 读 请 求 
的 种 类 (例如 ， 读 、 独 占 读 、 预 取 、 单 字 读 、 双 字 读 等 )， 返 回 数据 的 位 置 (返回 处 
理 锅 的 哪个 寄存 器 ， 当 多 个 处 理 器 共享 缓存 时 返回 到 哪个 处 理 器 )， 未 完成 请 求 的 当 
前 状态 。 对 于 写 来 说 ,不 需要 跟踪 返回 数据 ,但 要 写 的 新 数据 必须 与 存储 结构 中 下 
一 层 (MRA) 的 返回 数据 块 相 结 合 。 其 中 一 个 关键 问题 是 是 否 存储 缓存 块 内 部 的 
大 部 分 信息 ， 或 者 为 未 完成 的 扑 空 设 置 一 组 事务 缓冲 。 当 然 ， 在 履行 这 些 要 求 的 过 
程 中 ， 我 们 需要 保证 设计 不 存在 死 锁 或 活 锁 。 
”如 何 处 理 对 同一 内 存 块 多 个 未 完成 访问 的 冲突 ? 哪 种 类 型 的 冲突 扑 空 是 不 允许 的 
( 例 ， 停滞 处 理 器 )? 例如 ， 是 否 当 读 扑 空 未 完成 时 允许 对 同一 块 的 写 ? 
"” 当 多 个 未 完成 的 请 求 映射 到 同一 个 缓存 行 造 成 冲突 时 ， 即使 它们 指向 不 同 的 存储 块 ， 
如 何 处 理 ? 
为 了 说 明 这 些 选 项 ， 我 们 先 考察 两 种 不 同 的 设计 。 这 些 设 计 的 主要 区 别 在 于 如 何 保存 跟 
踪 未 完成 扑 空 的 信息 。 第 一 种 设计 使 用 一 组 分 离 的 事务 缓冲 区 来 跟踪 请 求 。 第 二 种 设计 尽 可 
能 使 用 缓存 块 本 身 跟 踪 未 完成 的 扑 空 。 
第 一 种 设计 是 用 在 巨型 机 Control Data Corporation’s Cyber 835 中 的 简化 版 本 ， 它 是 在 1979 
年 提出 的 〈Kmft 1981)。 该 设计 在 缓存 中 增加 了 几 个 扑 空 状态 保持 寄存 器 (MSHR)， 以 及 一 
些 相关 逻辑 。 每 个 MSHR 处 理 一 个 以 上 的 对 单个 存储 块 的 待 完成 扑 空 。 这 种 设计 在 对 同一 块 
的 并 发 处 理 上 允许 相当 大 的 灵活 性 ， 因 而 每 个 MSHR 存储 了 大 量 的 状态 信息 ， 如 表 11-3 
所 示 。 
在 常规 缓存 中 对 MSHR 的 访问 是 并 行 的 。 若 在 缓存 中 访问 命中 , 则 执行 一 般 的 命中 行为 ; 
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R 11-3 MSHR 状态 顶 及 其 作用 





R O S m: 日 ”的 
高 速 缓存 块 指针 分 给 本 请 求 的 高 速 缓存 块 指针 在 组 相 联 高 速 缓存 中 指定 一 组 中 的 
一 行 
请 求 地 址 挂 起 请 求 的 地 址 允许 请 求 合作 
单位 标识 标签 〈 每 字 一 个 ) 识别 处 理 器 中 的 请 求 单元 给 出 返回 本 字 的 位 置 
发 向 CPU 的 状态 (每 字 一 个 ) 单元 标识 标签 的 有 效 位 指出 本 单元 四 标签 是 否 有 效 
部 分 写 代码 (每 字 一 个 ) 跟踪 对 一 个 字 进 行 了 部 分 写 操作 。 ”从 存储 器 返回 哪个 字 来 覆盖 
的 位 向 量 
有 效 指示 有 效 MSHR 的 内 容 内 容 有 效 吗 





当 缓存 访问 扑 空 时， 其 采取 的 行动 依赖 于 MSHR 的 内 容 : 
“如 果 对 于 该 块 没 有 分 配 MSHR， 则 分 配 一 个 新 的 MSHR 并 初始 化 〈 若 没有 可 用 的 
MSHR， 或 者 改组 所 有 的 缓存 行 都 具有 未 决 的 请 求 ， 则 处 理 器 停滞 )。 若 当前 扑 空 的 组 
存 行 包 含 脏 数据 ， 则 启动 回 写 。 然 后 ， 若 处 理 器 请 求 是 写 操作 ， 则 数据 写 进 该 缓存 块 
的 正确 偏 移 地 址 ， 同 时 设置 MSHR 中 的 相应 的 部 分 写 编 码 位 。 另外 也 要 发 请 求 从 主 存 
FAB 〈 例 如 ，BusRd，BusRd X) 中 取出 该 块 ， 并 放 入 缓存。 
。 若 该 缓存 块 的 MSHR 已 经 分 配 ， 则 该 新 的 请 求 与 以 前 对 同一 块 的 请 求 合并 。 例 如 ， 
一 个 新 的 写 请 求 可 通过 向 已 分 配 的 缓存 块 写 数据 ， 并 设置 MSHR 中 的 部 分 写 位 来 合 
并 。 对 一 个 字 的 读 请 求 ， 若 该 字 已 经 被 以 前 的 写 操作 号 人 时 ， 可 通过 对 缓存 数据 的 
简单 读 而 完成 。 当 读 请 求 的 字 不 曾 被 访问 时 ， 则 简单 地 设置 适当 的 单元 标志 ; 当 该 
字 已 经 被 请 求 过 时 ， 则 或 者 必须 分 配 一 个 新 的 MSHR (因为 每 个 字 只 有 一 个 单元 标 
A), 或 者 必须 停顿 处 理 器 。 由 于 写 不 需要 单元 标志 ， 当 对 一 个 已 经 处 于 挂 起 状态 的 
字 进 行 写 请 求 时 ， 其 处 理 是 较 容 易 的 : 从 存储 器 返回 的 数据 可 直接 转发 给 处 理 器 。 
当然 ， 对 一 个 块 的 第 一 次 写 操作 会 产生 独占 所 有 权 的 请 求 。 

最 后 ， 当 某 块 的 数据 返回 缓存 时 ，MSHR 中 的 缓存 块 指针 应 表明 将 数据 放 在 哪里 。 其 中 
的 部 分 写 编码 可 以 用 来 避免 对 最 近 写 过 的 缓存 数据 重 写 ， 发 给 中 央 处 理 器 (send-to-CPU) 位 
以 及 单元 标志 用 来 对 等 待 功能 单元 的 直接 回应 。 

这 种 设计 需要 对 MSHR 进行 相 联 查 找 ， 但 可 允许 缓 存 支持 不 同 种 类 的 存储 访问 同时 进 
行 。 幸 运 的 是 ， 由 于 MSHR 对 给 定 的 块 履 行 着 合并 以 及 分 开 的 复杂 任务 ， 对 于 扩展 存储 结构 
中 的 以 下 部 分 来 说 就 好 像 来 自 处 理 器 的 对 不 同 块 的 请 求 。 前 面 章节 讨论 过 的 一 致 性 协议 在 设 
计 上 已 经 能 非 死 锁 地 处 理 这 些 对 不 同 块 的 多 个 待 完 成 的 请 求 。 

该 设计 的 另 一 个 选择 是 将 与 未 完成 的 写 请 求 有 关 的 状态 保存 在 缓存 行 本 身 ， 而 不 用 独立 
的 MSHR。 在 写 返回 缓存 中 除了 标准 的 MESI 状态 外 ， 我 们 又 增加 了 3 个 临时 的 或 挂 起 的 状 
D: 无 效 挂 起 (IP)， 共 享 挂 起 (SP)， 独 占 挂 起 (EP)， 这 些 状 态 表明 当 目 前 的 写 扑 空 (未 
完成 ) 发 出 后 块 的 状态 。 每 个 状态 中 ， 缓 存 标记 是 有 效 的 ， 缓 存 块 正 在 等 待 来 自 存储 系统 的 
数据 。 每 个 缓存 块 具 有 一 个 子 块 写 比 特 (SWB) 的 向 量 ， 每 个 字 对 应 于 一 位 。 在 SP 和 EPR 
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态 中 ， 打 开 的 位 表明 该 字 由 于 存储 请 求 而 被 处 理 器 写 过 ， 这 些 被 写 过 的 数据 不 应 当 重 写 。 然 
而 ， 对 于 关 掉 的 比特 对 应 的 那些 字 ， 在 EP 状态 中 表示 无 效 ， 而 在 SP 状态 中 则 表示 有 效 〈 没 
过 时 )。 最 后 ， 需 要 一 组 独立 的 挂 起 读 寄存 器 以 保持 挂 起 读 请 求 的 地 址 和 类 型 。 

保持 每 个 块 的 额外 状态 信息 的 重要 优点 在 于 : 在 跟踪 写 挂 起 请 求 时 不 需要 另 加 的 存储 。 
当 一 个 写 操作 发 现 对 应 的 块 不 处 于 修改 状态 时 ， 则 该 块 简单 地 进 八 适当 的 挂 起 状态 ， 发 起 相 
应 的 事务 ， 并 设置 SWB 位 以 表明 当前 写 改变 了 哪些 字 ， 这 可 使 得 后 续 的 归并 可 正确 地 产生 。 
当 写 时 发 现 其 对 应 的 块 正 处 于 挂 起 状态 时 ， 只 要 求 将 该 字 写 人 该 行 ， 并 设置 相应 的 SWB 位 
为 打开 状态 。 读 操作 可 能 使 用 读 挂 起 寄存 器 。 当 读 操 作 发 现 目的 数据 字 在 块 中 处 于 有 效 状态 
时 (包括 一 个 SWB 位 打开 的 挂 起 状态 ) ， 则 简单 地 返回 数据 即 可 ; 否则 ， 将 该 赎 操 作 放 人 被 
跟踪 的 读 挂 起 寄存 器 中 。 

若 被 读 写 访问 的 块 不 在 缓 在 中 〈 没 有 与 之 匹配 的 标记 ) 时 ， 则 可 能 产生 回 写 。 该 块 设置 
成 无 效 的 挂 起 状态 ， 所 有 该 块 的 SWB 读 关 掉 (除非 当 写 操作 时 被 写 的 那些 字 )， 在 总 线 上 蔡 
换 相应 的 事务 。 奎 没有 匹配 标记 而 且 该 块 已 经 处 于 挂 起 状态 ， 于 是 处 理 嚣 停滞。 最后， 当 一 
个 正 进行 的 请 求 返回 时 ， 则 更 新 相应 的 缓存 块 ( 除 了 其 SWB 位 打开 的 那些 字 外 ); 此 时 该 组 
存 块 离开 挂 起 状态 。 所 有 的 读 挂 起 寄存 器 都 检查 该 块 是 否 是 其 正 等 待 的 块 ; 车 是 ， 则 向 其 请 
求 返 回 这 些 数据 并 写 进 那 些 挂 起 的 寄存 器 。 实 际 状态 变化 、 行 为 以 及 竞争 条 件 的 细节 参照 文 
献 (Laudon 1994)。 使 得 竞争 条 件 相对 容易 处 理 的 关键 是 要 看 到 ， 即 使 在 所 有 权 得 到 之 前 应 
完成 对 缓存 块 的 写 操作 ， 这 些 字 对 其 他 处 理 器 的 请 求 再 得 到 所 有 权 之 前 也 是 不 可 见 的 。 

总 之 ， 这 两 种 免 锁 定 缓存 设计 并 没有 概念 性 的 区 别 。 后 者 将 写 操 作 的 状态 保存 在 缓存 块 
中 而 减少 了 挂 起 寄存 器 的 数量 以 及 相连 查找 的 复杂 度 ; 然而 ， 它 比 MSHR 具有 更 强 的 存储 敏 
感性 ， 即 使 其 中 只 有 少数 同时 具有 待 完 成 的 请 求 ， 但 所 有 行 的 状态 都 保存 在 缓存 中 。 两 种 情 
况 下 与 其 他 协议 的 正确 操作 是 类 似 的 ， 而 且 要 适度 。 


11.9 结论 


随 着 处 理 器 与 存储 器 以 及 通信 在 速度 上 的 差距 不 断 增加 ， 时 延 包 容 在 将 来 的 多 处 理 器 
(包括 单 处 理 器 ) 中 越 来 越 关键 。 目 前 已 经 开发 了 多 种 时 延 包容 技术 ， 每 种 也 具有 各 自 的 优 
缺点 。 这 些 技术 都 要 求 应 用 中 的 并 行 性 多 于 使 用 的 处 理 器 数 ， 而 且 都 对 通信 体系 结构 带宽 提 
出 增强 的 要 求 。 这 种 越 来 越 大 的 压力 使 得 通信 体系 结构 其 他 方面 性 能 (如 处 理 器 开销 、 辅 助 
占用 开销 、 网 络 带 宽 ) 的 有 效 性 和 负载 平衡 更 加 重要 。 例 如 ， 由 于 发 生 主 处 理 器 上 的 开销 不 
能 由 该 处 理 器 隐藏 ， 如 果 该 开销 是 由 数据 访问 时 延 的 关键 部 分 造成 的 ， 那 么 除了 增 大 消息 外 
的 其 他 时 延 包 容 技术 是 很 难 奏效 的 。 

对 于 缓存 一 致 性 的 处 理 器 ， 时 延 包容 技术 是 由 处 理 器 和 缓存 存储 系统 硬件 来 支持 的 ， 在 
设计 上 具有 广泛 的 选择 。 大 多 数 硬件 支持 的 时 延 包 容 技术 也 是 适应 单 处 理 器 的 ; 事实 上 这 些 
技术 在 商业 上 的 成 功 依赖 于 它们 在 隐藏 小 时 延 的 高 端 单 处 理 器 的 生存 力 。 像 动态 调度 、 放 松 
同一 性 模型 以 及 预 取 等 技术 在 今天 的 微 处 理 器 体系 结构 中 是 经 常 遇 到 的 。 最 通用 的 时 延 隐藏 
技术 一 一 多 线程 ~- 一 在 商业 上 还 不 是 很 流行 ， 很 大 程度 上 是 因为 它 往 单 处 理 器 上 还 没有 得 到 
检验 。 近 来 将 多 线程 集成 于 超标 量 处 理 器 中 进行 动态 调度 的 方向 看 来 很 有 希望 ， 但 与 单个 芯 
片上 集成 多 个 简单 处 理 器 还 难以 比较 。 大 家 感 兴趣 的 一 个 常见 问题 是 ; 在 单 处 理 器 中 的 时 延 
隐藏 在 多 处 理 器 中 的 成 功 程度 究竟 如 何 。 
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不 管 问 题 有 多 少 以 及 硬件 支持 的 选择 如 何 ， 目 前 很 多 时 延 隐藏 问题 也 是 软件 问题 。 编 译 


自动 预测 到 何 种 程度 就 可 使 用 户 不 再 担心 呢 ? 如果 不 可 能 自动 化 到 理想 程度 ， 那 么 用 户 将 向 
编译 传递 什么 信息 呢 ? 如 果 块 传送 在 缓存 一 致 性 机 器 中 确实 有 用 ,那么 用 户 如 何 对 这 种 既 有 
隐 式 的 读 写 通信 又 有 显 式 的 块 传送 的 混合 模式 来 编程 呢 ? 放松 一 致 模型 本 身 也 存在 指定 重 排 
的 适当 信息 的 软件 问题 〈 例 如， 按照 需要 标记 出 冲突 操作 等 )。 最 后 ， 程 序 是 否 被 分 解 并 分 
配 已 具有 多 线程 所 需要 的 足够 的 显 式 并 行 性 〈 额 外 线程 )? 使 支持 时 延 包 容 的 软件 自动 化 和 
简化 方面 还 远 远 没 有 完成 。 事 实 上 ， 时 延 包 容 技 术 在 将 来 如 何 发 挥 作用 ， 以 及 它们 需要 什么 
样 的 软件 支持 ， 依 然 是 并 行 体系 结构 中 一 个 有 意义 的 开放 问题 。 


习题 


11.1 
11.2 


11.3 
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从 通常 的 意义 上 讲 ， 为 什么 时 延 减 小 比 时 延 包容 的 想法 好 ? 

假定 一 个 处 理 器 在 传输 m 个 等 大 小 消息 时 ， 通 信 量 为 上 个 字 ， 处 理 消 息 时 通信 辅助 
占用 的 开销 为 。， 处 理 器 上 没有 开销 。 当 只 有 通信 (而 非 计算 ) SABO, Rb 
理 需 所 见 的 最 好 情况 的 时 延 ? 首先 假定 通信 没有 确认 信息 〈 即 ， 了 瞬间 传 播 旦 不 发 生 任何 
开销 )， 然 后 有 具有 确认 信息 。 画 出 时 空 图 ， 并 说 明 其 中 重要 的 假定 。 

你 已 经 学 了 不 少 在 共享 存储 多 处 理 器 中 进行 时 延 包 容 和 隐藏 的 技术 。 这 些 技术 包括 成 
块 、 预 到、 多 上 下 文 处 理 器 以 及 放松 同一 性 模型 ， 针 对 下 面 的 每 一 种 情况 ， 对 每 种 技 
术 ， 讨 论 它们 是 否 能 有 效 地 减少 隐藏 时 延 。 假 设 我 们 讨论 的 处 理 器 具有 成 块 读 的 能 力 
并 列举 你 所 作 的 任何 其 他 假设 。 

1) 一 个 复杂 的 图 算法 ， 它 有 大 量 并 行 性 的 并 用 链接 指针 结构 表示 。 

2) 一 个 并 行 排序 算法 ， 其 中 通信 由 生产 者 发 起 ， 并 通过 大 时 延 写 操作 实现 。 不 可 以 

做 接收 方 发 起 的 通信 。 

3) 一 种 迭代 方程 求解 器 ， 其 中 内 层 循环 由 矩阵 x 矩阵 构成 ， 假 设 两 个 矩阵 都 很 大 ， 

不 能 放 在 高 速 缓存 中 。 

你 将 负责 在 一 种 新 的 并 行 超 级 计算 机 上 实现 消息 传递 。 该 机 器 的 体系 结构 还 没有 解 
决 ， 由 于 目前 体系 结构 要 运行 前 代 机 器 体系 结构 上 运行 的 消息 传递 应 用 程序 ， 你 的 上 
司 说 是 否 提供 硬件 缓存 一 致 性 支持 依赖 于 在 两 种 系统 上 运行 的 消息 传递 的 性 能 。 在 没 
有 缓存 一 致 性 (“NCC” 系 统 ) 的 系统 中 ， 你 们 组 的 工程 师 告诉 你 消息 传递 在 实现 时 
应 支持 连续 传送 1 KB。 为 了 避免 在 接收 方 的 缓冲 出 现 问题 ， 在 开始 下 一 次 消息 传播 
前 ， 应 该 对 每 个 单个 的 1 KB 传送 发 送 一 个 确认 (因此 每 次 只 有 一 个 块 在 进行 中 )。 每 
1 KB 传送 需要 200 周期 的 建立 时 间 ， 之 后 开始 进入 网 络 。 该 开销 主要 包括 确定 读 内 存 
缓冲 区 的 位 置 以 及 建立 DMA 引擎 的 时 间 ， 该 引擎 执行 传输 操作 。 假 定 1 KB 的 块 到 达 
目的 节点 后 ， 需 要 20 个 周期 产生 应 答 ， 而 且 在 发 送 方 需要 50 个 周期 接受 确认 后 才 启 
动 下 一 个 1 KB 的 传送 。 

在 具有 缓存 一 致 性 的 系统 (“CC” 系 统 ) 中 ， 消 息 是 按照 一 系列 128 字 节 的 缓存 
行 发 送 的 。 然 而 在 这 种 情况 下 ， 只 需 在 每 4 KB 页 的 末尾 发 送 确认 。 这 里 ， 每 次 传送 
需要 50 个 周期 的 建立 时 间 ， 期 间 可 以 提取 出 一 个 缓存 行 ， 如 果 需 要 也 可 保持 缓存 的 
同一 性 。 该 行 然后 发 送 给 网 络 ， 只 有 该 行 完全 发 送 到 网 络 时 ， 才 能 处 理 下 一 行 。 

下 面 是 系统 参数 : 时 钟 频率 = 10 ns (100 MHz)， 网 络 时 延 = 30 个 周期 ， 网 络 带 宽 
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11.5 





= 400 MB/s。 甚 他 假定 任意 。 

1) 在 NCC 系统 中 对 于 4 KB 的 消息 来 说 ， 其 时 延 (直到 目的 节点 收 到 最 后 一 个 字 节 ) 
和 得 到 的 带宽 是 多 少 ? 

2) 在 CC 系统 中 相应 的 时 延 和 带宽 是 多 少 ? 

3) 一 个 团队 的 设计 者 向 你 说 明 你 可 以 很 容易 地 改动 该 CC 系统 ， 使 得 前 一 个 消息 在 发 
送 到 网 络 的 同时 ， 下 一 行 就 可 以 处 理 。 在 这 样 的 修改 后 的 CC 系统 中 ,计算 4 KB 
的 消息 时 延 。 

考虑 一 个 并 行 数据 矩阵 转 置 的 例子 ， 如 高 性 能 快速 傅立叶 变换 中 的 计算 。 图 11-36 显 

示 了 转 置 的 插图 。 每 个 处 理 器 转 置 其 分 配 行 的 一 块 并 传送 给 其 他 处 理 器 ， 其 中 也 包括 

它 自 己 。 通 过 读 写 执 行 转 置 已 在 第 8 章 的 习题 中 讨论 过 。 由 于 一 个 处 理 器 将 数据 发 送 

给 哪些 处 理 器 是 完全 可 预测 的 ， 因 此 处 理 器 可 一 次 在 一 个 单个 消息 里 发 送 一 整体 块 ， 

而 不 是 通过 单个 的 读 写 缓存 扑 空 来 传送 每 个 块 。 

1) 你 希望 块 传输 性 能 相对 于 读 写 性 能 的 曲线 是 什么 样 的 ? 

2) 该 块 传送 机 制 最 得 益 于 什么 特殊 特点 ? 

3) 编写 该 块 传输 形式 的 伪 代 码 。 

4) 假设 你 想 在 Raytrace 应 用 中 使 用 该 块 数据 传送 。 使 用 它 的 目的 是 什么 ， 如 何 使 用 ? 
你 认为 会 得 到 重大 的 收益 么 ? 
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图 11-36 ”发送 者 启动 的 矩阵 转 置 。 源 和 目的 nx n 和 矩阵 按照 最 邻 行 分 组 ， 并 分 给 若干 进程 。 每 个 进 
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程 将 自己 的 n/p 行 划分 成 大 小 为 n/p x n/p 的 p 个 碎 块 。 作 为 代表 ， 我 们 考虑 进程 P: € 
向 其 他 每 个 进程 发 送 一 个 碎 块 ， 并 且 转 置 局 部 的 一 个 碎 块 〈 从 左面 数 第 三 个 ) 。 每 个 碎 块 
可 以 作为 一 个 单 块 发 送 消息 ， 而 不 是 通过 单个 的 远程 写 或 远程 读 (如 果 是 接收 者 发 启 的 ) 


在 缓存 一 致 性 共享 存储 空间 的 块 数据 传送 中 ， 一 个 令 人 感 兴趣 的 问题 是 必须 考虑 长 组 

存 块 和 空间 局 部 性 的 影响 。 假 定数 据 块 传送 移动 可 以 平衡 缓存 一 致 性 机 制 。 考 虑 规则 

网 格 (毗邻 通信 ) 中 的 简单 方程 求解 器 。 假 设 n x n 的 网 格 按照 p 个 处 理 器 分 成 方形 

的 子 块 。 

1) 与 本 章 的 FFT 结果 相 比 ， 当 每 个 行 或 列 边界 通过 块 传送 直接 发 送 时 ， 你 希望 该 应 
用 会 有 怎样 不 同 的 曲线 ， 为 什么 ? 
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2) 你 如 何 构建 块 传送 结构 只 发 送 有 用 数据 ”与 前 一 个 相 比 ， 你 希望 此 情况 下 的 性 能 
如 何 ? 

3) 什么 样 的 体系 结构 参数 最 能 影响 2》 部 分 的 平衡 问题 ? 

4) 如 果 你 确实 想 使 用 块 缓存 传送 ， 对 于 并 行程 序 你 希望 做 什么 样 的 深入 改变 呢 ? 

如 果 在 用 阻塞 读 跨 越 写 操作 的 性 能 研究 中 二 级 缓存 是 阻塞 的 ， 那 么 允许 写 到 写 重 排 相 

对 于 不 允许 重 排序 有 什么 好 处 呢 ? 如 果 人 允许 重 排序 ， 是 在 什么 样 的 条 件 下 呢 ? 

1) 写 缓冲 能 允许 几 种 优化 策略 ， 如 缓冲 本 身 ， 将 缓冲 里 对 同一 缓存 行 的 写 归 并 ， 在 

缓冲 里 发 现 匹 配 时 直接 将 缓冲 里 的 值 前 递 给 读 操作 。 在 SC 下 为 了 保持 程序 顺序 ， 

对 于 这 些 优 化 应 当 进 行 什么 样 的 约束 呢 ? 在 处 理 器 一 致 模型 中 雪 并 优化 有 什么 危 

险 呢 ? 

为 了 保持 如 SC 中 的 所 有 的 程序 顺序 ， 我 们 可 以 按照 下 面 的 方法 进行 优化 。 在 基线 

实现 中 ， 写 操作 时 处 理 器 立刻 停顿 ， 直 到 写 操 作 完 成 。 另 一 种 选择 是 将 写 操作 放 

人 缓冲 区 而 处 理 器 不 停顿 。 为 了 维护 写 操作 期 间 的 程序 顺序 ， 写 缓冲 引退 一 个 写 

操作 ( 即 ， 在 存储 结 梅 中 继续 下 传 并 可 能 对 其 他 处 理 器 可 见 ) 仅 在 写 操 作 完 成 之 

后 。 写 到 读 的 顺序 是 通过 在 读 扑 空 时 刷洗 写 缓冲 保持 的 。 

| ) 这 种 优化 提供 什么 样 的 重要 ? 

i) 你 是 否 希望 这 会 产生 大 幅度 的 性 能 提高 ? 能 否 说 出 你 的 理由 ? 

考虑 在 缓存 一 致 性 共享 地 址 空间 中 跨越 存储 操作 的 实现 要 求 。 为 了 跨越 写 操作 ， 我 们 

需要 一 个 写 缓 冲 和 一 个 非 阻塞 的 写 。 为 了 有 效 地 跨越 读 操作 ， 我 们 需要 非 阻塞 读 以 及 

指令 前 脆 和 推测 执行 。 在 存储 系统 级 ， 我 们 需要 允许 多 个 未 完成 扑 空 操 作 的 免 锁 定 组 

存 。 这 些 靠近 处 理 器 的 结构 关心 同一 性 模型 的 维护 ， 扩 展 存储 结构 的 其 他 部 分 可 以 自 

己 重 排 操 作 。 现 在 考虑 下 面 需 要 保持 同一 性 的 机 制 ， 给 定 的 支持 如 下 : 

1) 我 们 需要 的 大 多 数 机 制 必须 确定 一 个 (多 个 ) 操作 的 完成 。 在 读 阻塞 的 处 理 器 中 ， 
为 了 保持 释放 同一 性 ， 与 顺序 同一 性 相 比 我 们 需要 什么 样 的 新 机 制 呢 ?你 打算 采用 
什么 样 的 附加 结构 (GRA) 实现 呢 ? 

2) 假设 在 一 个 写 缓 冲 用 不 同 的 方法 支持 写 重 排 的 处 理 器 中 遇 到 了 一 个 写 到 写 存 储 屏 
障 (MEMBAR)。 该 处 理 回 必须 停顿 么 ?或 者 能 跨越 过 该 存储 屏障 么 ?解释 如 何 提 
供 存储 屏障 指示 的 写 到 写 次 序 ， 什 么 时 候 写 缓冲 和 处 理 器 必须 停顿 ? 

3) 任何 同一 性 模型 中 的 一 个 关键 机 制 是 计数 将 到 的 产生 作废 的 写 的 确认 。 机 器 需要 
做 的 可 以 在 接近 处 理 器 一 方 ， 或 者 在 接近 存储 控制 器 一 方 。 其 主要 的 折 中 是 什么 ， 
在 决定 做 什么 时 有 什么 样 的 经 验 信息 可 以 帮助 ? 

1) 在 缓存 一 致 系统 中 你 能 将 绪 定 的 预 取 提 前 到 什么 时 候 发 送 呢 ? 

2) 我 们 已 经 讨论 了 多 处 理 器 中 非 绑 定 预 取 的 优点 。 在 单 处 理 器 中 非 绑 定 预 玛 比 绑 定 
预 取 具有 哪些 优点 呢 ? 这 里 的 预 取 指 取 进 寄存 器 堆 。 

有 时 要 对 是 否 发 出 预 取 进 行 估计 。 这 就 在 包含 预 取 的 循环 中 引进 了 条 件 表达 式 。 利 

用 伪 代 码 构造 一 个 简单 的 例子 ， 并 阐述 其 中 的 性 能 问题 。 你 如 何 弥 补 该 问题 呢 ? 

前 述 以 下 情况 : 生产 者 发 起 的 传输 操作 比 预 取 或 更 新 协议 更 适当 。 当 你 设计 一 个 机 
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11.15 


11.16 


11.17 
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for i e1 to 200 
sum = sum + Afindex[i]] 
end for 


使 用 非 绑 定 的 软件 控制 的 预 取 插 人 写 一 种 代码 。 包 括 开始 、 软 件 流水 线 移 态 部 
分 和 结尾 。 假 定 存储 时 延 为 5 NORE EAR INE A) (数据 已 经 返回 并 预 取 在 基本 组 
FR). 

1) 对 于 类 似 本 例子 中 的 情形 ， 什 么 时 候 进 行 间接 访问 预 取 ， 需 要 时 可 使 用 额外 指令 
产生 地 址 。 一 种 可 能 是 将 预 取 时 计算 的 地 址 保存 在 寄存 器 里 ， 以 后 装 人 时 再 使 
用 。 这 样 做 有 什么 问题 或 有 什么 缺点 么 ? 

2) 在 向 下 预 取 多 级 的 间接 访问 中 发 生 例 外 时 会 怎样 ? 这 会 带 来 怎样 的 复杂 性 ， 如 何 
来 寻 址 ? 

描述 一 些 能 够 预 取 非 规则 访问 的 的 硬件 机 制 〈 高 层次 上 )， 如 记录 、 列 表 等 。 

在 单 处 理 器 中 为 了 隐藏 时 延 ， 如 何 重 写 下 面 的 循环 : 

for i=0 to 128 { 
for j=1 to 32 
Afi,j] = Bli] * Clq] 
} 

为 了 减 小 开销 ， 尽 量 预 取 哪 些 你 希望 在 缓存 扑 空 的 访问 。 假 定 读 预 取 表 示 为 PRE- 

FETCH (&variable) ， 而 且 预 取 variable 所 在 的 共享 状态 的 缓存 行 。 一 个 读 排 

他 预 取 操作 ， 表 示 为 RE PREFETCH (&variable) ， 预 取 排 他 状态 的 行 。 该 机 器 的 

缓存 扑 空 时 延 为 32 个 周期 。 ou (不 考虑 缓存 块 的 大 小 )。 

假定 缓存 很 大 (不必 考虑 冲突 扑 空 )， 但 是 并 不 足够 大 让 你 在 开始 时 就 预 取 任 何事 

情 。 换 一 名 话说， 我 们 在 寻找 恰巧 能 及 时 预 取 。 和 抢 阵 A? 在 存储 器 中 的 存放 方式 是 A 

li, j] Ma (i, j+1] 相 邻 。 假 定 循 环 中 的 计算 需要 8 个 周期 完成 。 

列举 两 个 例子 。 其 中 ， 当 预 取 编 译 看 到 一 个 同步 操作 非常 保守 时 ， 假 定 什么 都 在 组 

存 中 的 编译 预 取 决策 是 无 效 的 。 此 种 情况 下 程序 员 如 何 能 做 得 更 好 。 本 书 中 的 一 些 

应 用 情况 研究 会 有 所 帮助 。 

预 取 的 一 个 选择 是 使 用 非 阻塞 装 和 操作， 而 且 在 计算 需要 数据 前 发 送 这 些 操作 。 在 

这 种 情形 下 预 取 和 非 阻 塞 装 人 如 何 折 中 ? 

软件 控制 的 预 取 的 实现 问题 可 分 为 两 类 : 指令 集 的 加 强 和 对 未 完成 预 取 的 追踪 。 

1) 预 取 指 令 和 通常 的 指令 有 什么 不 同 ? 

2) 预 取 指 令 的 形式 有 多 种 选择 。 例 如 ， 一 些 体系 结构 允许 装 人 指令 具有 多 种 风格 ， 
一 种 可 为 预 取 保留 。 aa 些 体 系 结构 中 保留 一 个 特殊 的 寄存 器 的 值 总 为 0 P 
MIPS 和 SPARC 体系 结构 ) ， 以 该 寄存 器 为 目的 操作 数 的 指令 解释 为 预 取 指令 
Bela ADEMAR, 第 三 个 选择 是 具有 独立 的 预 取 指 令 ， ns 
装 入 指令 不 同 的 操作 码 。 

i ) 你 认为 哪个 是 最 好 的 选择 ， 为 什么 ? 
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li) 你 会 使 用 什么 样 的 预 取 指令 寻 址 模式 ， 为 什么 ? 

3) 是 否 有 必要 在 处 理 器 内 部 保存 来 完成 的 预 取 状态 ? 这 样 会 增加 性 能 么 ”理由 是 什 
么 ? 你 是 否 会 将 此 种 支持 与 未 完成 写 合并 ? 或 者 使 用 独立 的 结构 呢 ? 讨论 其 中 的 
折 中 问题 。 

考虑 软件 控制 预 取 的 一 些 策略 问题 。 

1) 假设 我 们 对 认为 在 主 (一 级 ) 缓存 中 扑 空 的 访问 发 出 预 取 。 出 现 的 一 个 问题 是 ， 
我 们 在 存储 系统 的 哪 一 层 缓存 (除了 第 一 层 ) 探测 预 取 是 否 满足 ”由 于 编译 算法 
通常 在 调度 预 取 时 保守 地 假定 要 隐藏 的 时 延 是 机 器 中 最 大 的 时 延 (假定 是 没有 争 
议 的 ) ， 一 个 可 能 性 是 甚至 不 探测 缓存 的 中 间 层 ， 而 总 是 假定 从 主 存 或 另 一 个 处 
理 顺 的 缓存 中 得 到 数据 〈 若 该 块 是 脏 的 )。 你 认为 这 种 方法 有 什么 问题 ， 哪 个 是 
最 重要 的 ? 

2) 由 于 预 取 是 暗示 性 的 ， 硬 件 可 以 取消 而 不 影响 正确 性 。 你 会 取消 下 列 的 预 取 吗 ? 
|) 当 发 生 TLB 扑 空 时 ; i) 当 跟 踪 未 完成 存储 操作 (包括 预 取 ) 的 缓冲 区 满 
时 。 哪 种 是 最 关键 的 ? 

考虑 下 面 预 取 到 主 缓存 和 仅 预 取 到 二 级 缓存 的 折 中 问题 。 

1) 在 选择 时 的 定性 折 中 和 问题 是 什么 ?你 如 何 做 ? 

2) 当 预 取 到 一 级 缓存 很 有 好 处 时 ， 仅 仅 使 用 下 面 的 参数 构建 一 个 分 析 表 达 式 。p, 是 
预 取 数 据 到 主 缓存 中 足够 早 时 的 预 取 数 量 ，p。 是 在 使 用 前 预 取 的 数据 从 缓存 移动 
的 情况 数 ，p. 是 珊 取 替换 有 用 数据 的 冲突 数 ，p, 是 预 取 填 充 数 (例如 ， 预 取 将 
数据 放 入 缓存 的 次 数 )，1, 是 对 二 级 缓存 的 访问 时 延 ( 对 主 缓存 的 访问 除外 )，J 
是 预 取 填 充 停顿 处 理 器 的 平均 周期 数 。 确 定好 成 熟 的 通用 表达 式 后 ， 你 的 目标 是 
确定 值得 预 取 到 一 级 缓存 时 的 关于 7 的 条 件 。 为 此 ， 你 可 以 采用 以 下 简单 的 假 
设 : p, = p, -pi WMH p, = ps。 你 的 分 析 怎 样 ， 或 者 遗漏 的 什么 ， 哪 些 使 得 在 实 
际 中 很 难 依赖 该 表达 式 ? 

考虑 一 个 “阻塞 ”的 上 下 文 切换 处 理 器 〈 例 如， 只 有 当 长 时 延 事件 发 生 时 才 切 换 ) 。 

假定 具有 任意 多 的 线程 和 上 下 文 ,， 在 下 面 的 回答 中 要 清楚 地 说 明 一 些 假定 。 某 个 应 

用 的 线程 已 经 分 析 过 ， 其 执行 剖 视 情况 如 下 : 

。40% 的 周期 花费 在 指令 执行 期 ( 忙 周期 ) 

“30% 的 周期 花费 在 L 高 速 缓存 扑 空 停顿 但 L, 高 速 缓 存 命中 (10 个 周期 扑 空 开销 

，30% 的 周期 花费 在 L 高 速 缓存 扑 空 停顿 (30 个 周期 扑 空 开销 ) 

1) 如 果 上 下 文 切换 开销 是 5 个 周期 ， 忙 时 间 是 多 少 ? 

2) 如 忙 时 间 必 须 保证 大 于 等 于 50%， 则 最 大 上 下 文 切换 时 延 是 多 少 ? 

在 阻塞 的 具有 缓存 的 多 上 下 文 的 处 理 器 中 ， 上 下 文 切换 仅仅 发 生 在 缓存 访问 扑 空 时 。 

此 时 阻塞 的 上 下 文 进入 “停顿 ” 状态， 该 状态 保持 到 要 求 的 数据 进入 缓存 。 这 时 ， 

该 上 下 文 进入 “就 绪 ” 状 态 ， 当 活动 的 上 下 文 阻 塞 时 就 允许 其 调度 执行 。 当 一 个 活 

动 的 上 下 文 刚 开始 执行 时 ， 就 发 送 使 其 阻塞 的 访问 。 在 刚 描述 的 模式 中 ， 多 上 下 文 

之 间 的 交互 是 和 否 存 在 潜在 的 死 锁 ? 若 能 ， 举 例 说 明 所 有 上 下 文 都 不 能 前 进 的 例子 。 

你 如 何 防 止 该 种 情况 发 生 ? 若 不 能 ， 说 明理 由 。 
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11.26 
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Ht it RMA RA 


若 考 虑 缓存 扑 空 ， 图 11-25 所 示 的 处 理 器 利用 率 相 对 于 多 线程 深度 的 理想 曲线 会 

RETTAR? 在 理想 曲线 图 中 画 出 该 图 的 更 为 实际 的 曲线 。 

给 定 下 面 的 输入 信号 ， 写 出 确定 在 阻塞 模式 中 是 和 否 发 生 上 下 文 切换 的 逻辑 等 式 : 

缓存 扑 空 或 者 CM， 扑 空 切换 使 能 或 MSE (高 速 缓存 扑 空 的 使 能 切换 ) ， 人 允许 处 

理 器 使 能 切换 的 信号 (CE)， 就 绪 上 下 文 个 数 OneCount (Cvalid)， 显 式 上 下 文 切 

换 指 令 (ES), HET 〈TO)。 写 出 描述 确定 何 时 处 理 咒 应 当 停顿 而 非 切换 的 等 式 。 

在 讨论 阻塞 多 线程 中 实现 PC 单元 时 ， 我 们 认为 例外 PC 以 及 上 下 文 切 换 的 使 用 

意味 着 上 下 文 切换 在 例外 时 非 使 能 。 这 是 否 说 明 内 核 根本 不 能 使 用 硬件 提供 的 

多 线程 9 若是 这 样 ， 为 什么 ?” 若 不 是 ， 则 如 何 管理 内 核 来 使 用 多 个 硬件 的 上 下 

文 呢 ? 

为 什么 异常 处 理 在 交叉 方案 情况 下 要 比 阻塞 方案 复杂 得 多 ?你 会 如 何 处 理 所 引 

起 的 问题 ? 

你 如 何 理解 Tera 处 理 器 可 能 前 脆 跨 越过 转移 指令 ? 该 处 理 器 提供 JUMPOFTEN 和 

JUMP_SELDOM 转移 操作 。 你 为 什么 这 样 想 ? 

考虑 一 个 简单 的 类 似 HEP 无 缓存 的 多 线程 机 器 。 假 定 平均 的 存储 时 延 为 100 个 

时 钟 周 期 。 每 个 上 下 文具 有 阻塞 的 装 人 操作 ， 而 且 机 器 强制 为 顺序 同一 性 。 

1) 假定 一 个 典型 工作 负载 的 20 旬 指令 为 装 人 指令 ，10% 是 保存 指令 ， 为 了 隐藏 
存储 操作 需要 多 少 个 活动 的 上 下 文 ? 

2) 若 机 器 支持 释放 同一 性 模型 要 求 有 多 少 个 上 下 文 (仍然 具有 阻塞 装 和 信 )? 说 
明 所 有 的 假定 。 

3) 我 们 假定 为 阻塞 的 而 非 周期 交 蔡 的 HEP 处 理 器 ，1) 和 2) 又 需要 多 少 个 上 下 
文 呢 ? 假定 装 人 和 保存 的 缓存 命中 率 均 为 90% 。 

4) 对 于 3)， 假定 上 下 文 切换 开销 为 10 个 周期 ， 处 理 器 的 峰值 利用 率 是 多 少 ? 

对 应 用 的 研究 显示 ， 将 释放 式 同 一 性 和 预 取 结合 起 来 ， 同 单独 用 这 些 技 术 相 比 ， 

总 是 能 得 到 更 好 的 性 能 。 当 多 个 上 下 文 和 预 取 技 术 结 合 就 不 一 定 如 此 ; 结合 

性 能 有 时 会 更 差 一 些 。 用 一 个 例子 来 解释 后 面 这 种 现象 。 


第 12 章 将 来 的 发 展 方 向 


在 写本 书 的 过 程 中 ， 我 们 感到 并 行 计算 机 体系 结构 的 一 个 突出 特点 是 迅猛 的 变化 步伐 。 
当 使 用 新 的 设计 时 ， 以 前 的 那些 关键 的 重要 设计 则 成 为 “过 去 ”， 而 且 主 要 的 开放 问题 也 会 
在 新 设计 中 得 到 回答 。 由 于 早已 建立 的 公司 大 踏步 路人 并 行 计算 和 强 竞争 者 的 联合 力量 中 ， 
而 刚 启动 的 公司 则 会 离开 该 市 场 。 第 一 台 万 亿 浮 点 (teraflops) 性 能 机 器 已 建立 ， 该 工作 组 
已 经 懂得 如 何 进行 加 速 进程 以 获得 千 万 亿 次 浮 点 (petaflops) 性 能 。 电 影 厂商 在 一 个 很 大 的 
机 群 系统 上 生产 了 第 一 部 全 计算 机 动画 制作 的 电影 ， 并 行 的 下 棋 程序 第 一 次 击败 了 著名 柑 
手 。 同 时 ， 随 着 Intel Pentium Pro 和 非 粘 结 高 速 缓存 一 致 的 存储 总 线 的 推出 ， 出 现 了 大 量 的 
多 处 理 器 系统 。 为 了 更 好 地 利用 存储 结构 ， 人 们 已 经 使 用 并 行 算法 来 改进 机 器 的 性 能 。 当 我 
们 考虑 在 单个 芯片 内 集成 10 亿 个 晶体 管 时 ， 网 络 技术 、 存 储 技术 、 甚 至 处 理 器 设计 都 会 综 
合 使 用 。 

从 并 行 计 算 机 体系 结构 的 未 来 看 ， 一 个 确定 的 预测 将 会 不 断 的 变化 。 难 以 预测 的 改变 会 
使 并 行 计 算 机 体系 结构 成 为 一 个 激动 人 心 的 领域 并 导致 相关 的 研究 。 我 们 需要 重新 回顾 一 些 
基本 的 问题 ， 如 并 行 计算 机 的 适当 的 组 成 模块 如 何 ? 处 理 器 的 设计 、 辅 助 通信 以 及 如 何 与 处 
理 器 、 存 储 器 、 互 连 网 络 集成 的 本 质 要 求 是 什么 ? 是 否 以 上 这 些 仍 然 使 用 商用 桌面 系统 的 部 
件 ， 或 者 随 着 并 行 计算 的 成 熟 并 大 量 进入 应 用 后 是 否 会 产生 一 个 新 的 形态 ”这 些 变化 会 给 工 
业 带 来 大 量 的 机 遇 ， 同 时 也 会 带 来 挑战 。 

虽然 很 难 准 确 地 预测 该 领域 的 走向 ,但 是 本 章 会 大 致 描述 并 行 计算 机 体系 结构 发 展 的 关 
键 领 域 以 及 相关 技术 。 无 论 市 场 如 何 发 展 以 及 出 现 何 种 技术 突破 ， 本 书 讨论 的 基本 问题 都 是 
适合 的 。 并 行 编程 模型 的 实现 仍然 依赖 于 命名 、 定 序 以 及 同步 。 设 计 者 仍然 会 在 开销 、 时 
延 、 带 宽 以 及 成 本 之 间 平 衡 。 解 决 这 些 问题 的 核心 技术 应 该 是 有 效 的 ; 然而 ， 随 着 性 能 、 成 
本 、 容 量 以 及 规模 中 的 关键 系数 改变 ， 这 些 技术 的 使 用 方式 也 会 不 同 。 基 本 应 用 工作 负载 的 
需求 随 着 新 算法 的 发 明 而 变化 ， 但 是 其 基本 的 分 析 技 术 是 不 变 的 。 

对 于 本 书 中 给 定 的 方法 ， 只 有 建立 在 硬件 和 软件 的 将 来 潜在 的 发 展 方向 上 的 讨论 才 是 有 
意义 的 。 对 于 其 中 的 每 种 方法 ， 我 们 都 要 寻求 其 可 能 的 发 展 方向 ， 因 此 ， 都 假设 了 一 个 演变 
发 展 的 基本 条 件 ， 这 些 方法 也 会 由 于 基本 限制 或 者 某 突破 改变 其 方向 而 导致 突然 停止 。12.1 
节 考 察 了 技术 及 体系 结构 的 发 展 趋势 ; 12.2 节 讨 论 软 件 的 需求 变化 如 何 影响 系统 设计 的 发 
展 ， 以 及 应 用 的 基础 如 何 可 能 拓展 和 改变 。 


12.1 技术 与 体系 结构 


改变 并 行 计算 机 体系 结构 未 来 的 技术 力量 可 分 为 三 类 演变 力量 (过 去 和 当前 的 发 展 趋 
势 所 揭示 的 ) 、 阻 碍 将 来 的 进程 沿 原 趋势 发 展 的 基本 限制 、 中 断 当前 发 展 并 形成 新 趋势 的 突 
破 。 当 然 ， 其 实际 的 情况 只 能 由 时 间 来 回答 。 本 节 将 具体 分 析 以 上 三 种 情况 以 及 可 能 发 生 的 
体系 结构 变化 。 

为 了 更 清晰 讨论 ， 首 先 考虑 两 个 问题 。 在 高 端 方面 ， 如 何 实现 下 一 次 千 倍 的 性 能 提高 ? 
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在 中 规模 方面 ， 并 行 系统 的 成 本 效益 如 何 考虑 ? 按照 并 行 性 ，1998 年 的 计算 机 系统 形成 的 
并 行 性 金字 塔 如 图 12-1 所 示 。 单 处 理 器 PC、 工 作 站 以 及 服务 器 的 总 发 货 量 为 千 万 到 亿 的 数 
量 级 。2 ~ 4 个 的 并 行 处 理 器 的 计算 机 市 场 (二 级 市 场 ) 是 10 万 到 数 百 万 的 规模 。 这 些 一 般 
都 是 专用 服务 器 ， 但 都 在 朝 桌 面 机 发 展 。 该 市 场 从 20 世纪 80 年 代 到 20 世纪 90 年 代 早 期 以 
中 等 速度 发 展 ， 并 且 随 着 重要 的 PC 厂商 制作 费用 较 低 的 SMP 机 器 ， 工 作 站 和 服务 器 的 造价 
也 降低 以 扩大 销售 量 ， 该 市 场 迅 速 凯 起 。 下 一 级 市 场 则 被 5 ~ 30 个 的 处 理 器 机 器 所 占据 。 这 
些 主要 是 专用 的 高 端 服务 器 ， 销 售 量 在 几 士 万 台 的 规模 ， 并 稳步 增长 ; 该 部 分 主 字 高 端 服务 
咒 市 场 ， 包 括 过 去 被 称 为 大 型 机 的 企业 市 场 。 在 数 十 到 上 百 的 处 理 器 规模 上 ， 其 销售 量 为 千 
量 级 。 这 些 主要 是 支持 大 规模 数据 库 、 大 计算 量 的 科学 应 用 或 者 大 的 工程 开发 (如 石油 开 
发 ， 结 构 模 型 或 流体 动力 ) 等 的 专用 机 器 。 上 于 个 处 理 器 系统 销售 量 比 近 百 个 处 理 器 系统 大 
大 减 小 ， 量 级 在 数 十 左右 。1990 年 以 来 ， 非 常 高 级 的 机 器 在 规模 上 包括 1 000 ~ 2 000 个 处 理 
ato TE 1996 ~ 1997 年 ， 机 器 包括 的 处 理 器 数量 上 升 到 10 000 个 。 最 明显 的 高 端 机 器 是 专门 
用 于 高 级 的 科学 计算 ,包括 美国 能 源 部 “ASCI” 的 万 亿 浮 点 机 器 以 及 Hitachi SR2201 (由 日 


本 的 技术 和 企业 部 门 资助 )。 
J+ BLT ER 
的 机 器 
es | 


成 后 上 万 台 有 几 十 个 处 理 器 的 机 器 


多 到 上 百 万 的 小 规模 多 处 理 器 


几 十 万 到 上 亿 人 台 单 处 理 器 P C、 工 作 站 、 设 备 


图 12-1 并 行 计算 机 的 市 场 金 字 塔 。 最 强大 的 机 器 (并行 计算 机 ) 在 市 场 金 
字 塔 的 顶端 ， 它 针对 要 求 最 高 的 应 用 需求 并 且 必 须 用 最 先进 的 技术 














12.1.1 演变 趋势 


如 果 保 持 当 前 的 技术 发 展 趋 势 ， 则 并 行 计 算 机 有 望 经 历 由 经 济 和 市 场 力 量 起 关键 作用 的 
发 展 途 径 。 由 此 展开 ， 我 们 预测 领域 的 发 展 如 何 与 该 途径 分 离 的 可 能 情况 。 目 前 处 理 器 的 性 
能 每 十 年 增加 100 倍 (或 者 200 倍 ， 如 果 基 于 LINPACK 或 SpecFP)。DRAM 的 容量 每 十 年 也 
增加 100 倍 (3 年 增加 4 倍 ) 。 因 此 ， 从 目前 的 趋势 来 看 ， 并 行 机 器 中 节点 计算 性 能 与 存储 容 
Ht (MFLOPS/MB) 的 基本 平衡 可 粗略 保持 稳定 。 尽 管 根据 应 用 目标 以 及 耗费 要 求 该 比值 在 当 
前 的 机 器 中 各 有 不 同 ， 但 是 从 发 展 前 景 看 ， 容 量 和 性 能 的 大 大 增加 仍然 会 成 为 将 来 的 选择 对 
象 。 按 照 简单 的 商品 增长 曲线 ， 到 2010 年 我 们 希望 得 到 千 万 亿 次 浮 点 规模 的 性 能 ， 如 果 并 
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行 性 规模 增加 ， 这 样 的 性 能 可 提前 两 年 得 到 ， 但 是 实现 这 样 的 系统 要 花费 1 亿美 元 。 鉴 于 以 
下 要 讨论 的 原因 ， 我 们 还 不 清楚 这 样 的 机 器 的 通信 性 能 如 何 。 要 想 比 通用 的 系统 提早 得 到 该 
种 规模 的 性 能 将 需要 投资 和 一 定 规模 的 工程 ， 而 且 这 些 有 可 能 还 不 会 实现 ， 虽 然 特 殊 的 设计 
会 为 一 部 分 应 用 提前 提供 支持 的 机 会 。 

要 搞 清楚 将 要 采用 的 体系 结构 方向 ， 基 于 性 能 的 VLSI 工艺 趋势 以 及 部 件 的 容量 趋势 是 
很 重要 的 。 微 处 理 器 的 时 钟 频 率 以 每 十 年 10 ~ 15 倍 的 速度 增长 ， 而 每 个 微 处 理 器 的 品 体 管 
以 每 十 年 30 倍 的 速度 增长 。 另 一 方面 ，DRAM 的 周期 时 间 改 善 得 却 非常 慢 ， 每 十 年 大 约 以 
两 倍 的 速度 改进 。 因 此 说 ， 处 理 器 速度 与 存储 器 速度 间 的 差距 可 能 在 继续 加 大 。 为 了 保持 处 
理 吉 的 速度 增长 趋势 ， 存 储 时 间 与 处 理 器 周期 的 比率 加 大 会 要 求 处 理 器 采用 更 好 的 时 延 避免 
和 容许 时 延 技术 。 另 外 ， 由 于 半期 时 间 和 并 行 性 的 组 合 ， 处 理 器 指令 速率 的 增加 将 对 存储 器 
提出 带宽 要 求 ” 。 

这 两 种 因素 (时 延 避免 和 高 的 存储 带宽 ) 以 及 片上 存储 容量 的 增加 将 导致 存储 层次 结 术 
更 深 更 复杂 。 这 两 种 因素 会 导致 指令 级 并 行 性 动态 调度 的 增加 。 时 延 包 容 从 本 质 上 包括 允许 
大 量 的 指令 并 发 执行 (包括 多 个 存储 操作 )。 支 持 多 个 存储 操作 同时 工作 的 存储 系统 可 允许 
使 用 流水 各 交替 方式 来 增加 带宽 。 因 此 ，VLSI 工艺 的 发 展 趋势 可 能 会 使 得 处 理 器 设计 与 存 
储 系统 更 加 分 离 且 更 灵活 ， 以 适应 存储 系统 的 行为 。 这 对 于 并 行 计算 机 体系 结构 来 说 是 一 个 
很 好 的 预兆 ， 因 为 处 理 器 对 于 不 频繁 的 长 时 延 操 作 来 说 会 越 来 越 强 壮 。 

遗憾 的 是 ， 高 速 缓 存 和 动态 指令 调度 都 不 能 减 小 实际 的 跨越 处 理 器 芯片 边缘 的 操作 时 
延 。 从 演变 过 程 看 ， 每 一 层 的 存储 结构 的 增加 都 会 增加 访 存 的 开销 (例如 ， 我 们 知道 CRAY 
T3D 和 T3E 的 设计 者 设计 工作 站 时 减少 了 一 层 高 速 缓存 以 减 小 存储 时 延 ， 而 且 T3E 中 的 一 个 
两 层 的 片上 高 速 缓存 还 增加 了 通信 时 延 )。 这 种 由 于 层次 深度 而 增加 时 延 的 现象 是 很 自然 的 ， 
因为 设计 者 依赖 的 命中 是 经 常 发 生 的 ， 提 高 命中 率 和 减 小 命中 时 间 比 减 小 扑 空 损失 会 更 有 
效 。 由 于 通信 从 自身 特点 上 跨 出 了 节点 存储 结构 的 最 低层 ， 因 而 越 来 越 深 的 层次 趋势 会 给 并 
行 结构 带 来 问题 。 扑 空 损失 是 通信 开销 的 一 部 分 ， 不 管 通信 抽象 是 共享 地 址 访问 还 是 消息 传 
递 。 先 进 的 体系 结构 和 聪明 的 编程 能 够 将 不 必要 的 通信 减 小 到 最 小 ， 但 具体 的 算法 还 会 存在 
不 同 程度 的 内 在 通信 。 以 下 还 是 一 个 开放 的 问题 : 在 通过 层次 深度 努力 提高 处 理 器 性 能 的 同 
时 ， 获 得 有 效 通信 需要 的 最 低 扑 空 损 失 。 然 而 ， 在 该 方向 上 已 有 一 些 有 用 的 提示 。 由 于 很 多 
科学 应 用 交换 大 量 的 数据 组 ， 因 而 具有 较 差 的 高 速 缓存 行为 。 从 IBM Power2 SGI PowerChal- 
lenge 到 Sun UltraSparc 结构 ， 人 们 已 经 注意 改进 高 速 缓存 外 的 带宽 ， 至 少 已 经 注意 顺序 访问 。 
这 些 工作 对 数据 库 应 用 来 说 证 明 是 很 有 效 的 。 因 此 我 们 希望 节点 的 存储 结构 能 够 支持 高 带 
宽 ， 甚 至 演变 的 过 程 也 是 如 此 。 

明显 的 一 个 提示 是 多 线程 会 在 将 来 处 理 器 中 得 到 应 用 ， 以 隐藏 局 部 存储 器 的 时 延 。 通 过 
在 单 处 理 器 中 引入 线程 级 并 行 ， 该 方法 进一步 减 小 了 从 一 个 处 理 器 到 多 个 处 理 器 的 传输 开 
销 ， 因 此 使 得 小 规模 的 SMP 更 具有 广泛 的 吸引 力 。 同 时 ， 这 也 在 产生 大 量 的 时 延 包 容 上 建 
立 了 长 期 的 结构 发 展 方向 。 

虽然 基于 改进 光 刻 和 制造 工艺 的 CMOS 技术 发 展 并 不 会 很 顺利 ， 但 链 路 和 交换 带宽 正在 
增加 。 链 路 的 趋势 是 通过 离散 的 工艺 改变 而 发 展 。 例 如 ， 铜 链 路 已 经 通过 一 系列 的 驱动 电路 








外 ”考虑 到 处 理 器 和 存储 器 之 间 的 速度 差别 的 扩大 ， 比 较 处 理 器 的 速度 和 存储 器 访问 时 间 时 经 常 采用 访问 时 间 的 倒 
数 。 用 这 种 方法 比较 吞吐 率 和 时 延 使 差别 看 起 来 要 大 些 。 
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引入 : 一 次 携带 一 个 二 进 制 位 的 非 终止 线 被 终止 线 所 兰 代 ， 从 而 多 个 位 可 在 线 上 流水 传送 ; 
这 些 也 可 能 被 主动 平衡 技术 (Horowitz 1997) 所 代替 。 同 时 ， 由 于 连接 器 技术 的 改进 链 路 已 
经 越 来 越 宽 ; 而 且 电缆 制造 技术 已 经 进步 ， 允 许 更 细 的 间距 、 更 好 的 匹配 链接 ， 对 信号 扭 斜 
提供 更 好 的 控制 。 过 去 几 年 ， 人 们 都 认为 光纤 将 很 快 会 成 为 高 速 链 路 的 选择 。 然 而 ， 收 发 器 
和 连接 器 的 消耗 已 经 阻碍 了 其 进步 。 随 着 有 效 的 LED 阵列 (在 GaAs 技术 中 出 现 ) 在 CMOS 
中 变 得 富有 成 效 ， 这 种 情况 将 来 也 许 会 改变 。 当 然 ， 消 耗 减 小 的 真正 驱动 是 数量 。 千 兆 位 以 
太 网 的 到 来 〈 使 用 光纤 通道 物理 链 路 ) 可 能 最 终 通过 提高 光纤 收发 器 的 量 而 使 成 本 急剧 下 降 
的 最 后 因素 。 另 外 ， 高 质量 的 并 行 光纤 已 经 得 到 论证 。 因 此 ， 具 有 小 物理 截面 的 灵活 的 高 性 
能 光纤 可 以 在 不 远 的 将 来 成 为 相当 不 错 的 链 路 技术 。 

带宽 (甚至 也 是 单 处 理 器 中 要 求 的 ) 以 及 为 此 而 需要 的 并 发 存储 处 理 数量 正在 延伸 共享 
总 线 的 限制 。 许 多 系统 设计 已 经 通过 要 求 所 有 的 部 件 传输 整个 高 速 缓存 行 来 使 得 总 线 效率 更 
Ro VO 设备 的 适配器 按照 一 个 高 速 缓存 块 来 构造 ， 以 支持 高 速 缓存 一 致 性 协议 。 这 样 ， 从 
本 质 上 讲 ， 所 有 的 系统 都 是 SMP， 尽 管 只 连接 一 个 处 理 器 。 总 线 逐 渐 地 会 被 交换 机 所 替代 ， 
侦 昕 协议 逐渐 会 被 目录 替代 。 例 如 ，HP/Convex Exemplar 在 PA-8000 处 理 器 中 使 用 了 交叉 开 
关 而 不 是 总 线 ，Sun UltraSpare UPA 在 Enterprise 6000 中 2 ~ 4 个 处 理 器 的 节点 上 具有 一 个 交换 
网 络 ， 尽 管 这 些 节 点 之 间 是 用 分 组 交换 的 总 线 连 接 的 。 基 于 IBM PowerPC 的 G30 的 数据 通路 
使 用 了 交换 技术 ， 但 是 仍然 在 寻 址 和 侦 听 上 使 用 了 共享 总 线 。SGI Origin 和 Sun Enterprise 
10000 已 经 完全 使 用 了 交换 技术 。 即 使 是 使 用 总 线 ， 也 是 用 了 分 组 交换 技术 (阶段 分 离 )。 
因而 ， 即 使 从 发 展 前 景 看 ， 我 们 也 希望 能 看 到 高 性 能 互连网 络 集成 于 大 量 的 设计 中 。 这 种 趋 
势 使 得 从 大 产量 、 中 规模 并 行 系统 到 大 规模 、 中 产量 的 并 行 系统 的 转换 更 具 吸 引力 ， 因 为 这 
只 需要 很 少 的 新 技术 。 

更 高 速 的 网 络 也 是 当前 IO 子 系统 的 主要 问题 。 在 支持 对 VO 的 改进 方面 已 经 引起 了 大 
量 的 关注 ， 例 如 PCI 总 线 已 经 取代 了 传统 的 商业 VO 总 线 。 我 们 非常 希望 支持 快速 的 局 域 
网 ， 如 千 兆 位 的 以 太 网 、0C-12 ATM (62Mbps) 、SCI、 光 纤 通 道 以 及 P1394.2。 一 个 标准 的 
PCL 总 线 可 提供 大 约 1 Gbps 的 带宽 。 对 于 扩展 的 64 位 PCI 总 线 ， 具 有 66 MHz 的 操作 速度 ， 
将 来 有 望 获得 广泛 的 推广 ; 这 种 总 线 在 商业 机 器 中 可 提供 数 千 兆 位 的 性 能 。 一 些 厂商 正在 寻 
找 提 供 基于 高 性 能 网 络 的 直接 存储 总 线 访问 或 分 布 式 共享 存储 扩展 。 

从 这 些 趋势 可 以 断定 ， 小 规模 的 SMP 将 继续 保持 吸引 力 ， 而 且 机 群 结 构 以 及 紧密 包装 
的 商用 节点 集 将 成 为 大 规模 系统 的 可 选项 。 这 些 设 计 很 可 能 随 着 高 性 能 互联 网 更 加 成 熟 而 继 
续 改 进 。 我 们 已 经 看 到 了 一 种 将 高 速 缓存 接口 协议 与 高 速 缓存 一 致 性 协议 更 好 集成 的 趋向 ， 
这 样 可 使 控制 寄存 器 得 到 缓冲 ，DMA 可 在 用 户 级 数据 结构 上 直接 执行 (Mukherjee and Hill 
1997)。 由 于 多 种 原因 ， 大 规模 设计 很 可 能 使 用 SMP 节点 ， 因 而 SMP 群 很 可 能 成 为 并 行 计算 
的 重要 工具 。 最 近 随 着 基于 CC-NUMA 的 设计 出 现 ， 如 HP/Convex SPP, SGI Origin ， 尤 其 是 
基于 Pentium Pro 的 机 器 ， 大 规模 的 高 速 缓存 一 致 性 设计 越 来 越 具有 吸引 力 。 其 核心 问题 是 
是 否 会 出 现 一 个 基于 SMP 的 可 组 装 的 节点 ， 这 可 使 得 大 的 SMP 群 的 组 装 本 质 上 就 像 单个 节 
点 增加 存储 或 IO 一 样 容易 。 


12.1.2 遇 到 的 阻碍 
如 上 所 述 ， 如 果 保持 当前 的 趋势 ， 并 行 计算 机 体系 结构 的 发 展 前 景 就 很 光明 。 为 什么 这 
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或 许 不 可 能 会 出 现 呢 ? 也 许 我 们 遇 到 了 阻碍 ?” 这 里 有 三 种 基本 的 可 能 性 : EYER FP SYR 
碍 、 成 本 或 者 功 耗 阻碍 。 

时 延 阻碍 本 质 上 是 光 的 传输 速度 或 者 电子 信号 的 传输 速度 问题 。 不 久 就 会 看 到 处 理 器 的 
操作 速度 超过 1GHz， 或 者 说 时 钟 周 期 会 小 于 Ins， 信 和 号 以 每 纳 秒 1 英尺 的 速度 传输 。 从 发 展 
的 角度 看 ， 节 点 的 物理 尺寸 不 会 有 多 少 减 小 ， 它 会 变 得 很 快 且 具 有 更 多 的 存储 ， 但 是 仍然 还 
会 具有 由 连接 器 连接 的 多 个 芯片 和 PC 板 的 迹象 。 事实 上 ， 从 1987 ~ 1997， 一 个 基本 处 理 器 
和 存储 模块 所 占 的 面积 并 没有 减 小 多 少 。 有 一 个 改进 是 从 每 板 有 两 个 节点 到 每 板 大 约 4 个 结 
点 ， 此 时 第 一 级 高 速 缓存 移 到 芯片 内 ，DRAM 芯片 向 SIMM 转变 ， 但 是 多 数 的 设计 在 芯片 外 
部 保持 一 个 高 速 缓存 层 。 即 使 没有 片 外 高 速 缓存 (如 CRAY T3D 和 T3E)， 每 代 处 理 器 也 会 
消耗 更 多 的 功 耗 ， 而 且 需 要 更 多 的 表面 面积 散热 。 因 此 ，1 000 个 处 理 器 的 机 器 将 会 具有 数 
米 〈 而 不 是 英寸 ) 的 点 距 。 

虽然 时 延 阻碍 的 确 存在 ， 然 而 有 几 种 原因 来 解释 为 什么 它 可 能 不 会 在 可 预见 的 将 来 成 为 
并 行 计算 机 体系 结构 发 展 的 障碍 。 一 个 原因 是 容许 时 延 技术 在 处 理 器 级 数 十 个 周期 上 是 非常 
有 效 的。 有 些 研 究 已 经 建议 由 于 存储 访问 时 延 ， 高速 缓存 在 单 处 理 器 中 失去 了 有 效 性 
(Burger, Goodman, and Kagi 1996)。 然 而 ， 这 些 研究 都 假设 存储 操作 不 是 流水 线 的 形式 ， 而 
且 处 理 器 为 20 世纪 90 年 代 中 期 的 设计 。 其 他 的 研究 认为 ， 若 存储 操作 是 流水 线 的 形式 ， 而 
且 处 理 器 允许 从 指令 窗口 发 射 多 条 指令 ， 此 时 转移 指令 的 精确 率 将 比 时 延 更 可 能 成 为 性 能 的 
限制 (Jouppi and Ranganathan 1997)。 当 预测 相当 成 功 时 ， 这 样 的 设计 在 很 多 应 用 中 能 够 容许 
100 个 周期 左右 的 存储 器 的 访问 时 间 。 多 线程 技术 为 指令 级 并 行 性 提供 了 另外 一 种 选择 ， 可 
隐藏 时 延 ， 其 至 可 隐藏 非 成 功 预 测 的 转移 开销 。 但 是 这 样 的 时 延 容许 技术 从 本 质 上 具有 带宽 
要 求 ， 带 宽 会 有 开销 。 这 种 开销 一 方面 来 自 更 高 的 信号 速率 、 更 多 的 线 、 更 多 的 管 脚 、 更 多 
的 材料 ,或 者 以 上 多 者 的 组 合 。 另 外 ， 部 件 所 能 支持 的 流水 度 是 由 其 占用 率 限制 的 。 隐 藏 时 
延 特别 要 注意 访问 或 通信 路 径 上 每 个 阶段 的 占用 率 。 当 占用 率 不 能 青 减 小 时 ， 就 要 使 用 交替 技 
术 减 小 有 效 的 占用 率 。 

从 发 展 的 道路 来 看 ， 光 速 对 时 延 的 效果 可 能 会 受 带宽 的 支配 。 目 前 ， 单 个 高 速 缓存 块 传 
送 一 般 是 几 百 位 ， 由 于 链 路 相对 狭 罕 ,使 用 直通 路 由 一 次 网 络 事务 就 可 完全 通过 机 器 。 随 着 
链 路 加 宽 ， 一 次 事务 的 网 络 长 度 〔 例 如 ，phits? 的 数量 ) 就 会 碱 小 。 但 除非 处 理 器 同时 处 理 
多 个 事务 进而 全 部 占用 物理 时 延 ， 否 则 就 会 仍然 保留 很 大 的 发 展 空间 。 而 且 ， 高 速 缓 存 块 大 
小 的 增加 只 是 分 推 DRAM 的 访问 开销 ， 因 而 一 次 网 络 事务 的 长 度 (也 是 为 了 隐藏 时 延 而 挂 
起 的 事务 数 ) 可 能 随机 器 的 发 展 接近 一 个 常数 。 从 发 展 的 趋势 看 ， 处 理 器 处 理 小 于 高 速 缓存 
块 大 小 的 对 象 时 效率 不 是 很 高 ， 因 而 显 式 消息 的 大 小 可 能 遵循 类 似 的 趋势 。 

目前 很 多 通信 时 延 是 在 网 络 接口 上 (尤其 是 ， 存 储 转发 时 延 发 生 在 源 和 目的 节点 )， 而 
不 是 网 络 本 身 。 网 络 接口 时 延 已 经 占据 网 络 时 延 的 较 大 部 分 ， 该 时 延 也 可 能 随 着 设计 的 成 熟 
而 减 小 。 例 如 ， 考 虑 如 何 快速 穿 过 一 端 或 两 端的 网 络 接口 。 在 源 端 ， 将 目的 文件 翻译 成 路 由 
以 及 并 发 地 将 处 理 器 的 有 效 数据 假 脱 机 发 到 网 线 上 并 不 困难 。 然 而 ， 处 理 器 向 NI 发 数据 的 
速度 不 会 像 NI 向 网 络 发 数据 那样 快 ， 因 而 ， 作 为 链 路 协议 的 一 部 分 ， 保 持 信 息 还 是 有 必要 
的 (向 网 线 发 送 空闲 phils)。 这 种 机 制 已 经 内 置 在 大 多 数 的 交换 设备 中 。 像 Intel Paragon, 
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Meiko CS-2 和 CRAY T3D 这 些 机 器 都 提供 穿 过 NI 以 及 回 到 存储 系统 的 流 控 ， 这 样 可 以 在 没有 
存储 转发 时 延 的 情况 下 实现 大 块 传送 。 另 外 也 可 以 开发 一 种 通信 辅助 部 件 完成 以 下 操作 : 一 
日 小 信息 (如 ， 一 个 高 速 缓存 行 ) 开始 进 入 网 线 就 可 以 无 时 延 传输 。 

在 目的 端 消除 存储 转发 时 延 具 挑战 性 ， 这 是 因为 ， 通 常数 据 在 完全 接收 和 检查 之 前 是 无 
法 确定 其 完好 性 的 。 如 果 直 接 暂 存在 内 存 ， 就 会 形成 堆积 。 但 我 们 观察 到 地 址 的 正确 性 比 内 
容 的 正确 性 更 重要 ， 因 为 我 们 不 想 将 数据 暂 存 在 内 存 中 的 错误 位 置 。 信 息 头 可 以 加 一 个 分 离 
的 校 验 和 。 有 目的 节点 上 信息 头 在 信息 暂 存 人 内 存 前 被 检验 。 对 于 较 大 的 数据 传输 来 说 ， 一 般 
包含 一 个 完成 事件 ， 这 使 得 在 数据 被 标志 为 “到 达 ” 之 前 缓存 在 内 存 并 校 验 。 注 意 ， 这 意味 
着 通信 抽象 不 应 当 人 允许 应 用 在 大 块 数据 传送 中 间 通 过 抽取 数据 的 值 来 推测 传送 是 否 结束 。 对 
于 小 的 数据 传送 ， 可 采用 一 些小 的 技巧 推测 地 将 数据 移 人 高 速 缓 存 。 本 质 上 ， 高 速 缓存 分 配 
一 行 然后 传送 数据 ,但 是 如 果 没有 正确 地 进行 校 验 ， 高速 缓存 行 的 有 效 位 就 永远 不 会 设置 。 
因而 ， 在 设计 通信 辅助 部 件 和 存储 系统 时 应 特别 注意 通信 事件 ， 但 是 提出 一 种 比 目 前 更 为 流 
畅 的 网 络 事务 技术 来 减 小 时 延 是 可 能 的 。 

并 行 计算 机 没有 受到 根本 的 时 延 的 阻碍 的 主要 原因 是 整个 的 通信 时 延 仍 然 被 额外 开销 所 
主 罕 。 时 延 将 仍然 存在 ， 但 是 只 占 实际 通信 时 间 不 大 的 份额 。 其 原因 在 于 当前 工业 界 的 设计 
过 程 。 当 处 理 器 具有 一 层 或 多 层 高 速 缓存 、 一 层 片 外 高 速 缓存 时 ， 自 然 就 会 产生 存储 系统 ; 
在 设计 存储 结构 中 的 某 层 的 控制 器 时 ， 设 计 者 就 会 遇 到 一 个 问题 : 靠近 处 理 器 的 一 方 速度 
快 ， 靠 近 存 储 器 的 一 方 速度 慢 。 设 计 的 目标 是 使 得 对 于 交付 给 处 理 器 方 的 高 速 缓存 的 典型 地 
址 流 S， 以 下 的 表达 式 最 小 : 


平均 访 存 时 间 (S) = 命中 时 间 x 命中 率 ,+ (1- 命中 率 ,) x 扑 空 时 间 (12-1) 


由 于 任何 部 分 的 很 大 改进 都 会 损害 其 他 部 分 ， 以 上 设计 目标 就 出 现 了 内 在 的 权衡 问题 。 
国 而 ， 在 设计 空间 的 每 个 方向 上 ， 理 想 设计 是 极端 间 的 折 中 。 通 常 命中 时 间 是 由 其 最 快 部 件 
的 目标 频率 决定 的 ， 这 也 给 其 他 设计 部 分 建立 了 优化 极限 一 一 设计 者 要 在 该 极限 内 保持 命中 
时 间 。 我 们 可 以 在 高 速 缓存 结构 上 采取 改进 措施 〈 例 如 ， 增 加 互 连 度 等 ) 以 提高 命中 率 ， 但 
只 需 能 够 达到 命中 时 间 的 期 望 值 就 可 以 了 (Przbylski，Horowitz，and Hennessy 1988)。 并 行 体 
系 结构 的 关键 部 分 涉及 到 扑 空 时 间 。 设 计 者 要 想 减 小 扑 空 时 间 究 竟 有 多 困难 呢 ? 其 中 一 个 原 
则 是 使 得 两 部 分 大 致 相同 。 这 就 保证 其 优化 程度 在 两 倍 的 范围 内 ， 而 且 较 实用 。 关 键 问题 
是 ， 由 于 在 单 处 理 器 中 扑 空 率 很 小 ， 因 而 扑 空 时 间 可 以 是 命中 时 间 的 数 倍 。 对 于 第 一 层 高 速 
缓存 其 命中 率 要 超过 95% ， 因 而 其 扑 空 时 间 可 以 是 命中 时 间 的 20 倍 ， 在 更 低 的 高 速 缓存 层 ， 
扑 空 时 间 和 命中 时 间 也 差 一 个 数量 级 。 扑 空 时 间 的 一 个 重要 部 分 是 到 较 低 存储 级 的 传输 时 间 ， 
对 其 较 小 的 改进 只 能 对 单 处 理 器 的 性 能 产生 不 大 的 影响 。 高 速 缓存 的 设计 中 可 以 在 多 种 用 途上 
利用 此 自由 度 。 例 如 ， 增 加 高 速 缓存 行 的 大 小 可 以 改进 命中 率 ， 其 代价 是 增加 扑 空 时 间 。 

男 外 ， 存 储 结构 中 的 每 层 都 要 增加 数据 传送 的 开销 ， 因 为 数据 必须 经 过 所 有 层 的 接口 。 
为 了 模块 化 设计 ， 接 口 应 使 得 两 边 的 操作 是 松 燃 合 的 。 在 片 高 速 缓存 间 的 操 手 会 有 一 些 开 
销 ， 片 内 高 速 缓存 与 片 外 高 速 缓存 间 的 接口 开销 会 大 一 些 ， 然 而 经 过 存储 总 线 的 复杂 协议 会 
有 共有 更 大 的 开销 。 另 外 ， 对 于 通信 来 说 ， 也 有 一 些 与 接口 本 身 相关 的 协议 。 以 上 这 些 效应 的 
累计 就 形成 了 实际 的 通信 时 延 总 是 光速 的 很 多 倍 。 设 计 者 对 通信 的 自然 反映 总 是 增加 传输 的 
最 小 数据 量 ， 例 如 ， 增 加 最 小 信息 块 的 高 速 缓存 行 大 小 。 这 就 将 关键 时 间 从 时 延 移 到 占用 时 
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间 (occupancy)。 如 果 每 次 传送 的 数据 量 足 够 大 以 至 可 以 分 摊 开 销 ， 则 此 时 的 光速 时 延 将 又 
成 为 不 大 的 附加 部 分 。 

当 设计 分 成 多 层 的 存储 结构 ， 而 且 强 调 与 处 理 器 一 侧 访问 流 相 关 一 层 的 最 大 化 ， 设 计 者 
的 这 种 自然 倾向 就 会 导致 处 理 器 到 通信 和 辅助 部 件 的 每 一 层 都 要 增加 开销 。 为 了 接近 光速 传输 
时 延 的 极限 ， 在 处 理 器 设计 、 高 速 缓存 设计 与 存储 器 设计 中 应 该 建立 一 种 不 同 的 设计 方法 。 
该 方法 的 一 种 体系 结构 趋势 是 使 用 扩展 的 无 序 执行 或 者 多 线程 隐藏 时 延 ， 这 甚至 可 用 于 单 处 
理 嚣 中。 这些 技 术 改 变 了 高 速 缓存 设计 者 的 目标 : 并 不 是 最 小 化 式 (12-1) 的 和 ， 而 是 从 本 
质 上 最 小 化 每 一 部 分 。 

当 扑 空 发 生 时 ， 处 理 器 并 不 等 待 服务 ， 而 是 继续 执行 而 且 发 出 更 多 的 请 求 ， 这 些 请 求 很 
多 都 会 俞 中。 同时 ， 高 速 缓存 继续 忙于 扑 空 处 理 。 我 们 希望 当 另 一 个 扑 空 产生 或 者 处 理 器 执 
行 完 其 他 并 发 任务 时 ， 此 次 的 扑 空 已 经 完成 。 即 使 扑 空 需要 一 定 的 时 间 处 理 ， 其 检测 和 发 出 
处 理 服务 也 不 应 花费 过 多 的 处 理 器 周期 。 事 实 上 ， 扑 空 处 理 本 质 上 要 求 在 命中 时 间 预 算 内 
进行 。 

而 且 ， 为 了 使 处 理 器 繁忙 ， 可 能 需要 允许 保持 多 个 在 线 请 求 ， 这 在 第 11 章 中 有 全 面 的 
解释 。 对 于 每 个 扑 空 来 说 ， 其 扑 空 时 间 也 许 都 不 满足 式 (12-1), 或 者 因为 时 延 或 者 因为 开 
销 。 扑 空 与 通信 事件 的 趋势 是 集群 化 ， 因 而 需要 服务 的 操作 间隔 比 平均 水 平 越 来 越 小 。 

Little 定律 建议 了 另 一 种 潜在 的 障碍 一 一 成 本 障碍 。 该 定律 认为 ， 若 需要 隐藏 的 总 的 时 
延 是 工 ， 长 时 延 请 求 的 发 生 率 为 po， 则 当 该 时 延 被 隐藏 时 每 个 处 理 器 需要 的 在 线 请 求 数 是 
oL; 当 考虑 集群 通信 时 ， 该 数量 会 更 大 。 当 这 些 通信 事件 都 在 进行 时 ， 忆 个 处 理 器 的 需要 
的 网 络 带宽 为 Po (P), L (P) 反映 了 随机 器 增 大 而 产生 的 时 延 增 加 。 这 就 需要 建立 网 络 
成 本 的 下 限 。 为 了 提供 该 网 络 带 宽 ， 网 络 的 总 带宽 需要 更 高 (第 10 章 讨论 的 );， 因 为 通信 时 
会 有 帘 发 、 冲 突 等 等 。 因 而 ， 为 了 保持 发 展 的 趋势 ， 系 统 设计 的 很 多 方面 都 需要 考虑 容许 时 
延 ， 而 且 在 网 络 技术 上 需要 考虑 带宽 和 成 本 的 改进 。 


12.1.3 潜在 的 突破 


我 们 已 经 看 到 了 并 行 体系 结构 的 美好 的 发 展 前 景 ， 当 然 在 前 进 的 道路 上 也 会 出 现 阻 碍 其 
发 展 的 一 些 “ 乌 云 "。 是 否 也 会 有 “银色 的 闪电 ” 呢 ? 是 否 存在 形成 新 的 并 行 计算 机 结构 设 
计 的 可 能 性 呢 ? 回 答 当然 是 肯定 的 ， 但 是 这 些 具 体 的 方向 还 不 确定 。 尽 管 技术 上 可 能 发 生 戏 
剧 性 的 变化 ， 如 量子 器 件 、 自 由 空间 光 互 连 、 分 子 计 算 或 者 纳米 级 机 械 设 备 等 正在 研究 中 ， 
但 是 在 常规 CMOS VLSI 设备 上 尚 存 潜在 的 发 展 空 间 (Patterson 1995)。 集 成 度 连续 发 展 这 一 
简单 的 事实 就 很 可 能 给 并 行 计算 机 设计 带 来 一 场 革命 。 

从 学 术 的 角度 看 ， 很 容易 低估 集成 过 程 中 一 些 封装 限度 的 重要 性 ， 但 历史 说 明 这 些 因 素 
的 确 令 人 关注 。 集 成 度 限度 的 通常 效果 说 明 如 图 12-2 所 示 ， 该 图 显示 出 两 个 量化 趋势 。 直 
线 反 映 出 系统 集成 度 的 水 平 随时 间 稳 定 增长 ， 与 之 交叉 的 曲线 描述 的 是 系统 设计 中 的 革新 数 
量 。 不 管 技 术 的 发 展 ， 一 个 设计 方案 应 该 在 一 段 相当 长 的 期 间 内 是 稳定 的 ， 但 是 当 集成 度 超 
过 了 某 一 关键 界限 时 ， 很 多 新 的 设计 选择 成 为 可 能 ， 新 的 设计 也 会 随 之 出 现 。 该 图 显示 了 计 
算 机 体系 结构 历史 上 的 两 个 时 代 。 

回忆 从 20 世纪 70 年 代 到 20 世纪 80 年 代 期 间 ， 计 算 机 系统 设计 经 历 了 一 个 稳定 的 发 展 
道路 ， 并 且 显 示 出 清晰 的 阶段 : 小 型 计算 机 ， 在 工程 和 学 术 市 场 被 DEC Vax ES; 大 型 机 ， 
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在 商业 市 场 中 由 IBM ES; 向 量 超级 计算 机 ， 在 科技 市 场 被 CRAY 研究 院 主宰 。 由 于 MSI 和 
LST 部 件 ， 尤 其 是 半导体 存储 器 允许 在 相对 小 的 工程 量 下 可 以 设计 复杂 的 电路 ， 这 在 早期 打 
破 了 技术 屏障 ， 作 为 结果 小 型 计算 机 发 生 了 突破 性 变化 。 特 别 是 ， 此 时 的 集成 水 平 已 经 可 以 
允许 使 用 微 程 序 技术 支持 大 量 的 虚拟 地 址 空间 和 复杂 的 指令 集 。 大 型 机 很 早 就 开始 发 展 。 向 
量 超 级 计算 机 的 成 功 反映 了 转换 的 结束 。 其 完美 的 ECL 电路 设计 ， 在 简洁 的 装载 -存储 体系 
结构 中 与 半导体 存储 器 耦合 清 掉 了 早期 很 特殊 的 并 行 计 算 机 设计 。 这 三 个 主要 阶段 经 历 了 可 
预言 的 演变 方式 ， 每 个 阶段 具有 各 自 的 市 场 。 与 此 同时 ， 微 处 理 器 从 4 ~ 8 位 ， 进 而 发 展 到 
16 位 ， 这 就 导致 了 个 人 计算 机 和 图 形 工作 站 的 产生 。 
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图 12-2 变化 的 潮流 。 计 算 的 历史 是 在 稳步 发 展 和 快速 创新 的 交替 中 前 进 的 。 关 键 技 术 通 常 不 是 突然 
发 生 的 ; 它 有 出 现 和 演化 的 过 程 。“ 革 命 ” 的 发 生 只 是 当 技 术 越过 了 一 个 关键 的 台阶 。 其 中 一 
个 例子 是 在 20 世纪 80 年 代 中 期 32 位 微 处 理 器 的 到 来 ， 它 突破 了 集成 度 较 低 的 小 型 计算 机 和 
大 型 机 的 稳 态 ， 促 成 了 计算 机 设计 的 一 次 复兴 ， 包 括 片上 的 低层 并 行 性 和 多 处 理 器 的 高 层 并 
行 性 。20 世纪 90 年 代 后 期 ， 这 个 转变 完全 成 熟 了 ， 基 于 微 处 理 器 的 台式 机 和 服务 器 技术 统治 
了 市 场 的 各 个 方面 。 在 并 行 计算 机 设计 上 有 一 个 很 明显 的 融合 。 然 而 ， 集 成 度 在 继续 提高 ， 
不 久 单 片 机 将 会 像 20 世纪 80 年 代 的 单 板 机 那样 自然 。 问 题 是 这 将 引起 一 场 什么 样 的 设计 复兴 
在 20 Hti 80 年 代 中 期 , 微 处 理 器 到 达 了 一 个 关键 技术 门限 : 一 个 全 32 位 微 处 理 器 可 
全 部 放 于 一 个 芯片 中 。 一 瞬间 ， 整 个 画面 完全 改变 ; 一 个 具有 一 定性 能 和 容量 的 完整 计算 机 
放 在 了 一 个 电路 板 上 ， 多 个 这 样 的 电路 板 组 成 一 个 系统 。 基 于 总 线 高 速 缓存 一 致 性 的 SMP 
出 现 于 很 多 小 公司 ， 包 括 Synapse, Encore, Flex 和 Sequent。 较 大 的 消息 传递 系统 出 现 于 In- 
tel, nCUBE, Ametek, Inmos 和 Thinking Machines 公司 。 同 时 ， 也 出 现 了 数 个 小 型 计算 机 厂 
i, 包括 Multiflow, FPS, Culler Scientific, Convex, Scientific Computing System 和 Cydrome, H} 
中 几 个 公司 随 着 新 的 稳定 状态 建立 遭 到 失败 。 工 作 站 以 及 后 来 的 个 人 计算 机 吸收 了 小 型 计算 
机 的 技术 计算 市 场 。SMP 替代 了 大 规模 数据 中 心 、 事 务 处 理 、 工 程 分 析 ， 从 而 替代 了 超 小 型 
计算 机 。 向 量 超级 计算 机 让 位 于 大 规模 并 行 基于 微 处 理 器 的 系统 。 自 那 时 起 ， 设 计 的 发 展开 
始 稳定 。 对 高 速 缓 存 一 致 性 技术 的 深入 理解 可 以 允许 大 规模 地 对 共享 地 址 支持 。 可 扩展 的 低 
时 延 网 络 从 MPP 到 常规 的 局 域 网 或 者 计算 机 房 环境 的 转化 ， 已 经 允许 以 很 低 的 代价 随意 地 
建立 起 PC、 工 作 站 或 SMP 的 机 群 系统 来 提供 潜在 的 性 能 ， 尤 其 是 可 以 作为 一 个 个 人 超级 计 
算 机 。 几 个 特殊 的 大 型 计算 机 也 可 以 组 成 不 同 大 小 的 共享 存储 机 器 的 机 群 系统 。 本 书 很 显然 
是 集中 在 发 展 上 ， 并 行 计算 机 设计 者 面临 的 基本 问题 是 如 何 集成 商业 的 部 件 ， 并 不 是 使 用 何 
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种 部 件 。 

同时 ， 微 处 理 器 和 存储 器 的 集成 度 正在 接近 一 种 新 的 关键 门限 ， 一 个 完全 的 计算 机 系统 
可 和 集成 在 一 个 芯片 内 ， 而 不 是 一 个 主板 十 。 到 20 世纪 末 ， 微 处 理 器 的 集成 度 正 在 达到 1 亿 
个 晶体 管 。 到 21 世纪 初 ， 于 兆 位 的 DRAM 将 会 出 现 。 像 20 世纪 80 年 代 中 期 的 32 位 处 理 
ae, 20 世纪 70 年 代 中 期 的 半导体 存储 器 、20 世纪 60 年 代 中 期 的 集成 电路 那样 ， 这 一 新 的 
门限 将 可 能 带 来 新 的 设计 复兴 。 从 本 质 上 和 看， 处 理 器 芯片 和 存储 芯片 的 巨大 差别 将 减 小 ， 而 
且 多 数 的 芯片 都 会 含有 逻辑 电路 和 存储 器 。 

很 容易 列举 数 条 原因 来 说 明 为 什么 会 发 生 处 理 器 和 存储 器 级 的 集成 ， 而 且 会 导致 计算 机 
设计 的 重大 变化 ; 尤其 是 并 行 计算 机 设计 。 对 于 这 种 新 的 设计 空间 ,已 经 投入 多 个 研究 计 
XN, 分别 具 有 不 同 的 缩写 (PIM、IRAM、C-RAM 等 )。 为 了 避免 与 这 些 缩写 名 词 混 淆 ， 我 们 
称 处 理 器 和 存储 器 的 概念 为 男 一 个 缩写 词 -一 -PAM。 只 有 历史 才能 告诉 我 们 哪 种 老 的 结构 思 
想 会 获得 新 生 ， 哪 种 完全 新 的 思想 会 来 到 。 先 看 一 看 主导 新 兴 设 计 的 一 些 技术 因素 。 

一 个 明显 的 因素 是 微 处 理 器 芯片 中 大 部 分 是 存储 器 。 其 中 使 用 SRAM 作为 高 速 缓存 ， 但 
仍然 是 存储 器 。 表 12-1 显示 了 用 作 高 速 缓存 及 存储 器 接口 (包括 存储 缓冲 等 ) 的 晶体 管 和 
面积 所 击 的 百分比 ， 其 中 包括 两 个 厂商 的 4 个 最 近 的 处 理 器 (Patterson et al.1997)。 实 际 的 
处 理 器 是 微 处 理 器 芯片 上 一 个 小 而 且 是 进一步 缩小 的 部 件 ， 即 使 处 理 器 变 得 越 来 越 复 杂 。 图 
12-3 非常 明显 地 揭示 了 这 种 趋势 ， 其 中 显示 了 过 去 十 年 几 个 微 处 理 器 中 高 速 缓存 后 用 的 晶体 
管 数 (Burger 1997)。 





R121 微 处 理 器 芯片 上 用 于 存储 器 的 百分比 





4 FRE 晶体 管 用 于 存储 芯片 面积 用 于 存储 器 
a A l 
Ep) 微 处 理 器 存 大 小 总 数 器 的 百分比 (om?) 的 百分比 
1993 Intel I: 8 KB 3.1M 32% ~ 300 32% 
Pentium D: 8 KB 
1995 Intel I; 8KB P: 5.5M P: 28% P: 242 P: 23% 
Pentium Pro D: 8 KB +L: 31M +l: 100% + 1,: 282 +L: 100% 
L: 512 KB (Total: 88% ) (Total: 64% ) 
1994 Digital I: 8 KB 9.3 M 77% 298 37% 
Alpha D: 8 KB 
21164 L: 96 KB 
1996 Digital l: 16 KB 2.1M 95% 50 61% 
Strong-Ann D: 16 KB 
SA-110 


È: i 表示 指令 ，D: 表示 数据 ，P; 表示 处 理 器 击 片 ，L :二 级 高 速 缓存 


很 大 部 分 的 芯片 面积 甚至 更 大 部 分 的 晶体 管 是 用 作 数 据 存储 ， 而 且 组 成 在 片 的 多 层 高 速 
缓存 结构 。 这 些 在 片上 的 存储 的 投入 是 需要 的 ， 这 是 由 于 访问 片 外 存储 时 间 的 缘故 ， 该 时 间 
亦 即 芯片 接口 、 片 外 高 速 缓存 、 存 储 总 线 、 存 储 控制 器 和 实际 DRAM 的 时 延 。 对 于 很 多 的 
应 用 ， 提 高 性 能 的 一 个 重要 方面 是 增加 在 片上 存储 的 数量 。 

这 种 技术 趋势 的 一 个 机 遇 是 可 将 多 个 处 理 器 放 于 一 个 芯片 内 。 由 于 处 理 器 只 占 芯 片 实 际 
体积 的 一 小 部 分 ， 因而 只 增加 一 小 部 分 就 会 大 大 提高 潜在 的 峰值 。 由 于 复杂 性 所 带 来 的 性 能 
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回报 逐渐 减 小 ， 这 种 方法 的 论据 也 越 来 越 充 分 ， 例 如 ， 花 费 在 寄存 器 端口 、 指 令 预 取 窗 口 、 
相关 危险 检测 以 及 旁 路 ， 都 会 按照 每 周期 发 送 的 指令 数 超 线性 增长 ， 当 超过 4 路 的 超标 量 时 
性 能 改进 却 非常 小 。 因 而 ， 对 于 相同 的 面积 ， 可 选择 非 激进 的 多 处 理 器 设计 (Olukotum et 
al.1996)。 这 也 启示 我 们 对 20 世纪 80 年 代 中 期 已 经 发 展 很 长 时 间 的 SMP 技术 再 重新 考察 。 
多 数 早期 的 机 器 共享 第 一 层 片 外 高 速 缓存 ， 于 是 就 会 有 空间 给 分 离 的 高 速 缓存 ，L AEE 
存 移 人 芯片 ; 而 有 时 共享 L ， 有 时 并 不 共享 L 。 对 于 板 级 和 芯片 级 的 多 处 理 器 系统 ， 许 多 
基本 的 平衡 问题 仍然 是 一 样 的 : 共享 离 处 理 器 近 的 高 速 缓存 可 允许 细 粒 度 的 数据 共享 ， 而 且 
消除 了 其 他 层 高 速 缓存 的 一 致 性 支持 问题 ; 但 是 由 于 经 互联 网 与 共享 高 速 缓存 相连 ， 势 必 增 
大 访问 时 间 。 任 何 层 的 共享 都 可 能 发 生 相 互 干涉 ， 其 正 负 影 响 依赖 于 应 用 程序 使 用 数据 的 模 
式 。 然 而 ， 板 级 设计 很 大 程度 上 取决 于 可 用 部 件 的 特殊 性 质 。 对 于 多 个 处 理 器 在 同一 芯片 的 
情况 ， 所 有 基于 一 个 同 构 介质 的 设计 选择 都 可 以 考虑 。 另 外 ， 由 于 不 同 的 消耗 和 性 能 特点 ， 
具体 的 折 中 也 具有 不 同 的 方法 。 假 设 出 现 了 许多 廉价 的 SMP， 尤 其 是 带 有 粘 结 性 高 速 缓存 一 
致 性 支持 ， 单 芯片 上 的 多 处 理 器 则 是 多 处 理 器 发 展 的 自然 选择 。 
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图 12-3 在 微 处 理 器 芯片 上 用 于 高 速 缓存 的 晶体 管 的 份额 。 自 从 20 世纪 80 年 代 中 期 高 速 缓存 移 到 了 片上 ， 
在 商用 微 处 理 器 上 用 于 高 速 缓存 的 晶体 管 所 占 比 例 越 来 越 高 。 尽 管 处 理 器 很 复杂 并 且 开 发 了 很 强 的 
指令 级 并 行 性 ， 只 有 通过 提供 大 量 的 本 地 存储 并 且 开发 局 部 性 、 才 能 满足 处 理 器 对 数据 的 带宽 要 求 


一 个 更 为 激进 的 建议 是 : 最 接近 处 理 器 的 是 DRAM 而 不 是 SRAM 存储 器 。 传 统 上 ， 
SRAM 与 处 理 器 使 用 相同 的 工艺 ， 而 DRAM 则 使 用 完全 不 同 的 工艺 。 从 传统 上 讲 ， 微 处 理 器 


RIZE HRWHRAT A 683 





和 DRAM 的 工程 要 求 也 是 非常 不 同 的 。 微 处 理 器 的 制造 趋向 于 高 时 钟 频率 ， 而 数据 通路 和 
控制 器 之 间 采 用 多 层 金 属 的 丰富 互 连 性 结构 ;而 DRAM 结构 强调 密度 高 且 消 耗 小 ， 其 封装 
也 是 非常 不 同 的 。 由 于 要 求 带宽 ， 微 处 理 器 使 用 较 多 的 管 脚 ， 其 封装 较为 昂贵 ， 而 且 其 材料 
产生 较 大 的 热量 。DRAM 封装 具有 较 少 的 管 脚 、 低 的 开销 ， 而 且 很 适合 低 功 耗 的 DRAM 电 
路 。 然 而 ， 这 些 不 同 也 在 逐渐 消失 。DRAM 的 制造 过 程 也 正 逐 渐 适 合 处 理 器 实现 ， 具 有 两 层 
或 3 层 金属 以 及 较 好 的 逻辑 速度 (Saulsbury, Pong, and Nowatzyk 1996)。 

把 逻辑 集成 于 DRAM 的 动力 一 方面 来 自 需要 ， 另 一 方面 是 由 于 机 会 。 容 量 的 巨大 增加 
要 求 DRAM 的 内 部 结构 和 外 部 接口 应 作 相 应 的 改变 。 早 期 的 DRAM 设计 由 一 个 方形 的 位 阵 
列 组 成 ; 其 地 址 由 行列 两 部 分 组 成 ， 一 次 可 以 读 出 一 行 ， 然 后 再 选择 列 。 随 着 容量 的 增加 ， 
需要 将 多 个 小 阵列 放 在 一 个 片 内 ， 而 且 需 要 在 多 个 阵列 和 管 脚 之 间 增 加 互 连 。 另 外 ， 由 于 管 
脚 有 有限 而 且 还 需要 增加 带宽 ， 这 就 需要 一 部 分 DRAM 以 较 高 的 频率 工作 。 很 多 现代 的 DRAM 
设计 ， 包 括 同步 DRAM 、 增 强 DRAM 以 及 RAMBUS， 更 有 效 地 利用 了 DRAM 片 内 的 行 缓冲 ， 
而 县 在 行 缓冲 和 管 脚 之 间 提 供 高 带宽 传输 。 这 就 要 求 DRAM 也 能 够 处 理 逻 辑 、 同 时 ， 也 有 
很 多 机 会 将 新 的 逻辑 函数 与 DRAM 结合 ， 尤 其 是 支持 图 形 的 视频 RAM。 例 如 ，3D-RAM 在 提 
供 喷 缓 冲 的 视频 RAM 中 直接 支持 ; - 缓冲 逻辑 操作 。 

将 处 理 器 与 DRAM 集成 的 吸引 力 是 一 种 开始 的 现象 。 虽然 处 理 器 设计 受 芯 片面 积 的 限 
制 ， 但 也 没有 理由 不 使 用 高 速 处 理 器 的 制造 工艺 ; 而 且 昌 然 存储 芯片 较 小 ， 但 -一 些 系统 中 用 
的 如 此 之 多 ， 以 至 于 无 法 裁定 与 处 理 器 结合 而 造成 的 增加 的 开销 。 然 而 ，DRAM 的 容量 比 唱 
体 管 数 (也 可 以 说 处 理 器 的 使 用 面积 ) 以 更 快 的 速度 增加 。 在 千 兆 DRAM (也 许 是 下 一 代 ) 
时 代 ， 处 理 器 的 开销 增长 不 会 很 大 ， 大 概 为 20%。 从 处 理 器 设计 者 的 观点 来 看 ，DRAM 比 
SRAM 的 优点 是 在 密度 上 超过 一 个 数量 级 。 然 而 ,访问 时 间 长 且 受 限制 ， 同 时 要 求 刷新 
(SaulsburyPong and Nowatzyk 1996) 。 

或 许 对 门限 的 敏感 会 进一步 增加 PAM 的 吸引 力 。DRAM 容量 的 增加 已 经 超出 了 应 用 程 
序 在 存储 上 的 要 求 。 由 于 更 大 的 存储 容量 可 以 执行 较 大 的 应 用 程序 ， 因 而 存储 的 容量 增加 已 
在 高 端 机 器 上 获 益 : 这 可 以 减 小 通信 计算 的 比率 ， 而 且 使 并 行 计 算 更 有 效 。 在 低 端 ， 其 效果 
是 减 小 了 每 个 系统 的 存储 片 数量 。 当 只 需要 少数 的 存储 片 时 ， 具 有 较 少 管 脚 的 传统 存储 接口 
不 能 很 好 地 工作 ， 因 而 本 质 上 需要 新 的 具有 高 速 逻辑 的 存储 接口 。 当 典型 的 系统 具有 -一块 存 
储 片 时 ， 这 时 就 可 羽 将 两 者 集成 到 一 个 芯片 ， 省 去 了 两 者 之 闻 的 所 有 相关 问题 。 然 而 ， 这 就 
会 带 来 一 个 问题 : 在 大 系统 中 的 存储 结构 如 何 组 织 。 

技术 演变 中 关键 门限 产生 的 影响 是 新 技术 因素 和 市 场 变化 。 其 中 之 一 是 高 速 的 CMOS 品 
行 链 路 。 超 过 1 Gbps 的 串 行 链 路 的 标准 单元 已 经 实现 ， 而 且 更 高 的 速率 已 经 在 实验 室 中 得 
到 论证 。 在 以 前 ， 这 样 高 的 速率 只 能 通过 非常 昂贵 的 ECL 电路 和 GaA 技术 实现 。 高速 的 链 
路 使 用 少数 的 管 脚 提 供 集 成 PAM 芯片 到 大 系统 中 的 效能 成 本 合算 ,而且 可 以 形成 并 行 机 互 
连 网 的 基础 。 第 二 个 因素 是 可 配置 逻辑 的 发 展 以 及 广泛 使 用 。 这 样 可 能 将 处 理 器 、 存 储 器 和 
非 配置 逻辑 集成 到 一 个 芯片 内 ， 这 可 以 配置 适合 不 同 的 应 用 。 最 后 一 个 因素 是 基于 网 络 应 用 
市 场 快 速 增长 的 低 功 耗 处 理 器 ， 有 时 称 为 WebPC、Java 工作 站 、 掌 上 电脑 或 其 他 高 级 电子 设 
备 。 对 于 这 些 应 用 ， 中 等 芯片 的 PAM 提供 大 量 的 处 理 和 存储 容量 。 这 些 极 大 的 市 场 可 能 使 
PAM 比 桌 面 系统 更 能 成 为 商业 组 建 的 “积木 ”。 

这 些 技术 机 会 面临 的 问题 是 计算 机 节点 如 何 改变 其 组 织 结构 。 图 12-4 显示 了 基本 的 出 
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发 点 ， 其 中 显示 即使 内 部 具有 宽 通 道 以 及 增加 时 延 ， 因为 管 脚 和 连 线 非常 郧 贵 ， 在 处 理 器 和 
存储 器 位 阵列 之 间 的 子 系统 提供 的 接口 是 狭 窗 的。 在 DRAM 片 内 ， 其 数据 通路 是 非常 宽 的 。 
比特 阵列 本 身 是 封装 非常 紧 的 沟 道 式 电容 器 ， 因 而 很 难 有 所 作为 。 然 而 ， 比 特 阵列 和 外 部 接 
口 之 闻 的 缓冲 是 非常 宽 、 不 紧密 ,而且 本 质 上 是 SRAM 和 逻辑 。 当 读 DRAM 时 ， 一 部 分 地 址 
用 来 选择 行 ， 该 行 被 读 人 数据 缓冲 区 ; 同时 另外 一 部 分 地 址 用 来 选择 数据 缓冲 区 中 的 一 部 分 
比特 。 由 于 读 操作 对 比特 具有 破坏 性 ， 因 而 该 缓冲 区 还 要 写 回 。 在 写 操作 时 ， 先 读 一 行 ,在 
缓冲 区 里 修改 某 些 位 ， 最 后 写 回 该 行 。 
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图 12-4 跨越 一 个 计算 机 系统 的 各 种 带宽 。 处 理 器 数据 通路 为 几 个 字 宽 ， 通常 和 它 的 缓存 的 
接口 为 两 个 字 。L 缓存 的 块 是 32 或 @4 字 节 宽 ， 它 们 的 制约 条 件 是 处 理 器 每 次 一 个 字 的 
处 理 方式 和 微 处 理 器 芯片 的 界面 。L 缓存 更 宽 些 ， 它 们 的 制约 条 件 是 处 理 器 芯片 的 接 
日 和 存储 器 总 线 接口 。 形 成 一 个 存储 模块 的 SIMMS 可 能 有 一 个 接口 ， 比 存储 总 线 要 宽 
但 要 慢 。 在 内 部 ， 这 是 一 个 很 宽 的 数据 缓冲 区 ， 直 接 在 实际 的 位 阵列 之 间 交 换 数据 


目前 的 研究 主要 面向 三 个 基本 的 重组 可 能 性 ， 每 种 都 有 一 定 的 历史 ， 而 且 能 被 理解 、 探 
究 以 及 根据 本 书 提供 的 基本 设计 原理 进行 评价 。 这 里 只 是 简单 的 概述 ， 但 希望 读者 能 查阅 最 
近 的 文献 和 Web 网 页 。 

第 一 种 选择 是 在 与 常规 DRAM 片 数 据 缓冲 区 逻辑 上 相关 的 加 入 简单 的 专用 的 处 理 单 元 ， 
如 图 12-5 所 示 。 这 种 方法 称 为 存储 器 中 的 处 理 器 (processor in memory) (PIM) (Gokhale, 
Homes, and lobst 1995) 和 计算 RAM (Kogge 1994; Elliot, Snelgrove, and Stumm 1992)。 其 基本 
上 是 一 个 数据 并 行 操作 的 受 限 类 型 的 SIMD 处 理 。 一 般 来 说 ， 这 些 将 是 小 的 比特 串 处 理 器 并 
提供 基本 的 逻辑 操作 ; 但 它们 也 可 以 一 次 处 理 多 个 比特 甚至 一 个 字 。 正 像 我 们 在 第 1 章 所 看 
到 的 ， 这 种 方法 已 经 在 并 行 计算 机 结构 的 历史 上 出 现 过 数 次 ， 一 般 是 在 一 种 技术 转换 的 开始 
而 通用 处 理 器 并 不 很 适合 时 出 现 ， 因 此 说 特殊 的 操作 也 同样 具有 通用 的 性 能 优点 。 而 每 当 该 
方法 证 明 适 合 有 限 的 操作 时 〈 经 常 是 图 像 处 理 、 信 号 处 理 或 密集 的 线性 代数 ) ， 就 会 根据 技 
术 的 发 展 让 位 于 更 通用 的 解决 办 法 。 

举例 来 说 ， 在 20 世纪 60 年 代 早 期 就 出 现 过 数 种 SIMD 机 器 并 试图 允许 只 通过 复制 功能 





(951 | 部 件 和 共享 单个 指令 序列 来 得 到 高 性 能 机 器 ， 包 括 Staran PEPE 和 Hiac。 早 期 的 计划 在 伊利 
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庄 斯 大 学 开发 Dliac IV 时 达到 了 易 盛 ， 该 机 器 开发 了 许多 年 ， 只 是 比 CRAY-1 提前 几 个 月 运 
行 。 在 20 世纪 80 年 代 早期 ， 这 种 方法 又 在 ICL DAP 中 出 现 ， 该 机 器 提供 一 个 压缩 的 处 理 器 
阵列 ， 在 20 世纪 80 年 代 中 期 获得 很 大 进展 ， 此 时 处 理 器 芯片 已 经 大 到 足以 支持 32 位 的 串 
行 处 理 器 而 不 是 一 个 全 32 位 处 理 器 。 一 些 机 器 如 Goodyear MPP, Thinking Machines CM-I, 
MasPar 都 是 在 这 种 机 遇 下 出 现 的 。 从 后 两 种 机 器 比 前 儿 种 更 成 功 的 例子 来 看 ， 其 关键 是 在 多 
个 单元 间 提 供 通用 的 互连网 ， 并 非 只 是 一 个 低 维 的 网 格 (该 结构 显然 组 建 起 来 很 便宜 )。 
Thinking Machine 也 能 够 抓 住 单 片 浮 点 单元 的 到 来 而 改变 了 CM-2 设计 ， 进 而 提供 水 个 32 位 
PE 而 不 是 64k 个 1 位 PE。 然 而 ,这些 设计 本 质 上 是 Amdahl 定律 的 基本 挑战 ， 因 为 高 性 能 模 
式 只 能 用 在 应 用 中 适合 特殊 操作 的 情况 。 几 年 内 ， 导 致 了 具有 几 千 个 通用 微 处 理 器 的 MPP 
设计 ， 这 种 设计 可 执行 SIMD 操作 以 及 更 通用 的 操作 ， 这 可 在 更 多 的 时 间 内 利用 并 行 性 。 
PIM 方法 在 CRAY 3/SSS 使 用 (在 该 公司 申报 第 11 法 案 之 前 ) 以 为 国家 安全 局 (美国 ) 提供 
特殊 的 支持 。 对 于 更 多 传统 的 技术 、 文 献 (Aimoto et al.1996; Shimuzu et al.1996) 已 有 说 明 。 
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图 12-6 ”向量 DRAM 的 组 织 。 将 DRAM 数据 缓冲 区 增强 ， 以 提供 向 量 寄存 器 。 向 

量 寄 存 器 可 以 和 相应 的 功能 单元 一 起 构成 流水 线 。 片 载 存 储 系统 和 向 量 

支持 连接 到 一 个 标量 处 理 器 上 ， 该 处 理 器 还 可 能 有 它 自 己 的 高 速 缓存 
第 二 种 重建 选择 是 加 强 对 DRAM 体 中 数据 缓冲 区 的 支持 ， 以 作为 向 量 寄存 器 用 ， 如 图 
12-6 所 示 (Patterson et al. 1997)。 当 使 用 宽 的 比特 阵列 时 ， 在 DRAM 行 与 向 量 寄存 器 之 间 就 
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可 实现 宽带 传输 ， 但 是 对 向 量 寄存 器 的 算术 运算 是 通过 数据 流 经 少数 传统 的 功能 部 件 实现 
的 。 这 种 方法 也 具有 大 量 的 历史 依据 ， 包 括 非常 成 功 的 CRAY 机 器 以 及 其 他 未 成 功 的 尝试 。 
CRAY-1 的 成 功 部 分 与 一 年 前 未 成 功 的 CDC Star-100 向 量 处 理 器 形成 鲜明 对 照 。Star-100 在 内 
部 只 对 短 数据 段 进行 操作 ， 而 且 其 数据 是 从 存储 器 到 临时 寄存 器 。 然 而 ， 它 只 能 对 连续 ( 跨 
距 为 1) 的 向 量 操 作 ， 而 且 其 主 存 具有 长 的 时 延 。CRAY-1 的 成 功 不 只 是 向 量 寄存 器 的 应 用 ， 
而 且 也 是 与 快速 半导体 存储 器 的 结合 ; 倘若 在 向 量 寄存 器 和 存储 器 之 间 具 有 通常 的 互连网 ， 
就 可 以 执行 非 单 位 跨 距 和 后 来 的 集聚 / 散 列 操作 ， 还 有 一 些 标量 和 向 量 操作 的 有 效 耦 合 。 换 
名 话说， 就 是 它 提供 了 低 时 延 和 高 带宽 的 访问 模式 和 有 效 同 步 。 后 来 新 技术 在 这 种 设计 类 型 
上 的 努力 并 没有 完全 在 这 方面 吸取 教训 ， 包 括 FPS-DMAX (具有 向 量 在 存储 器 中 的 线性 组 
合 ) ;Stellar、Ardent、 和 Statdent 回 量 工作 站 ;， 对 SparcStation 的 向 量 扩 展 Star100; CM-5 存储 
控制 中 的 向 量 单元 ; Meiko CS-2 中 的 向 量 功能 单元 。 我 们 总 是 着 眼 于 峰值 性 能 以 及 特殊 情况 
的 低 开销 ,但 是 如 果 启 动 时 间 很 长 、 寻 址 能 力 差 或 者 与 标量 访问 的 交互 性 弱 ， 则 使 用 扩展 部 
分 的 时 间 会 急剧 下 降 ， 而 且 并 不 是 通用 的 解决 方法 。 

第 三 种 选择 是 寻求 通用 的 设计 ， 而 不 仅仅 是 移 去 与 不 同 处 理 器 封装 、 片 外 高 速 缓 存 和 存 
储 系统 有 关 的 抽象 层 。 与 DRAM 有 关 的 数据 缓冲 基本 上 是 作为 最 后 一 层 高 速 缓存 。 由 于 高 
级 DRAM 设计 从 本 质 上 使 用 数据 缓冲 作为 高 速 缓存 已 经 有 数 年 ， 因 而 这 种 缓冲 技术 非常 具 
有 吸引 力 。 然 而 ， 在 过 去 DRAM 由 于 受 狭 窄 的 片 外 高 速 缓存 接口 以 及 存储 总 线 的 限制 而 被 
束缚 。 在 更 加 集成 的 设计 中 ，DRAM 数据 缓冲 区 高 速 缓存 可 与 一 个 或 多 个 在 片上 处 理 器 具有 
直接 的 接口 。 这 种 方法 对 基本 的 高 速 缓存 设计 折 中 在 某 种 程度 上 有 了 改变 ,但 传统 分 析 技 术 
仍然 适用 。 长 的 存储 行 开销 由 于 数据 缓冲 和 比特 阵列 间 的 并 行 执行 而 减 小 。 当 前 与 DRAM 
靠近 的 逻辑 开销 对 相 联 度 产 生 更 多 的 成 本 。 因 而 很 多 方法 使 用 直接 映射 的 DRAM 缓冲 区 高 
速 缓 存 并 采用 “牺牲 者 ”缓冲 区 或 者 类 似 的 技术 来 减 小 冲突 扑 空 率 (Saulsbury, Pong 和 No- 
watzyk 1996)。 当 这 些 集成 设计 被 用 作 并 行 机 器 的 组 块 时 ， 如 果 出 现 空 间 局 部 性 ， 就 会 观察 
到 预期 的 结果 : 随 着 数据 预 取 的 改进 ， 长 的 高 速 缓存 块 会 导致 伪 共 享 增加 (Nayfeh，Ham- 
mond, and Olukotun 1996). 

当 PAM 方法 从 学 术 的 、 基 于 模拟 的 研究 转 到 实际 的 商业 开发 时 ， 我 们 希望 看 到 比 设计 
过 程 的 改变 更 深远 的 影响 。 高 速 缓存 设计 者 的 工作 不 再 是 对 一 边 是 快速 的 接口 ， 另 一 边 是 慢 
速 接口 的 通路 中 进行 某 一 步 的 优化 。 其 界限 将 被 打破 ， 其 设计 优化 成 为 端 到 端的 问题 。 我 们 
已 经 看 到 集成 通信 辅助 设备 的 所 有 可 能 性 都 正在 出 现 : 在 处 理 器 级 集成 、 集 成 进 高 速 缓存 控 
制 器 、 集 成 进 存储 控制 器 ;而 在 PAM 中 ， 可 采用 混合 解决 方法 而 不 是 只 局 限于 系统 中 的 某 
一 部 件 。 

然而 ， 随 着 集成 处 理 器 和 存储 器 的 详细 设计 出 现 ， 这 些 部 件 可 能 为 大 规模 并 行 机 提供 新 
的 通用 的 组 块 。 显 然 ， 这些 组 件 可 以 连结 成 分 布 式 存储 的 机 器 ， 而 旦 通信 辅助 部 件 也 能 在 剩 
余 的 设计 中 很 好 地 集成 ， 因 为 这 些 组 件 都 在 一 个 芯片 上 。 另 外 ， 互 连 管 脚 可 能 是 惟一 的 外 部 
接口 ， 因 而 通信 效率 就 显得 更 加 重要 ， 显 然 我 们 可 以 在 比 以 前 更 大 的 规模 上 组 建 并 行 机 器 。 
自 最 早 的 计算 机 出 现 以 来 ， 一 个 实际 中 的 限制 是 大 规模 系统 的 总 构件 数 在 10 OOO 以 内 。 更 
大 规模 的 系统 已 经 建立 ， 但 是 显得 难以 维持 。 在 早期 ， 系 统 的 规模 为 10 000 SEA, R 
后 是 10 000 个 门 ，10 000 个 芯片 。 最 近 ， 一 些 大 机 器 已 经 具有 大 约 1 000 MAME, MAE 
个 处 理 器 大 约 10 个 组 件 ， 或 者 是 芯片 或 者 是 存储 器 SIMMS。 第 一 个 万 亿 浮 点 的 机 器 拥有 大 约 
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10 000 个 处 理 器 ， 每 个 处 理 器 具有 多 个 芯片 ， 因 此 我 们 正在 注视 着 这 种 模式 是 否 会 改变 。 单 个 
芯片 上 的 完全 系统 最 好 是 将 来 的 商业 组 件 ， 这 种 组 件 在 多 种 智能 应 用 中 的 使 用 量 可 能 大 大 超过 
桌面 系统 ， 其 成 本 非 名 小。 无 论 如 何 ， 能 希望 随 着 单个 芯片 上 的 处 理 器 个 数 增加 而 得 到 更 大 规 
模 的 并 行 性 。 

一 个 非常 有 趣 的 问题 是 当 一 个 程序 需要 访问 的 数据 超出 PAM 时 ， 应 该 如 何 解决 。 一 个 
方法 是 提供 传统 的 存储 接口 扩展 。 另 一 个 更 有 趣 的 选择 是 简单 地 提供 到 其 他 PAM 片 的 高 速 
缓存 一 致 性 访问 。 这 种 技术 人 们 已 经 很 熟悉 ， 因 为 提供 这 种 功能 需要 较 小 的 硬件 支持 。 如 果 
PAM 的 处 理 器 构件 确实 很 小 ， 那 么 即使 系统 中 只 使 用 一 个 进程 ， 在 靠近 存储 器 的 地 方 增加 
一 个 处 理 器 的 开销 会 很 小 。 由 于 并 行 软件 应 用 越 来 越 普 遍 ， 因 而 当 应 用 需要 时 就 会 提供 额外 
的 处 理 能 力 。 


12.2 应 用 程序 和 系统 软件 


很 明显 ， 在 将 来 的 并 行 计算 机 体系 结构 中 ， 并 行 软件 及 软 硬 件 的 相互 作用 会 变 得 越 来 越 
重要 。 可 以 从 以 下 五 个 方面 来 看 并 行 软件 ; 应 用 程序 、 编 译 器 、 编 程 语 言 、 操 作 系 统 及 工 
其 。 并 行 软件 的 改变 和 其 他 所 有 的 改变 一 样 ， 有 三 个 阶段 : 发展、 碰壁 、 突 破 。 


12.2.1 演变 趋势 


尽管 数据 管理 和 信息 处 理 似 乎 成 为 多 处 理 器 结构 中 的 主流 应 用 ， 但 科学 工程 方面 的 应 用 
往往 需要 更 高 性 能 的 计算 。 早 期 的 科学 计算 主要 集中 在 对 一 些 具有 相当 规则 计算 与 通信 特性 
的 物理 现象 的 建 模 ， 这 样 ， 对 问题 的 简单 划分 就 能 很 好 地 利用 多 处 理 器 带 来 的 性 能 ， 就 像 早 
期 的 工作 者 可 以 有 效 地 利用 向 量 体 系 结构 一 样 。 随 着 对 主流 应 用 和 并 行 计算 的 理解 的 不 断 深 
人 ， 早 期 的 工作 人 员 开 始 构造 更 复杂 的 、 动 态 的 以 及 适应 性 的 模型 ， 这 些 模型 适用 于 大 多 数 
的 物理 现象 ， 这 使 得 应 用 程序 具有 不 规则 的 和 不 可 预知 的 特点 。 人 们 希望 这 方面 的 研究 能 够 
持续 下 去 ， 这 样 随 之 而 来 的 复杂 的 情形 可 以 更 有 效 地 利用 并 行 性 。 

由 于 多 处 理 技术 越 来 越 普遍 地 被 研究 和 使 用 ， 它 的 应 用 领域 也 随 之 不 断 发 展 ， 这 些 应 用 
很 多 已 经 与 原来 大 型 机 处 理应 用 相关 。 大 量 在 金融 和 逻辑 学 遇 到 的 优化 问题 一 一 例如 决定 商 
业 航 班 的 人 员 日 程 一 一 需要 付出 巨大 的 代价 才能 解决 ， 而 这 些 问题 常常 对 企业 利益 至 关 重 
要 ， 并 且 这 些 都 是 并 行 性 计算 应 该 解决 的 问题 。 人 工 智能 领域 发 展 起 来 的 解决 问题 的 方法 ， 
包括 搜索 技术 和 专家 系统 ， 在 许多 领域 都 有 其 实用 价值 ， 这 些 方 法 也 极 大 得 益 于 计算 能 力 和 
存储 技术 的 提高 。 在 信息 管理 方面 ， 一 个 很 重要 的 方向 是 如 何 使 用 数据 挖掘 和 决策 支持 技术 
(对 后 者 ,一 些 复杂 的 查询 用 于 为 决定 一 些 方向 提供 重要 的 决策 基础 )， 更 好 地 从 大 量 数据 中 
提取 有 用 信息 。 这 些 应 用 程序 往往 对 计算 有 强烈 的 要 求 ， 就 像 对 数据 库 有 强烈 的 要 求 一 样 ， 
并 且 对 有 关 计算 和 数据 存储 /检索 相 结合 以 建立 计算 及 信息 服务 利益 。 在 诸如 科学 计算 研究 
领域 ， 类 似 的 问题 越 来 越 多 地 出 现 。 例 如 ， 操 作 和 分 析 极为 大 量 的 生物 链 信息 ， 这 些 信 息 现 
在 通过 基因 及 排序 科学 能 够 快速 得 到 ; 还 有 ， 对 发 现 的 数据 进行 计算 以 对 三 维 结构 进行 估 
Fro Intemet 和 WWW 的 出 现 和 发 展 带 来 的 大 规模 分 布 式 计算 的 迅速 发 展 和 现代 社会 中 
存在 的 大 量 元 余 信息 使 得 计算 与 信息 管理 的 结合 更 加 不 可 避免 地 成 为 未 来 快速 发 展 的 一 个 
方向 。 多 处 理 器 已 经 成 为 nent 搜索 引擎 和 WWW 查询 的 服务 器 。 将 来 的 查询 要 求 信息 服 
务 器 能 满足 各 个 方面 的 要 求 ， 从 一 次 只 有 少量 的 、 复 杂 的 数据 挖掘 和 决策 支持 类 的 查询 到 数 
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日 巨大 的 并 行 的 查询 ， 在 使 用 家 庭 计算 机 或 手提 信息 设备 作为 客户 端的 时 候 会 出 现 这 种 
情况 。 

随 着 网 络 通 信 特性 的 改善 和 不 同 耦合 度 并 行 性 相 耦 合 的 需求 日 趋 强烈 ， 可 以 看 到 并 行 和 
分 布 式 计算 更 强烈 的 结合 。 分 布 式 计算 中 的 技术 将 被 应 用 于 并 行 计算 以 建立 大 量 的 信息 服务 
器 ， 这 样 可 以 获得 更 好 的 性 能 ， 同 时 ， 并 行 计 算 技术 在 另外 一 些 方向 中 会 使 用 分 布 式 系统 作 
为 平台 来 并 行 地 解决 一 个 独立 的 问题 。 多 处 理 器 仍然 会 充当 服务 器 的 角色 一 一 数据 库 和 事务 
服务 器 、 计 算 服务 器 以 及 存储 服务 器 一 一 尽管 这 些 服务 器 操纵 的 数据 类 型 正 变 得 越 来 越 丰 
富 ， 差 异 也 越 来 越 大 。 从 仅 包含 文本 信息 的 记录 ， 直 到 现在 图 像 、 现 实物 体 的 三 维 模型 、 视 
频 和 音频 等 各 种 信息 都 可 以 被 存储 、 索 引 、 检 索 和 分 配 。 在 查询 中 对 数据 类 型 的 匹配 往往 是 
近似 的 ， 提 供 这 些 数据 时 经 常 采用 高 级 的 压缩 技术 以 节省 带宽 ， 这 两 者 都 需要 大 量 的 计算 。 

最 后 ， 图 像 、 媒 体 及 从 传感器 得 到 实时 数据 日 益 重 要 一 一 应 用 于 军事 、 社 会 、 娱 乐 等 方 
面 一 一 将 导致 多 处 理 器 对 数据 的 实时 计算 愈 发 重要 。 与 原来 的 从 存储 系统 中 读 出 数据 、 对 数 
据 进行 操作 然后 写 回 存储 器 不 同 ， 这 要 求 对 数据 在 从 输入 到 输出 数据 端口 的 机 器 整个 路 径 上 
都 进行 操作 。 如 何 使 处 理 器 、 存 储 器 和 网 络 能 像 高 速 缓存 一 样 很 好 的 协同 工作 ， 必 须要 在 这 














个 发 展 阶段 再 次 考虑 。 随 着 应 用 空间 的 增长 ， 我 们 将 逐渐 知道 哪 类 应 用 能 真正 使 用 大 规模 的 





并 行 计算 ， 以 及 对 其 他 的 应 用 并 行 性 的 规模 应 该 是 多 大 。 还 将 知道 是 否 按 比例 增长 的 通用 体 
系 结构 适合 最 高 端的 计算 或 是 否 这 些 应 用 的 特点 确实 相差 很 大 以 致 需要 差别 很 大 的 资源 ， 并 
且 这 些 资 源 的 集成 是 有 好 的 性 能 价格 比 算 的 。 

由 于 并 行 计算 被 应 用 到 越 来 越 多 的 领域 ， 我 们 开始 注意 到 可 移植 的 封装 好 的 并 行 应 用 可 
以 用 在 许多 应 用 领域 中 。 一 个 很 好 的 例子 就 是 称 为 Dyna3D 的 应 用 程序 ， 这 个 程序 使 用 一 种 
称 为 有 限 元 素 的 方法 技术 ,求解 计算 高 度 不 规则 问题 中 的 偏 微分 方程 。Dyna3D 最 初 是 在 国 
家 人 研究 实验 室 为 武器 建 模 系统 而 开发 的 ， 系 统 的 平台 是 价值 几 百 万 美元 的 进口 超级 计算 机 ， 
冷战 结束 后 ， 这 项 技术 进入 商界 ， 运 行 于 流行 的 并 行 机 上 ， 成 为 汽车 工业 界 以 及 其 他 一 些 领 
域 中 碰撞 建 模 的 支柱 。 当 本 书 还 在 写作 过 程 中 时 ， 这 项 标准 正 广泛 应 用 于 性 价 比 良 好 的 并 行 
服务 器 对 日 常 器 械 进行 模拟 ， 例 如 ， 当 蜂窝 电话 掉 线 时 会 有 什么 事情 发 生 。 

导致 并 行 应 用 程序 广泛 应 用 的 一 个 主要 因素 是 在 大 范围 计算 机 上 实现 编程 模型 的 可 移植 
库 。 随 着 消息 传递 接口 (MPD 的 出 现 ， 它 已 成 为 消息 传递 机 制 的 一 个 实现 实体 ， 并 应 用 于 
Dyna3D: 针对 不 同 问题 的 Dyna3D 应 用 程序 通常 在 差别 非常 大 的 平台 上 运行 ， 从 用 于 消息 传 
递 的 计算 机 (例如 Intel Paragon)、 用 硬件 支持 共享 地 址 空间 的 计算 机 (例如 CRAY TD) 到 
网 络 工作 站 。 共 享 地 址 空间 的 编程 模型 在 不 同 的 通信 体系 结构 性 能 特征 上 的 可 移植 性 还 没有 
实现 ， 不 过 这 很 快 就 要 完成 了 。 

由 于 很 多 应 用 程序 既 用 共享 地 址 空间 模型 实现 ， 又 用 消息 传递 模型 实现 ， 我 们 发 现 能 将 
并 行程 序 的 算法 很 好 地 分 成 两 类 ， 一 类 更 富 于 技巧 性 、 更 依赖 体系 结构 ， 另 一 类 相对 来 说 更 
少 依赖 于 编程 模型 和 体系 结构 。 例 如 星系 模拟 和 其 他 分 层 n 体 计算 (Bames-Hut) 。 较 早 的 消 
息 传递 并 行程 序 用 正 交 递归 对 分 法 将 计算 域 分 给 多 个 处 理 器 ， 并 且 不 维护 一 个 全 局 的 树 数据 
结构 。 另 一 方面 ， 基 于 共享 地 址 空间 的 程序 则 使 用 全 局 树 和 不 同 的 分 解法 将 计算 域 做 很 不 同 
的 划分 。 随 着 时 间 的 流逝 和 消息 传递 通信 结构 的 发 展 ， 消 息 传递 逐渐 采用 了 与 共享 地 址 空间 
类 似 的 分 解 算 法 ， 包 括 使 用 哈 希 算法 建立 、 保 持 逻 辑 全 局 树 。 在 光线 跟踪 领域 中 也 出 现 了 类 
似 的 变化 ， 在 数据 结构 上 没有 任何 逻辑 共享 的 并 行 化 已 被 逮 辑 共享 的 数据 结构 所 取代 ， 这 已 


RIZE HAARAF 689 





经 在 消息 传递 模型 中 用 哈 希 方法 实现 。 这 种 趋势 的 持续 发 展 将 会 使 应 用 程序 在 优先 支持 两 种 
模型 之 一 的 系统 中 有 很 好 的 可 移植 性 。 

与 并 行 应 用 程序 一 样 ， 并 行 编程 语言 也 在 快速 的 发 展 。 最 通用 的 并 行 计 算 语言 将 持续 以 
最 通用 的 顺序 执行 编程 语言 (C、C++ 、Fortran》 为 基础 ， 加 之 对 并 行 性 的 扩展 。 实 际 应 用 
的 需求 正 推动 着 并 行 性 的 不 断 扩展 。 将 从 一 类 特殊 的 应 用 中 提取 出 的 特性 加 到 语言 中 ， 在 以 
后 的 应 用 中 会 发 现 这 些 特性 其 实 也 广泛 适 于 其 他 类 的 应 用 。 在 编程 语言 中 ， 这 种 方法 其 实 并 
不 罕见 。 在 一 个 相似 的 系统 中 ， 常 用 数据 结构 和 并 行 计算 算法 的 可 移植 库 正在 被 开发 ， 模 板 
也 正在 被 建造 ， 用 户 可 以 针对 不 同 的 特殊 应 用 对 模板 进行 定制 。 

多 种 风格 的 并 行 语言 已 经 被 开发 出 来 了 。 消 息 传递 编程 中 不 太 被 公认 的 是 MPI， 已 经 被 
多 个 平台 所 广泛 采用 ， 与 其 相似 的 是 一 种 包含 增强 原 语 的 串 行 语言 ， 这 已 在 第 2 章 中 的 共享 
地 址 空间 中 讨论 过 。 许 多 其 他 的 语言 系统 都 尽量 为 用 户 提供 一 个 基于 共享 地 址 空间 的 自然 编 
程 模 型 ， 并 且 通 过 软件 层 将 机 器 间 的 通信 特征 屏 项 掉 。 一 个 主要 的 发 展 方向 是 显示 并 行 面 向 
对 象 语 言 ， 它 强调 以 与 底层 的 数据 支持 相 结合 的 方式 ， 提 供 描 述 并 行 和 同步 的 适当 机 制 。 另 
一 个 是 含有 划分 制导 语句 的 数据 并 行 语言 ， 例 如 正 被 扩展 到 处 理 不 规则 应 用 的 高 性 能 For- 
tran。 第 三 个 方向 是 隐 式 并 行 语言 。 程 序 员 不 用 说 明 赋值 、 协 调和 映像 ， 而 只 需 说 明 任务 的 
分 解 和 每 个 任务 需 存 取 的 数据 。 基 于 这 些 说 明 ， 这 种 语言 的 运行 系统 能 确定 任务 间 的 依赖 关 
系 和 赋值 ， 并 在 并 行 执行 平台 上 合理 地 组 织 任务 。 程 序 员 的 负担 被 减轻 了 ， 至 少 被 局 部 化 
了 ， 但 是 系统 的 负担 却 增加 了 。 随 着 数据 存 取 对 性 能 影响 的 增加 ， 这 些 语 言 中 已 有 不 少 已 经 
提出 分 解 负担 的 语言 机 制 以 及 运行 时 的 策略 ， 以 达到 数据 的 局 部 性 ， 并 以 一 种 合理 的 方法 减 
少 程序 员 和 系统 间 的 交互 。 

最 后 ， 应 用 程序 编写 复杂 性 和 并 行程 序 建 模 复杂 性 的 逐渐 增加 最 终 导致 了 支持 从 小 部 分 
构建 较 大 应 用 程序 的 语言 的 发 展 。 我 们 可 以 预测 以 下 的 所 有 方向 都 能 很 好 的 持续 发 展 : 并 发 
的 正确 提取 、 数 据 提取 、 同 步 以 及 数据 的 管理 ， 库 、 模 板 ; 显 式 和 隐 式 的 并 行 编程 语言 ， 它 
们 的 目标 是 在 编程 的 简易 性 、 性 能 以 及 多 个 平台 (功能 与 性 能 ) 间 的 可 移植 性 中 达到 很 好 的 
权衡 。 

能 使 程序 自动 并 行 的 编译 器 在 过 去 的 10 年 或 者 20 年 中 已 经 有 了 很 好 的 发 展 。 伴 随 着 对 
数据 存 取 间 依赖 性 分 析 的 重大 进展 ， 编 译 器 已 经 能 使 基于 数组 的 Fortran 程序 自动 并 行 化 ， 
并 在 小 规模 的 多 处 理 器 上 取得 了 很 好 的 性 能 。 对 于 具有 特定 性 能 特征 的 体系 结构 ， 处 理 高 速 
缓存 和 主 存 中 数据 局 部 性 的 编译 器 算法 以 及 通信 结构 的 优化 也 已 经 有 了 很 大 的 发 展 〈 例 如 ， 
增 大 消息 传递 计算 机 的 通信 消息 )。 然 而 ， 编 译 器 还 不 能 很 有 效 地 并 行 较 复 杂 的 程序 ， 特 别 
是 大 量 使 用 指针 的 程序 。 由 于 指针 指向 的 地 址 在 编译 时 还 不 可 知 ， 因 此 很 难 确定 通过 一 个 指 
针 完成 的 内 存 操作 与 另 一 个 内 存 操作 是 否 具有 相同 的 地 址 。 在 这 种 情况 下 ， 交 互 式 并 行 化 编 
详 器 越 来 越 多 地 被 使 用 。 在 这 种 机 制 下 ， 编 译 器 尽 其 所 能 发 现 程序 中 的 并 行 性 ， 然 后 在 它 不 
能 确定 的 地 方 给 用 户 一 些 智 能 化 的 反馈 信息 并 向 用 户 提出 若干 问题 由 用 户 进行 选择 ， 如 分 
解 、 赋 值 及 协调 等 操作 。 如 果 能 得 到 具有 指导 意义 的 问题 和 信息 ， 一 个 对 程序 熟悉 的 用 户 可 
以 发 现 有 关 应 用 的 高 层 知 识 ， 而 这 些 知识 是 编译 器 不 具备 的 。 另 一 个 类 似 “ 血 管 ” 的 方法 是 
编译 时 和 运行 时 的 并 行 工 具 结 合 在 一 起 ， 这 时 一 些 在 运行 时 刻 收集 到 的 信息 可 以 帮助 编译 器 
(或 者 是 帮助 用 户 ) 成 功 地 将 应 用 并 行 化 。 编 译 器 在 这 些 领域 还 会 继续 发 展 ， 同 样 在 为 解决 
放松 存储 的 同一 性 模型 提供 支持 这 一 更 简单 的 领域 上 也 会 继续 发 展 。 
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操作 系统 正在 经 历 从 单 处 理 器 到 多 处 理 器 ， 从 用 作 面 向 批 处 理 的 计算 引擎 的 多 处 理 器 到 
用 作 多 道 计算 和 存储 的 服务 器 的 转变 :前 一 种 转变 包括 增加 操作 系统 的 可 扩展 性 ， 减 少 操作 
系统 的 串 行 化 ， 并 使 操作 系统 的 进程 安排 和 资源 分 配 策略 考虑 空间 和 时 间 的 局 部 性 〈 例 如， 
不 过 多 移动 机 器 上 的 进程 ;调度 进程 使 它们 更 靠近 访问 的 数据 ;尽量 每 次 把 同一 进程 安排 在 
同一 个 处 理 器 上 )。 后 一 种 转变 的 一 个 主要 挑战 是 在 公平 性 与 性 能 之 闽 找 到 一 个 平衡 点 来 进 
行 资源 分 配 和 进程 调度 ， 就 像 在 单 处 理 器 操作 系统 中 一 样 。 在 调度 多 道 程 序 进程 时 数据 的 局 
部 性 以 及 决定 资源 时 的 并 行 性 能 已 经 引起 人 们 的 关注 。 例 如 ， 多 道 程序 系统 中 应 用 程序 的 相 
关 并 行 性 能 可 以 用 来 测定 处 理 器 和 其 他 资源 以 其 他 程序 为 代价 对 它 的 访问 次 数 。 并 行 处 理 器 
的 操作 系统 钝 来 愈 多 地 融合 过 去 多 道 处 理 的 巨型 机 的 一 些 重 要 服务 特性 。 这 个 领域 的 一 个 挑 
战 是 在 提供 分 布 式 系统 的 可 靠 性 、 容 错 性 的 同时 ， 让 用 户 觉得 是 在 使 用 一 个 单 操作 系统 (这 
叫做 单一 系统 映像 )。 男 一 个 挑战 是 错误 包容 技术 ， 使 得 仅仅 出 错 的 程序 或 者 出 错 程 序 访 问 
的 资源 受到 该 错误 的 影响 ， 以 提供 人 们 想 从 巨型 机 得 到 的 可 靠 性 和 实用 性 。 如 果 基 于 微 处 理 
器 的 可 扩展 多 处 理 器 系统 想 真 正 蔡 代 大 型 机 在 大 型 组 织 中 的 “支柱 性 ”服务 器 的 地 位 ， 同 时 
执行 多 道 应 用 程序 的 话 ， 这 种 发 展 是 必要 的 。 

随 着 应 用 程序 和 系统 交互 操作 的 复杂 性 的 增加 和 存储 ， 以 及 通信 系统 对 系统 性 能 的 重要 
性 的 提高 ， 使 用 好 的 性 能 问题 诊断 工具 十 分 重要 。 这 一 点 对 共享 地 址 空间 的 编程 模型 尤其 重 
要 ， 因 为 它 的 通信 是 隐 性 的 ， 人 为 的 通信 很 容易 对 性 能 产生 其 他 影响 。 对 程序 员 来 说 ， 竞 争 
对 人 性 能 的 影响 是 特别 普遍 和 难于 诊断 的 ， 主 要 是 因为 这 种 影响 出 现在 程序 (或 机 器 ) 中 的 位 
置 与 引起 竞争 的 位 置 相差 其 远 。 人 性 能 评测 工具 的 发 展 可 以 提供 反馈 ， 在 程序 中 占据 最 大 执行 
时 间 的 模块 在 哪里 ， 什 么 样 的 数据 结构 可 能 引起 数据 访问 花费 等 等 。 我 们 高 兴 的 看 到 在 提高 
性 能 监测 工具 的 可 见 性 方面 的 技术 进步 ， 机 器 设计 者 将 有 助 于 这 种 进步 ;他 们 越 来 越 多 的 倾 
向 于 在 机 器 的 关键 点 增加 一 些 寄 存 器 或 计数 器 ， 以 助 于 进行 性 能 监测 。 我 们 还 看 到 给 用 户 的 
反馈 信息 的 质量 方面 的 进步 ， 从 程序 代码 中 哪些 地 方 因数 据 访问 延迟 而 占用 大 量 的 时 间 (S 
天 已 经 可 用 )， 到 哪 种 数据 结构 在 这 个 延迟 中 所 占 的 比例 最 大 ， 到 这 个 问题 的 原因 所 在 OR 
信 占 用 、 容 量 扑 空 、 与 其 他 数据 结构 的 冲突 扑 空 或 者 竞争 ) 。 信 息 越 详细 ， 越 依据 程序 员 所 
处 理 的 概念 〈 而 不 是 机 器 的 概念 )， 程 序 员 越 容易 处 理 这 些 信 息 ， 改 进 性 能 。 沿 着 这 样 的 路 
线 发 展 ， 有 希望 在 软 硬 件 对 性 能 诊断 的 支持 中 找到 一 个 很 好 的 平衡 。 

这 种 发 展 的 最 后 一 个 侧面 是 前 面 所 讲 过 的 不 同系 统 软件 的 整合 。 编 程 语 言 的 设计 将 使 编 
译 器 在 发 现 和 处 理 并 行 性 方面 的 工作 更 简单 ， 并 将 传送 给 操作 系统 更 多 的 信息 ， 以 帮助 操作 
系统 进行 进程 调度 和 资源 定位 。 


12.2.2 遇 到 的 困难 


在 软件 方面 ， 有 一 个 我 们 多 年 以 来 一 直 磁 到 的 难题 ， 就 是 可 编程 性 。 编 程 模型 变 得 可 以 
更 好 地 移植 ， 体 系 结构 越 来 越 收 僵 ,许多 年 来 一 直 有 很 好 的 进步 ， 但 是 并 行 编程 仍然 比 串 行 
编程 困难 得 多 。 为 了 编 好 一 个 有 高 性 能 的 程序 ， 在 寻找 并 行 性 ， 编 程 实现 和 调配 方面 需要 花 
费 大 量 的 时 间 。 调 试 一 个 并 行程 序 简直 是 一 门 艺术 ， 或 者 至 少 是 在 用 很 原始 的 科学 方法 。 并 
行程 序 调 试 的 困难 在 于 具有 各 自 的 执行 序列 的 多 个 进程 相互 作用 ， 以 及 对 时 间 的 敏感 性 。 一 - 
个 错误 是 否 在 运行 中 出 现 ， 取 决 于 一 个 进程 中 的 某 个 事件 是 否 因 另 一 个 进程 中 事件 的 出 现 而 
出 现 。 这 样 ， 操 纵 代码 的 执行 以 使 特定 的 事件 出 现 ， 可 能 打 断 时 序 ， 从 而 使 错误 无 法 显现 。 
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尽管 技术 进步 已 经 极 大 地 提高 了 并 行 计算 的 适应 性 ， 但 是 ， 要 解决 这 一 难题 需要 一 个 根 
本 性 的 突破 ， 以 使 得 并 行 计算 真正 实现 技术 和 体系 结构 的 进步 所 给 予 它 的 潜在 能 力 。 现 在 还 
不 清楚 这 一 突破 是 在 于 编程 语言 本 身 ， 还 是 在 程序 设计 方法 学 ， 或 者 它 正 处 在 一 个 逐步 改进 
的 过 程 的 关键 台阶 。 


12.2.3 潜在 的 突破 


除了 并 行程 序 设 计 语 言 或 方法 学 以 及 并 行 调试 的 突破 ， 我 们 还 希望 在 对 并 行程 序 的 推导 
理论 模型 上 获得 突破 。 虽 然 许 多 模型 能 很 好 地 表现 系统 的 本 质 性 能 特性 (Valiant 1990; Cull- 
er et al.1996) ， 并 且 一 些 模型 提供 了 一 个 方法 学 来 使 用 这 些 参 数 ， 但 是 更 重要 的 方面 是 对 复 
杂 并 行 应 用 程序 的 建 模 以 及 它们 与 系统 参数 的 相互 作用 。 目 前 还 没有 一 个 定义 得 很 好 的 方法 
学 ， 该 方法 学 可 以 让 程序 员 或 算法 设计 人 员 用 于 决定 ， 一 个 算法 在 一 个 并 行 系统 或 各 竞争 部 
分 或 协调 方法 上 哪 一 个 工作 得 更 好 。 另 一 个 突破 来 自体 系 结构 ， 如 果 可 以 在 良好 性 价 比 的 情 
帝 下 设计 一 个 机 器 ， 这 台 机 器 使 程序 员 能 够 不 再 太 拒 心 数 据 局 部 性 和 通信 特性 ; 这 就 是 说 ， 
要 真正 地 设计 一 台 能 够 让 程序 员 看 上 去 像 PRAM 那样 的 机 器 。 这 样 的 一 个 例子 是 ， 是 否 由 程 
序 引 起 的 所 有 延迟 体系 结构 都 能 容忍 。 但 是 ， 这 似乎 需要 巨大 的 带宽 ， 而 这 些 带宽 需 要 巨大 
的 花费 ， 并 且 还 不 清楚 为 了 并 行 执行 和 容忍 时 延 而 赋予 一 个 应 用 并 发 特性 有 多 大 好 处 。 

当然 ， 最 后 的 突破 在 于 并 行 编译 器 的 完全 成 荔 。 编 译 器 可 以 将 大 量 的 串 行 化 程序 转化 成 
可 以 在 一 个 给 定 的 平台 上 有 效 执行 的 并 行 操作 ， 以 达到 接近 于 由 应 用 的 固有 特性 决定 的 最 佳 
性 能 〈 即 ， 接 近 我 们 手工 编程 可 以 达到 的 最 好 性 能 )。 除 了 前 面 讨论 过 的 问题 外 ， 并 行 化 编 
洋 右 努力 寻找 和 利用 程序 中 低级 别 的、 局 部 的 信息 ， 而 不 像 现 在 只 是 能 很 好 地 处 理 高 级 别 
的 、 全 局 分 析 变 换 。 编 译 器 还 缺少 应 用 程序 的 语义 信息 ; 例如 ， 如 果 一 个 特定 的 针对 一 个 问 
题 某 阶 段 的 串 行 算法 不 能 很 好 地 并 行 ， 编 译 器 也 没 办 法 选择 另 一 个 算法 。 对 编译 器 而 言 ， 考 
虚数 据 局 部 性 、 附 加 通信 及 管理 多 处 理 器 的 扩展 内 存 结构 是 很 困难 的 。 但 是 ， 要 使 并 行 计 算 
真正 成 为 主流 ， 有 效 的 程序 员 辅 助 编译 器 并 行 化 ， 即 使 程序 员 最 低 程度 的 介入 ， 或 许 也 是 最 
重要 的 软件 突破 。 

无 论 未 来 如 何 发 展 ， 可 以 肯定 的 是 ， 持 续 不 断 的 技术 演化 会 越过 一些 重要 的 台阶 ;也 会 
面临 很 大 的 障碍 ， 但 找到 绕 开 它们 的 道路 是 可 能 的 ， 而 且 可 能 产生 一 些 意 想不到 的 突破 。 在 
重 件 和 软件 相互 作用 的 进化 周期 中 ， 计 算 机 技术 和 应 用 都 会 发 生 激动 人 心 的 变化 ， 并 行 计 算 
技术 将 活跃 在 这 种 变化 的 前 沿 。 
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附录 “并 行 基准 测试 程序 集 





尽管 很 难 提出 “有 代表 性 的 ”并 行 应 用 程序 ， 而 且 并 行 软件 还 不 成 熟 〈 语 言 和 编程 环 
境 ) ， 我 们 仍然 必须 走 用 工作 负载 驱动 来 定量 地 评价 机 器 和 体系 结构 的 道路 。 因 此 ， 一 系列 
并 行 “ 基 准 测 试 程序 ”被 开发 和 推广 起 来 。 术 语 基准 测试 程序 被 加 上 引号 ， 是 因为 很 难 用 单 
一 的 一 套 程序 对 并 行 计算 做 出 明确 的 性 能 评估 。 用 于 多 处 理 器 的 并 行 基准 测试 程序 随 应 用 领 
域 和 运行 时 特征 等 方面 的 不 同 而 不 同 ， 例如， 它们 是 否 只 包含 简单 的 “玩具 程序 ”"、 内 核 或 
者 是 真正 的 应 用 程序 ， 它 们 所 针对 的 通信 抽象 ;以 及 它们 对 基准 测试 程序 和 体系 结构 评估 的 
思想 。 下 面 是 一 些 最 常用 的 公开 的 并 行 处 理 基 准 测试 程序 。 表 A-1 给 出 如 何 获得 这 些 基准 测试 
程序 集 。 


A.1 ScaLapack 


ScaLapack 测试 程序 (Dongarra and Walker 1995; Choi et al. 1992) 是 LAPACK 线性 代数 核心 
的 并 行 化 版 本 ， 通 信和 手段 为 消息 传递 。LAPACK 测试 程序 包括 线性 方程 组 的 求解 、 特 征 值 问 
题 、 奇 异 值 问题 、 算 阵 乘 法 、 算 阵 因 式 分 解 ， 特 征 值 的 求解 方法 。 关 于 ScaLapack 测试 程序 
和 程序 本 身 的 信息 可 以 从 Oak Ridge National Laboratories 维护 的 Netlib 站 点 获得 (ULE A-1)。 


RAI 公开 能 获得 的 基准 测试 程序 和 应 用 程序 








基准 测试 程序 集 通信 抽象 应 用 领域 如 何 获得 代码 或 相关 信息 
ScaLapack 消息 传递 科学 http: //www. netlib org 
TPC CHE 数据 库 /事务 处 理 http: //www.tpe. org 
SPLASH2 ` 共享 地 址 空间 (CC) 科学 /工程 /图 形 A a an 
SPLASH-3 共享 地 址 空间 (CC) 不 定 ae en nl 
NAS hike ee 科学 http: //www. nas. nasa. gov 
NPB2 消息 传递 科学 mp: ee nas. nasa gov 
PARKBENCH 消息 传递 科学 netlib@ om. gov 
A.2 TPC 


成 立 于 1988 年 的 事务 处 理性 能 委员 会 (TPC) 建立 了 一 套 公用 的 基准 测试 程序 ，TPC-A， 
TPC-B、TPC-C 和 TPC-D。 这 些 基准 测试 程序 代表 了 不 同类 型 的 输入 和 对 事务 处 理 与 数据 库 
系统 程序 的 不 同 要 求 (事务 处 理 委 员 会 1998)。 鉴 于 数据 库 和 事务 处 理 的 工作 负载 在 并 行 机 
实际 应 用 中 十 分 重要 ， 这 些 程序 的 源 代 码 对 于 它们 的 开发 者 来 说 就 有 了 竞争 价值 ， 因 而 这 些 
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源 代码 是 很 难 获得 的 。 

TPC 对 报告 结果 有 严格 的 规定 。 报 告 结果 使 用 两 个 公制 单位 : 1) 每 秒 钟 处 理 的 事务 中 
的 吞吐 量 ， 要 求 对 90 多 以 上 事务 的 响应 时 间 跟 制 在 一 个 特定 的 阔 值 内 ， 2) 每 秒 钟 每 笔 事 务 
的 价格 性 能 比 ， 价 格 指 的 是 整个 系统 的 价格 及 其 5 年 内 的 维修 费用 的 总 和 。 这 些 基 准 测试 程 
序 的 规模 随 着 系统 能 力 的 增强 而 增 大 ， 是 为 了 能 够 切实 地 评估 系统 的 性 能 。 

第 一 个 TPC 基准 测试 程序 是 TPC-A4， 只 有 一 个 单一 的 、 简 单 的 、 更 新 密集 型 的 事务 。 它 
提供 一 个 简单 、 可 重复 的 工作 负载 单位 来 测试 在 线 事务 处 理 (OLTP) 系统 的 主要 特征 ， 比 
如 银行 户头 记录 或 机 票 定 座 系统 。 所 选择 的 银行 事务 包括 从 终端 读 100 个 字 节 、 修 改 账户 、 
营业 部 门 和 出 纳 记 录 、 写 下 历史 记录 、 最 后 向 终端 写 回 200 个 字 节 。TPC-A 已 不 再 使 用 。 

TPC-B 是 比较 集中 些 的 数据 库 基准 测试 程序 (不 是 在 线 事务 处 理 )。 它 用 于 测试 对 于 修 
改 密集 型 的 数据 库 事务 很 必要 的 系统 配件 。 因 此 它 的 主要 时 间 耗 在 大 量 的 磁盘 oE, mE 
当 的 系统 和 应 用 程序 的 执行 时 间 一 般 ， 它 还 要 求 事务 的 完整 性 。 不 同 于 在 线 事 务 处 理 ，TPC- 
B 不 需要 终端 或 网 络 连接 。 上 面谈 到 的 两 个 基准 测试 程序 (TPC-A 和 TPC-B) 于 1995 年 宣布 
被 淘汰 ， 现 在 它们 已 完全 被 TPC-C 和 TPC-D 取代 。 

TPC-C 于 1992 年 通过 。 它 比 TPC-A 更 实用 ， 且 也 继承 了 TPC-A 的 许多 特点 。TPC-C 是 个 
多 用 户 的 基准 测试 程序 ， 它 需要 一 个 远程 终端 仿真 器 来 模仿 用 户 群体 和 他 们 的 终端 。 它 模拟 
不 同 地 域 分 布 的 销售 区 内 批发 商 的 活动 : 客户 定货 、 交 费 、 查 询 以 及 送 货 和 存货 的 检查 。 数 
据 库 的 大 小 适 系 统 的 吞吐 量 扩 放 。TPC-C 的 数据 库 结构 比 TPC-A 更 复杂 ， 比 如 ， 多 种 不 同 复 
杂 度 的 事务 类 型 、 在 线 和 推迟 的 执行 模式 、 高 层次 的 数据 访问 和 更 新 的 冲突 、 模 拟 访 问 热点 
的 模式 、 通 过 主键 和 非 主键 的 访问 、 对 全 屏 终端 IO 和 格式 的 实际 要 求 ， 对 数据 划分 的 透明 
性 和 事务 处 理 回 滚 的 要 求 。 

TPC-D 是 一 个 决策 支持 的 基准 测试 程序 。 根 据 事务 处 理 委 员 会 的 定义 ， 决 策 支持 描述 了 
一 个 系统 的 能 力 , 这 种 能 力 可 以 支持 在 复杂 查询 要 求 下 商务 决策 的 形成 。 复 杂 的 查询 涉及 数 
据 库 中 的 很 大 范围 ， 而 不 只 是 单独 的 记录 (如 在 OLTP 中 )， 它 们 包括 多 表格 连结 、 大 量 的 
排序 操作 、 分 组 和 合并 、 还 有 顺序 扫描 。 在 线 事务 处 理 (TPC-C) 只 涉及 少量 的 、 主 要 是 更 
新 性 质 的 事务 ,但 决策 支持 的 查询 则 是 对 数据 库 大 量 的 、 独 立 耗 时 的 只 读 操作 。 决 策 支 持 数 
据 库 不 经 常 更 新 ， 其 更 新 或 者 是 由 阶段 性 的 批 处 理 完成 ， 或 者 由 后 台 一 些 机 动 性 小 活动 产 
生 。 这 些 更 新 活动 也 包括 在 TPC-D 中 。 和 和 TPC-C 中 的 常规 事务 操作 不 同 ，TPC-D 模拟 随意 的 
查询 ， 如 销售 趋势 的 决策 等 ， 它 通常 只 有 几 个 并 发 用 户 。 

事务 处 理 委员 打算 增加 更 多 的 基准 测试 程序 ， 包 括 商业 服务 器 的 基准 测试 程序 。 它 对 同 
步 在 线 事务 处 理 、 批 量 事务 处 理 、 只 读 在 线 事务 处 理 有 更 短 的 响应 时 间 限 制 。 客 户 机 -服务 
器 的 基准 测试 程序 也 在 考虑 之 中 。 所 有 这 些 信息 可 以 从 事务 处 理性 能 委员 会 获得 (LE 
A-1)。 


A.3 SPLASH 


斯 坦 福 共享 内 存 并 行 应 用 (SPLASH) 基准 测试 程序 (Singh, Weber, and Gupta 1992) 最 
初 在 斯 坦 福 大 学 开发 的 。 它 用 于 支持 一 致 性 复制 的 共享 地 址 空间 的 体系 结构 的 评估 。 后 来 被 
SPLASH-2 测试 程序 取代 (Woo et al.1995)。SPLASH-2 增强 和 增加 了 一 些 应 用 功能 ， 极 大 地 括 
宽 了 其 覆盖 的 范围 和 特点 。SPLASH-2 系列 现在 具有 7 个 完整 的 应 用 功能 和 5 个 计算 内 核 。 
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部 分 应 用 功能 和 计算 核心 随 数据 结构 和 使 用 的 不 同 ， 有 不 同 的 版 本 和 优化 程度 〈 参 考 4.2.2 
节 有 关 优 化 层 的 讨论 )。 这 些 程序 都 有 不 同 的 计算 领域 ， 大 部 分 在 科学 和 工程 以 及 计算 机 图 
形 等 领域 。 它 们 都 用 C 语言 编写 并 使 用 Argonne 国家 实验 室 (Boyle et al.1987) 的 Parmacs # 
包 做 并 行 设计 。 它 们 的 特点 和 使 用 方法 逻辑 指导 可 以 参阅 《Woo et al. 1995 F) TAE. iX 
本 书 中 所 有 共享 地 址 空间 机 器 上 以 作业 量 为 评价 标准 的 并 行程 序 都 源 于 SPLASH-2 基准 测试 
程序 。 该 程序 及 其 文档 资料 可 以 通过 表 A-1 中 的 信息 获得 。SPLASH-2 的 设计 者 打算 在 不 同 
应 用 领域 增加 共享 地 址 空间 程序 ， 形 成 新 版 本 SPLASH-3。 


A.4 NAS 并 行 基 准 测试 标准 


NAS 基准 测试 标准 (Bailey et al.1991, 1995) 由 美国 国家 航空 航天 局 (NASA) 的 数字 动 
态 航空 模拟 组 开发 。 它 们 是 8 种 计算 的 集合 一 一 5 个 内 核 和 3 个 伪 应 用 (不 完全 ， 但 是 比 各 
种 数据 结构 、 数 据 转换 和 航空 物理 应 用 中 的 计算 的 核心 更 具 代 表 性 )。 每 种 计算 都 分 别 用 于 
航空 物理 应 用 中 的 高 度 并 行 计算 的 一 些 重要 方面 。 内 核 包 括 很 复杂 的 计算 ， 如 : 多 机 方程 求 
解 僻 、 共 扼 方程 求解 器 、 三 维 FFT 方程 求解 器 ， 整 数 排序 程序 。 每 个 基准 测试 标准 都 有 一 小 
一 大 两 个 不 同 的 数据 集合 。 这 些 基准 测试 程序 用 于 评价 机 器 的 性 能 ， 并 且 给 出 仔细 的 报告 
有 效 的 评价 原则 。 

最 初 的 NAS 基准 测试 程序 不 同 于 前 面 提 及 的 其 他 基准 测试 程序 。 那 些 程序 是 用 高 级 语 
言 写成 (如 Fortran 或 C 并 且 带 有 并 行 性 结构 ) 的 。 但 是 NAS 基准 测试 程序 并 没有 提供 并 行 
操作 ， 而 是 纸上谈兵 式 的 基准 测试 程序 。 它 们 对 问题 进行 详细 的 描述 (例如 方程 组 及 其 限 
fil) 和 使 用 高 级 求解 方法 (例如 多 项 式 或 共 扼 方程 求解 )。 它 们 并 不 给 出 并 行程 序 ， 而 是 让 
用 户 使 用 手边 机 器 上 的 最 好 的 并 行 操作 。 用 户 可 以 选择 任何 语言 来 实现 并 行 (但 这 种 语言 必 
须 是 C Fortran 的 扩展 )、 数 据 结 构 、 通 信 抽 象 和 机 制 、 处 理 器 映射 、 内 存 分 配 和 使 用 以 及 
低级 优化 (对 汇编 语言 使 用 的 一 些 限制 )。 这 样 做 的 目的 是 ， 由 于 并 行 体系 结构 多 样 化 的 性 
能 特点 及 其 编程 模型 的 不 同 ， 同 时 还 没有 一 个 在 所 有 体系 结构 上 都 有 效 的 程序 语言 或 通讯 抽 
A; 因此 很 适合 一 台 机 器 的 一 个 并 行程 序 操作 ， 并 不 一 定 适合 另 一 台 机 器 。 如 果 我 们 要 用 一 
个 给 定 的 计算 或 测试 程序 来 比较 两 台 机 器 的 性 能 ， 我 们 就 应 该 用 最 适合 每 台 机 器 的 操作 。 这 
一 手段 给 使 用 该 程序 的 用 户 造成 很 大 压力 但 是 却 非 常 适合 两 台 截 然 不 同 的 机 器 的 比较 。 从 
另 一 方面 来 看 ， 有 了 源 代 码 用 户 就 更 容易 在 完整 定义 的 相似 体系 结构 中 作出 权衡 。 因 此 ,在 
保持 其 基本 精神 的 同时 ，NAS 还 是 给 出 了 基准 测试 程序 的 实现 ， 它 们 可 以 做 为 用 户 编写 自己 
的 基准 测试 程序 的 出 发 点 。 

因为 NAS 基准 测试 程序 ， 特 别 是 它 的 内 核 相对 容易 实现 ， 而 且 也 代表 了 科学 计算 领域 
的 一 个 有 意义 的 范围 ， 它 们 受到 多 处 理 器 提倡 者 的 广泛 支持 。 最 近 形 成 了 一 种 称 做 NPB2 的 
项 目 ， 它 通过 消息 传递 界面 (MD 标准 提供 的 可 移植 性 ， 使 用 固定 的 用 MPI 写成 的 应 用 程 
序 ， 而 不 是 以 前 描述 性 的 基准 测试 程序 了 ， 就 像 传统 的 基准 测试 程序 一 样 。 该 程序 及 其 文档 
资料 可 以 从 NAS 获得 ， 参 见 表 A-1。 


A.5 PARKBENCH 


并 行内 核 基准 测试 程序 (PARKBENCH) 的 工作 (PARKBENCH 委员 会 1994) 是 这 样 一 
个 大 规模 的 项 目 ， 它 要 开发 一 系列 用 于 并 行 机 基准 测试 的 微 测 试 程序 、 内 核 和 应 用 程序 。 
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PARKBENCH 最 初 主要 是 用 Fortran77 写 的 消息 传递 程序 。 高 性 能 Fortran (HPF) 语言 (高 性 
能 Fortran 论坛 1993) 版 本 的 设计 也 是 为 了 在 消息 传递 和 共享 地 址 空间 的 平台 上 提供 可 移植 
性 功能 。 这 些 程序 来 自 于 科学 计算 : 

PARKBENCH 提供 了 我 们 讨论 过 的 不 同类 型 的 基准 测试 程序 ; 低级 基准 测试 程序 或 微 基 
准 测试 程序、 内 核 、 简 化 应 用 程序 和 编译 测试 程序 (后 两 种 还 没有 完全 完成 )。 低 级 微 基准 
测试 程序 测试 每 个 节点 的 性 能 。 这 些 单 处 理 器 的 微 基准 测试 程序 是 为 了 评估 体系 结构 和 编译 
系统 各 方面 的 性 能 ， 并 且 获 取 一 些 可 了 解 内 核 和 简化 应 用 程序 性 能 的 参数 。 单 处 理 器 的 微 程 
序 包括 定时 呼叫 、 算 术 运 算 、 内 存 带宽 和 时 延 测试 例 程 。 也 有 单 处 理 器 的 微 基 准 测 试 程序 测 
试 通信 时 延 和 带宽 一 一 点 对 点 和 全 部 对 全 部 一 一 就 像 全 局 同步 栅 障 一 样 。 一 些 多 处 理 器 的 微 
基准 测试 标准 来 自 于 早期 的 Genesis 基准 测试 程序 (Hey 1991), 

内 核 测试 程序 可 分 解 成 矩阵 内 核 (乘法 、 因 式 分 解 、 转 置 、 三 角 化 )、 健 立 叶 变 换 内 核 
(大 规模 的 一 维 FFT 和 三 维 FFT) 、 偏 微分 方程 核心 (三 维 回归 解 和 NAS 系列 的 多 元 核心 )， 其 
他 像 共 扼 梯 度 、 整 数 排序 和 NAS 系列 中 复杂 的 并 行内 核 ， 以 及 描述 型 的 WO 基准 测试 程序 。 

简化 应 用 程序 〈 完 备 上 且 但 简化 了 的 应 用 程序 ) 应 用 于 天 气 预报 模型 ， 计 算 流 体 动 力学 、 
经 济 模型 、 文 件 优 化 、 分 子 动力 学 、 等 离子 物理 学 、 量 子 化 学 、 量 子 动力 学 、 水 库 模 型 等 诸 
多 领域 。 最 后 ， 编 译 测 试 程序 是 为 了 开发 高 性 能 Fortran 编译 器 来 测试 编译 的 优化 程度 ， 而 
不 是 特别 用 于 评估 体系 结构 。 关 于 PARKBENCH 基准 测试 标准 的 信息 可 从 表 A-1 获得 。 


A.6 其 他 正在 进行 的 工作 


SPEC/HPCG: SPEC 单 处 理 器 基准 测试 标准 (SPEC 1995) 系列 的 开发 者 (标准 性 能 评估 
公司 ) 与 传统 向 量 超级 计算 机 (Berry et al.1989) 的 基准 测试 标准 Perfect (效用 转换 性 能 评 
估 ) 的 开发 者 联合 起 来 正在 开发 SPEC/HPG 测试 标准 系列 。 这 一 标准 是 为 测试 有 着 最 先进 计 
算 技 术 的 系统 的 性 能 ， 也 就 是 多 处 理 器 系统 。 这 些 基 准 测 试 程序 也 集中 在 测试 科学 计算 的 性 
能 上 。 

还 有 许多 其 他 建立 测试 标准 的 计划 。 正 如 我 们 所 见 到 的 ， 许 多 基准 测试 程序 到 目前 为 止 
还 是 用 于 消息 传递 的 计算 ， 虽然 其 中 一 些 测试 程序 开始 提供 高 性 能 Fortran， 使 其 能 够 运行 于 
任何 有 合适 编译 器 支持 的 主流 通信 抽象 之 上 。 实 现 更 多 的 共享 地 址 空间 测试 标准 也 指 日 可 
待 ， 比 如 将 来 的 SPLASH 和 SPLASH-2。 当 前 许多 基准 测试 程序 也 还 是 针对 科学 计算 的 
(PARKBENCH 和 NAS 是 其 中 规模 最 大 的 )， 同 时 也 正在 逐渐 开发 一 些 面向 并 行 计算 机 其 他 工 
作 领 域 的 基准 测试 程序 (比如 商业 和 一 般 的 服务 器 工作 )。 几 乎 所 有 的 基准 测试 程序 都 设计 
成 一 次 在 机 器 上 运行 一 个 应 用 程序 。 现 在 还 没有 好 的 基准 测试 标准 可 以 使 多 个 基准 测试 程序 
同时 运行 在 一 个 操作 系统 之 上 ， 也 没有 针对 并 行 计 算 机 的 IO 密集 型 测试 标准 。 总 而 言 之 ， 
开发 既 具 有 并 行 计算 的 代表 性 又 容易 在 不 同 机 器 上 移植 的 基准 标准 测试 程序 是 一 个 很 难 但 又 
很 重要 的 问题 〈 因 为 我 们 在 体系 结构 权衡 方面 得 到 的 结论 依赖 于 所 使 用 的 测试 标准 )， 上 面 
所 提 到 的 都 是 朝 着 这 个 方向 的 努力 。 
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microprocessor bus《 微 处 理 器 总 线 ), 19, 21 
network (网络), 761 ~ 764, 846 
node-to-network 〈 结 点 到 网 络 ) 846 
NUMA-Q (NUMA-Q 机 ), 641 
number of ports and 《端口 数目 ), 462 
offered (提供 的 ), 762 
on rings ( 环 上 的 ), 443, 444 
out-of-cache memory (流出 高 速 缓存 的 ), 939 
point-to-point (点 对 点 ), 151, 845 ~ 846 


per-processor requirements (每 个 处 理 器 的 需求 )，312 
(fig.) 
protocol design and《 协 议 设 计 ), 307 ~ 311 
sealing (伸缩 ， 扩 放 ), 445 ~ 446，457 ~ 459 
SGI Origin2000, peak hardware (SGI Orign2000, 峰值 硬 
t+), 618 
switch (交换 开关 ), 939 
total (总 的 )，762 
uniprocessor design《 单 处 理 器 设计 ), 939 
vector memory transfer (向 量 存 储 器 传输 ), 46 
Banyan network (Banyan 网 络 )，803 ~ 804 
Barnes-Hut algorithm ( Barmes-Hut 算法 ), 79 
Bames-Hut application (Barnes-Hut 应 用 ), 76 ~ 77, 78 ~ 79, 
166 ~ 174 
assignment 《分 配 )，169 ~ 170 
Bames-Hut algorithm and (Bames-Hut #35), 79 
barrier (Hf), 106 
cache-to-cache sharing 《高 速 缓存 到 高 速 缓存 的 共享 )， 
588 
computation flow (fig. )《 计 算 流 (图 示 )), 168 
costzones 《成 本 区 域 ), 170, 171 (fig.) 
decomposition (分解 )，169 ~ 170 
error and 《错误 }, 265 
execution time 《执行 时 间 ), 174 (fig.), 214 
force calculation 〈 作 用 力 计算 )，166，169 
invalidation pattem (作废 模式 )，575 (fig.) 
invalidations (R), 577 
latency in (AYRE), 913 
mapping 《映射 )，!173 
miss rates ( 扑 空 率 )，320 (fig.) 
naming (命名 ) ,184 
n-body problem (n 体 问题 ), 79, 80 (fig.) 
ORB (ORB), 170, 171 (fig.) 
orchestration (协调 ) ,170 ~ 173 
particles, number of 《粒子 ， 数 目 ) ，265 
partitioning 《分 区 ), 169, 171 Cfig.) 
sealing (IPA, PWO, 432 
scaling of speedups on SGI Origin2000 《相对 于 SGI Ori- 
gin2000 加 速 比 的 比例 ) 622 (fig. } 
sequential algorithm 〈 串 行 算法 )，166 ~ 169 
spatial locality (空间 局 部 性 ), 170 ~ 172, 322 
speedup 《加 速 比 )，431 
speedup on SGI Origin2000 (SGI Origin2000 的 加 速 比 ), 621 
(fig. ) 
star force computation (星体 引力 计算 ), 79 
summary 《总 结 ), 173 ~ 174 
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synchronization 《同步 ), 172 ~ 173 
tasks (任务 ), 82 
temporal locality 〈 时 间 局 部 性 ) 172 
three-dimensional space calculation 《三 维 空间 计算 ), 167 
Uraffic vs. local cache 《流量 与 本 地 高 速 缓 存 的 关系 )，582 
(fig. ) 
traffic vs. number of processors (流量 与 处 理 器 数目 的 关 
系 )，580 (fig.) 
tree traversals in (WAJ), 893 
two-dimensional particle distribution (二 维 的 粒子 分 布 )， 
168 (fig. ) 
working sets 《工作 集 ), 172, Bl case studies 
barrier algorithms (HHR ), 356 ~ 357, 542 ~ 547 
all-to-all personalized communication (全 部 到 全 部 个 性 化 通 
fa), 547 
global synchronization (全 局 同步 ), 356 ~ 357 
parallel prefix 《并行 前 纺 ) , 546 ~ 547 
scalable multiprocessor synchronization (可 扩展 的 多 处 理 器 
间 步 ), 542 ~ 547 
software combining trees (软件 合并 树 ) ,542 ~ 543 
tree barriers with local spinning 〈( 带 有 本 地 踏步 等 待 的 树 机 
障 ), 543 ~ 545 
barriers ( 栅 障 ) 
centralized (集中 的 ……… ), 353 ~ 356 
faimess (公正 性 ), 356 
hardware (硬件 ), 358 
latency 《时 延 ), 356 
memory (MB) 《存储 器 (MB)), 693 
performance goals (TEBE HER), 356 
performance on SGI Challenge (SGI Challenge 的 性 能 ) 357 
(fig. ) 
scalability (可 扩展 性 ), 356 
static binary tree (静态 二 叉 树 ), 544 
storage cost (存储 成 本 ) ，356 
trafie (ME), 356 
write memory (WMB) (〈 写 存储 器 (WMB)), 693 
barrier synchroinzation ( 栅 障 同步 )，2S2，353 ~ 358 
barrier algorithms 《 栅 障 算 法 ),，356 ~ 357 
centralized barrier with sense removal ( 带 有 感应 逆转 的 集中 
AHE), 354 ~ 356 
centralized software barrier (EPRA), 353 ~ 354 
hardware barrier (HEPFHIRE) , 358 
hardware primitives (人 硬件 原 语 ), 357 ~ 358 
performance (YERE), 356。 参 见 synchronization 
baseline communication structure 《基准 通信 和 结构) ，834 
BBN Butterfly maching (BBN Butterfly 机 ), 760 


benchmarks BT 〈 基 准 测 试 程序 BT), 532 ~ 537 
kernel 《内 核 )，967 
LAPACK (LAPACK), 963 
LINPACK (LINPACK), 13 209 
low-level (底层 ), 967 
LU (LU), 532, 533 (fig.), 537~ 538 
microbenchmarks 《 微 基准 测试 程序 ), 215 ~216, 967 
NAS (NAS), 966 ~ 967 
ongoing efforts (正在 进行 的 努力 ), 968 
PARKBENCH (PARKBENCH), 967 ~ 968 
Perfect Club (perfect Club 基准 测试 集 ) ，968 
Scalapack (Scalapack 基准 测试 集 )，963 
SPEC (SPEC 基准 测试 集 ) 13, 199 
SPLASH (SPLASH) , 307，965 ~ 966 
TPC (TPC), 642, 643, 963 ~ 965 
workloads 《工作 负载 )，201 

Benes network (Benes 网 络 ), 776, 777 (fig.) 

binay trees (TI), 772 
illustrated (REE), 773 (fig.) 
space partitioning (BSP) (空间 划分 ), 250 

binding prefetch 〈 绑 定 预 取 ) , 880 

bisection bandwidth (对 分 宽带 )，761 

bisection scaling mle 〈 对 分 扩 放 规则 )，788 

bit-level parallelism 〈 位 级 并 行 性 )，15 

bit-serial design (位 串 行 设 计 ),，46 

Blizzard-S , 745 

block data transfer (HOSHE (#4), 187-188, 837 
advantages (优点 )，188 838 857 
amortized per-message overhead (每 条 消息 分 摊 的 开销 )，857 
bandwidth and (带宽 ), 241 ~ 242 
bandwidth waste (带宽 浪费 ), 857 
communication assist 《通信 和 辅助 部 件 )，854 
contention (32), 858 
disadvantages (5544), 858 
effect (效果 ), 839 (fig. ) 
explicit 〔( 显 式 的 )，853 
facility 《设施 )，238 
in FET program (在 FFT 算法 中 ), 861 
interaction with cache-coherent shared address space (和 高 速 
缓存 一 致 的 共享 地 址 空间 的 交互 作用 ), 855 ~ 856 
mechanisms (机制)，853 ~ 854 
message passing 《消息 传递 ), 848 
in near-neighbor equation solver( 在 近邻 式 方程 求解 器 程序 
里 )，859 (fig.) 
in Ocean application (在 Ocean 应 用 中 ), 861 (fig. ) 
overhead (开销 ), 242 
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overhead per transfer (每 次 传输 的 开销 ) , 858 
path (通路 ), 854 (fig. ) 
performance benefits (性 能 益处 )，856 ~ 863 
pipelined transfer (流水 传输 )，857 
pipeline stage time (流水 线 的 级 时 间 ) ，862 
policy issues (策略 问题 ), 854 ~ 856 
read-write cache-coherent communication vs. (高 速 缓 存 一 致 
的 读 写 通信 与 …… 比 较 ), 862 ~ 863 
relative performance improvement with (相对 性 能 改善 )，860 
(fig. ) 
at row-oriented partition boundaries (在 面向 行 的 分 区 边 
界 )，860 
shared address space (共享 地 址 空间 ), 853 ~ 863 
synchronization bundling 《打包 同步 ), 857 
system buffering/copying 〈 系 统 缓冲 /拷贝 ) 853 ~ 854 
techniques (ER), 853 ~ 854 
trade-offs (权衡 ， 折 中 )，854 ~ 856, 859 
transferred data placement and (传输 数据 的 放置 ), 856 
transferred data replication (传输 数据 的 复制 )，857。 参 见 
latency tolerance 

blocked multithreading (阻塞 的 多 线程 ), 898 ~ 902 
context switch (现场 切换 ), 916 ~ 917 
control 《控制 ), 916 ~ 917 
disadvantages (劣势 ), 912 
EPC (EPC), 915 ~ 916 
implementation issues (和 实现 有 关 的 问题 ), 914 ~ 917 
interleaved scheme vs. ( 交 鲁 方案 与 …… 比较 ), 911 
latency tolerance (时 延 容忍 )，903 (fig.) 
PC bus (PC 总 线 ), 919 (fig. ) 
processor utilization vs. number of threads (处 理 器 利用 率 与 
线程 数 的 关系 ), 899 (fig. ) 
requirements 《和 需求) 914 
speedup 《加 速 比 ), 912 (fig. ) 
state replication 〈 状 态 复制 )，914 ~ 915, ÆI multithread- 
ing 

blocking (BH2E), 144, 195 
asynchronous SEND operation (异步 发 送 操作 ), 115 
benefits (好 处 ), 245 
busy-waiting trade-offs ( 忙 等 待 的 权衡 ), 335 
caches (高 速 缓存 ), 414 877 
data reuse and (数据 重用 ), 246 
to exploit temporal locality 《开发 时 间 局 部 性 ) 144 (fig) 
head-of-line (47%), 805 ~ 806 
reads (I), 864 877 

block prefetch (RHR), 880 

blocks (44) 


B-by-B (一 块 一 块 地 ), 246 
busy state (位 状态 )，590 
contiguous data (连续 数据 ),，247 
directory information (月 录 信 息 ), 562 
directory state (目录 状态 ) 558 
directory tree (目录 树 ), 566 
head pointer (Sk48 41), 569 
interleaving (XX, Z), 246 
local (局 部 )，560 
remote 《远程 )，560 
size of (RF), 246 
block transfer engine (BLT) ( 块 传送 引擎 ) 819 
board-level integration ( 板 级 集成 ), 465 ~ 466 
bounded buffer problem (有 限 缓冲 区 问题 ),，117 
branch target buffer (BTB) (分 枝 上 月 标 缓冲 区 ), 918 
broadeast (广播 ) 
bandwidth (R), 459 
bit (82), 655 
media, hierarchy of (介质 , 层次 结构 )， 555 
scheme (FR), 655 
snooping mechanism 〈 侦 听 机 制 ) 559 
version 《版 本 ), 119 
BSP model (BSP 模型 )，191 
BT benchmark (BT 基准 测试 程序 ) ，532 ~ 537 
application performance (应 用 性 能 ), 534 (fig. ) 
communication characteristics (通信 特征 ), 535 (fig.) 
message profile over time 〈 随 时 间 变 化 的 消息 概况 )，536 
(fig.) 
speedups (HEE), 533 
temporal communication behavior (通信 的 时 态 行为 )，536。 
参见 benchmarks 
buffer deadlock (缓冲 区 死 锁 ), 412 
causes (原因 ), 412 
solutions 《解决 方案 )，412, 594。 参 见 deadlock 


buffering (缓冲 ) 


at hme (在 宿主 处 ), 590 ~ 591 

input (输入 )，804 ~ 806 

memory operation (存储 器 操作 ) , 863 
output (输出 )， 806 

at requestors (在 请 求 者 方 )， 591 
switch (交换 开关 ), 759 768 

virtual channel (虚拟 通道 ), 807 ~ 808 


buffers (缓冲 区 ) 


branch target (BTB) (分 枝 目标 ) 918 
channel (信道), 804 ~ 808 
FIFO( 先 人 先 出 ), 409 616 804 
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flit ( 流 控 单 元 )，816 
input (HRA). 472 482 ~ 483 
intervention request (IRBs) (十 预 请 求 (IRBs)), 615 
lookahead 《先行 )，870 
output (输出 ), 472 
prefetch ( 预 取 )，878 
read request (RRBs) 《 读 请 求 (RRBs)), 615 
reorder 〈 重 排序 ) 414, 870, 876 
stream 〈 流 ) ，882 
TLB (翻译 后 援 缓冲 器 ) 67, 223 
write (TJ), 413, 865, 867, 874 
write-back (E5), 385 
write request (WRBs) 〈 写 请 求 )，615 
bus-based systems (基于 总 线 的 系统 ) 
hierarchical (层次 式 的 ), 677 
organization (组 织 结构 ), 32 ~ 34 
scaling data in (数据 规模 扩 放 ), 445 
snoop bandwidth in (WHERE), 445 ~ 446 
buses (总线 )，555 
PCI (PCI), 635, 636, 637 
sharing (共享 ) 588, 589 
snooping (iNT), 277 ~ 283, 589 
split-transaction 事务 拆 分 )，398 ~ 415 
SysAD (SysAD) 609, 612, 613 
bus order (总 线 操作 序 )，281 ~ 282 
program order and (程序 操作 序 )，282 
writes/reads serialized in (ERT 4KAY SAE) , 291 
bus traffic (总 线 流量 ) 
block size impact on 〈 块 尺寸 的 影响 ) ,324 ~ 327 
cache block size for Multiprog (Multiprog 中 高 速 缓 存 块 的 尺 
+), 327 (fig.) 
cache block size with 1-MB caches (IMB 高 速 缓 存 的 块 尺 
寸 ), 326 (fig.) 
cache block size with 64-KB caches (64KB 高 速 缓存 的 块 尺 
F), 328 
test-and-test&set locks and (test-and-test&set #4), 343 
bus transactions (总 线 事务 ) 
arbitration medium 《仲裁 介质 ), 470 
completion of (SER), 470 
destination (目的 地 ), 470 
information format (信息 格式 ), 470 
input registers (输入 寄存 嚣 ), 470 
ordering properties 《 定 序 性 质 ), 473 
output registers (输出 寄存 器 ) ,470 
bus upgrades (总 线 升级 ), 295 
busy-overhead (忙碌 开销 )，158 


busy states 《忙碌 状 态 )，590 
blocks in (SRAY), 590 
SGE Origin2000 (SGI Origin2000), 597, 600 
busy time ({UBRATIB}), 897 
busy-useful 《有 用 忙 ) ,157, 210 
busy-waiting〔 忙 等 待 ),，106 ~ 107, 335 ~ 336 
cost (RAL), 336 
trade-offs (Hr), 335 
butterflies ($I), 774 ~ 777 
back-to-back (PSE? ), 776 
d-dimensional indirect (d 维 间 接 ), 774 
d-dimensional k-ary (d 4E k 30), 775 
fault tolerance (容错 ), 775 
forward-going 《前 向 推进 ), 777 
illustrated 《举例 ), 775 (fig.) 
links (HEH), 775 ~ 776 
routing 《路 由 ), 778 
2 x 2, 774 
with wormhole routing (具有 蛙 洞 路 由 的 )，808。 参 见 net- 
work topologies 


Cc 


cache associativity (高 速 缓 存 的 关联 度 ), 241 
cache-based directory scheme 〈 基 于 高 速 缓存 的 目录 方案 )， 
566, 568 ~ 570 
latency reduction (时 延 减 少 ), 587 (fig. ) 
NUMA-Q (NUMA-Q), 622 ~ 645, # directory protocols; 
directory schemes 
cache blocks (高 速 缓 存 块 ) 
address tag 《地 址 标记 ) ，329 
dirty (HE), 406, 409 
exclusive copy of ( 独 点 副本 ) 292 
false sharing £ (BRHF), 711 
granularity (WE), 706 
invalid, writing into (无 效 的 ， 写 入 ), 294, 296 
large, alleviating drawbacks of (KAY, RSH AX), 328 ~ 
329 
lifetime of (寿命 ), 316 
modified state (已 修改 状态 ), 292 
multiword (多 字 ), 319 
old invalidating《 旧 的 作废 )，389 ~ 390 
overhead (FF), 242 
owner (HAF), 292 
promoted (提升 的 ) 204 
replacement ($#$), 296 
shared, writing into (共享 的 ， 写 人 )，295, 206 
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sharing state 《共享 状态 ), 402 
states CARAS), 279 
state transition diagram (状态 转换 图 )，279 ~ 280 
state transitions CRASHER), 279, 367 
write-back protocols and 〈 回 写 协议 ) 296 
cache block size (URRY), 241 
bus traffic and (总线 流量 ), 324 ~ 327 
effects on proceeding past writes (越过 写 操作 的 效果 )，869 
(fig.) 
miss rate and ( 扑 空 率 ), 318 ~ 319 
trade-offs (JTF), 313 ~ 329 
cache coherence (高 速 缓 存 一 致 性 ), 272, 273 ~ 283 
with bus snooping, (EERW), 277 ~ 283 
directory-based 《基于 目录 的 ), 553 ~ 677 
example problem (实例 问题 ), 274 (fig.) 
extending (扩展 ), 433 ~ 436 
as hardware design issue (硬件 设计 问题 ), 275 
hardware support for (HE {424% ) , 669 
home memory and (宿主 存储 器 ) ，590 
I/O buses and 〈 输 人 输出 总 线 )，S15 
memory bus 《存储 器 总 线 ), 508 
NUMA-Q (NUMA-Q), 624 ~ 632 
problem (问题 ), 273 ~ 277 
processor overhead and (处 理 器 开销 ) , 645 
protocol (HPX), 305 
scalable (可 扩展 的 ), 558 ~ 559 
SGI Origin 2000 (SGI Origin 2000), 597 ~ 604 
snoop-based, on rings (基于 侦 昕 的 ), 441 ~ 444 
snooping (HTT), 272 
cache-coherent multiprocessors (高 速 缓存 一 致 的 多 处 理 机 ) 
block data transfer vs，( 与 成 块 数据 传输 比较 )，862 ~ 863 
bus-based (基于 总 线 的 ), 441 
coherence misses (一 致 扑 空 )，314 ~ 315 
hardwired assist( 硬 接线 的 辅助 部 件 ), 706 
latency tolerance 《时 延 包容 ), 926 ~ 927 
snoop-based 《基于 侦 听 的 )，589 
cache-coherent, nonuniform memory access (CC-NUMA) (高 速 
缓存 一 致 的 ， 非 均匀 的 存储 器 访问 (CC-NUMA)) 
architectures (体系 结构 ), 558, 725 
flexibility (灵活 性 ), 730 ~ 732 
hardware cost 《硬件 成 本 ), 705 ~ 706 
main memory management (HE), 653 
performance trade-offs (性 能 折 中 ), 703 (fig.) 
physical address space limitations 《物理 地 址 空间 限制 )， 
732 
two-processor system 〈 双 处 理 器 系统 )、674 


cache-coherent shared address space 〈 商 速 缓存 一 致 的 共 章 地 
-空间 )，879 ~ 891 
hardware-controlled prefetching (使 件 控制 的 预 取 )，881 ~ 
883 
hardware-controlled vs. software-controlled prefetching ( 便 件 
控制 与 软件 控制 预 取 的 比较 ) , 888 ~ 890 
interactions with multiprocessor coherence protocol (和 多 处 理 
器 一 致 性 协议 的 交互 作用 ), 887 ~ 888 
prefetching concepts (了 预 取 原理 )，880 ~ 881 
prefetching with single processor 《( 单 处 理 器 的 预 取 )，884 ~ 
887 
sender-initiated precommunication (发送 方 发 起 的 预 送信)， 
890 ~ 891 l 
software-controlled prefetching 〈 软 件 控 制 的 项 了 到 )，884。 参 
JL shared address space 
cache conflicts (缓存 冲突 ), 224 
cache controllers 《高 速 缓存 控制 器 ),62，389 
in bus-based system 〈 基 于 总 线 的 系统 ) 652 
design (设计 ), 381 ~ 382 
hardwired assist〈 硬 接线 的 辅助 部 件 )，706 
implementation requirements (实现 要求 ) 663 
lowest-level (最 低层 ) 397 
request table 〈 请 求 表 ) 402 
snooping〈 侦 听 ) ，277 
uniprocessor ( 单 处 理 机 ), 381 ~ 382 
cache misses 《高 速 缓 存 朴 空 ), 17, 140 ~ 141 
application structure and (应用 结构 ), 319 ~ 324 
capacity 《容量 ), 141, 223, 313 
classification of (分 类 ), 316 ~ 318 
coherence 《一致 性 ), 314~ 315 
cold-start 《( 冷 启动 ), 140 
compulsory《 强 制 的 ), 313 
conflict (冲突 ), 141, 164, 314, 362 ~ 363 
“context available” signal and (“现场 可 用 ”信和 号 ), 920 
cost of (…… 的 成 本 )，324 
data transfer (数据 传送 ),，58 
decomposition of (分 解 ), 318 
detection mechanism 《检测 机 制 》，558 
false-sharing( 假 共享 ), 315 ~ 316 
latency of (ASHE), 17, 324 
path of (i844), 404 ~ 406 
process migration and 〈 进 程 迁 移 )，324 
read (IE), 662, 744 
reducing (>), 141 
time 《时 间 ), 943, 944 
TIB (转换 检测 缓冲 器 ), 223, 429 
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true-sharing ( 真 共享 ), 315, 316 

upgrades 《升级 )，318 

write (43), 666 

cache miss rate (高 速 缓存 扑 空 率 ) ,943 

Bames-Hut application (Barnes-Hut 应 用 ), 320 (fig. ) 
block size and (RF), 318 ~ 319 

hybrid protocols 《混合 协议 ) ,332 (fig. ) 
invalidation-based protocols (基于 作废 的 协议 ), 332 (fig. ) 
LU application (LU 应 用 ), 320 (fig. ) 

Multiprog application (Multiprog 应 用 ), 323 (fig. ) 
Ocean application (Ocean 应 用 ), 321 (fig. ) 

Radiosity application (Radiosity 应 用 ), 320 (fig. ) 

Radix application ( Radix h¥ FA), 321 (fig. ) 

Raytrace application (Raytrace 应 用 ), 321 (fig. ) 
update-based protocols (基于 更 新 的 协议 )，332 (fig. ) 
cache-only memory architecture (COMA) 〈 唯 高 速 缓存 的 存储 
器 体系 结构 (COMA)), 680, 701 ~ 705 

access latency (访问 时 延 ), 702 

attraction memories 《吸引 存储 器 ), 701 

communication latencies (通讯 时 延 ) 729 

design options (设计 选项 ), 703 ~ 705 

explicit migration 〈( 显 式 迁 移 )，730 

fine-grained replication 〈( 细 粒度 复制 )，729 

flat directory scheme (扁平 目录 方案 )，703 ~ 704 
hardware-intensity (硬件 密度 ), 726 

hardware/software trade-offs 硬件/ 软件 折 中 ), 701 ~ 702 
hardware support 《硬件 支持 ), 702, 739 

hierarchical directory scheme (层次 式 目录 方案 ) 703 ~ 705 
high-capacity miss rates and (高 的 容量 性 扑 空 率 ), 702 
memory blocks (存储 器 块 ), 701 

performance trade-offs (性 能 折 中 ), 702 ~ 703 

read operation path( 读 操作 的 途径 )，705 

Simple (简单 的 ) 681, 726 ~ 728 

workloads (THEE), 729 ~ 730 

caches (高 速 缓 存 ), 17, 46 

allocation granularity (分 配 粒度 ), 277 

blocking (R), 414, 877 

block size GRA), 226 

commercial use of (商业 用 途 )，67 

CRAY T3E (CRAY T3E), 36 

direct-mapped (直接 映射 ), 241, 247, 362 (fig. ) 

filter bandwidth (过 滤器 带宽 )，68 

hardware (硬件 )，185 

infinite (无 限 的 )，572 

L (L), 394 ~ 395, 396 

local (本 地 的 ) 139 


lockup-free( 免 锁 的 ), 414, 922 ~ 926, 930 
LRU (最 近 最 少 使 用 算法 ), 259 
mapping conflicts (映射 冲突 ), 362 (fig. ) 
microprocessor transistors devoted tio，( 用 于 …… 的 微 处 理 器 
晶体 管 ), 948 (fig. ) 
multilevel (多 级 ), 393 ~ 398 
organization of 《组织 结构 ), 313 
per-processor (每 处 理 器 的 )，272 
remote 《远程 ),， 623 ~ 624, 660, 662 
replacement 《替换 )，185 
sealing 《伸缩 ， 扩 放 ), 236 ~ 237 
shared (共享 的 ), 434 ~ 437 
single-level ( 单 级 的 ), 281, 380 ~ 393 
snooping ( 侦 听 ), 383, 386 (fig.), 398 (fig.) 
software, fixed-size 《软件 方式 的 ， 固 定 大 小 的 )，186 
SRAM (SRAM), 304 
tertiary 《三 元 的 ), 700 ~ 701 
uniprocessor〈 单 处 理 器 )，381 
virtually indexed (虚拟 索引 的 ), 437 ~ 439 
write-back (E1), 274, 283, 291 
write-no-allocate (5 ~ 无 分 本 ), 281 (fig. ) 
write-through (H), 278, 279, 281 (fig.), 291, BIL 
cache controllers; cache misses; cache miss rate 
cache sizes (高 速 缓存 尺寸 ), 142 (fig.), 236 
choosing (WR), 239 ~ 240 
miss rate vs. (与 扑 空 率 关系 ), 224 (fig. ) 
for scaled-down problem (问题 规模 缩小 ), 237 (fig. ) 


__ cache tags (高 速 缓 存 标记 ) 


design of (BFF), 381 ~ 382 

dual (双重 的 ), 397 

looking up (查找 ), 401 

nonmatching (APERE), 396 
cache-to-cache handshake (高 速 绥 存 到 高 速 缓存 的 握手 )， 
383 
cache-to-cache sharing (高 速 缓存 到 高 速 缓存 的 共享 ) ，300， 
589 

Bames-Hut application (Barnes-Hut 应 用 )，589 

likelihood of (+++++- 的 可 能 性 ) , 507 
capacity limitations (容量 限制 ), 700 ~ 705 

COMA (COMA), 701 ~ 705 

tertiary cache 《三 级 高 速 缓存 ) 700 ~ 701 
capacity misses (REEFS), 141, 223, 314 

block size and (RF), 318 

COMA machines and (COMA #L), 702 

occurrence of (+--+ WE), 313 

Ocean application (Ocean 应 用 ), 324 
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Raytrace application (Raytrace 应 用 )，324 

reducing (减少 ), 314 

spatial locality in 《空间 局 部 性 ), 324。 参 见 cache misses 
case studies 《案例 研究 ) 

Bames-Hut application (Bames-Hut 应 用 ), 76 ~77, 78 ~79 

CM-5 (CM-5), 493 ~ 494 

CRAY T3D (CRAY T3D), 508 ~ 511, 818 

CRAY T3E (CRAY T3E)，512 ~ 513 

Data Mining application (数据 控 据 应 用 )，77,， 80 ~ 81 

IBM SP-1/SF-2 (IBM SP-1/SF-2), 820 ~ 822 

Intel Paragon (Intel 的 Paragon #1), 499 ~ 503 

LU (LU), 244 ~ 248 

Meiko CS-2 (Meiko CS-2), 503 ~ 506 

Multiprog 《多 道 程序 )，244，252 

Myricom network (Myricom 网 络 ) 826 ~ 827 

Myrinet SBUS Lanai (Myrinet SBUS Lanai), 516 ~ 518 

nCUBE/2 (nCUBE/2), 488 ~ 490 

network design (网 络 设 计 ) ,818 ~ 827 

NUMA-Q (NUMA-Q), 622 ~ 645 

Ocean application (Ocean 应 用 ), 76, 77 ~ 78 

parallel application 《并 行 应 用 ), 76 ~ 81，160 ~ 182 

PCI Memory Channel (PCI 存储 器 通道 ), 518 ~ 521 

Radiosity application (Radiosity 应 用 ), 244 249 ~ 252 

Radix application (Radix MJH), 244, 248 ~ 249, 267 

Raytrace application ( Raytrace 应 用 ), 77, 79 ~ 80 

SCI (SCI), 822 ~ 825 

SGI Challenge (SGI Challenge), 415, 417 ~ 424 

SGI Origin2000 (SGI Origin2000), 596~ 622, 825 ~ 826 

Sun Enterprise 6000 (Sun Enterprise 6000), 415 ~ 416, 424 

~ 429 

workload (工作 负载 )，244 ~ 253 
CDC (CDC) 

CDC (CDC 7600), 67 

STAR-100 (STAR-100), 67, 953 
centralized barriers (集中 式 栅 障 )，353 ~ 356 

with sense reversal ( 原 书 误 为 removal) 

BY), 354 ~ 356 

sense reversal method (感应 逆转 方法 ), 355 

shared counter (共享 计数 器 )，353。 参 见 barriers 
centralized directory schemes (集中 型 目录 方案 ), 564 
centralized queue (PRAI), 128 
channel buffers (信道 缓冲 区 ), 804 ~ 808 

input (1A), 804 ~ 806 

output (输出 )，806 

shared pool (共享 池 ), 807 

virtual channel 《虚拟 信道 )，807 ~ 808。 参 见 buffers 


( 带 有 感应 逆转 


channels (信道 ), 751, 752 
bandwidth (FE), 752 
dependence graph (依赖 图 )，793, 794 (fig. ) 
occupancy (H FA), 755 
ordering (HEF), 794 (fig. ) 
packet occupation 《数据 包 占 用 ), 756 
resource allocation (资源 分 配 ), 792 
as shared resource 《作为 共享 资源 ), 791 
time (时 间 ), 460 
virtual 《虚拟 的 ), 613, 795 ~ 796 
width (SERE), 784, 787 
chip-level integration (芯片 级 集成 ), 463 ~ 464 
circuit switching (电路 交换 ), 756 ~ 757 
CISC microprocessors (CISC 微 处 理 器 ), 19 
clocking 《定时 ) 
asynchronous 《异步 ), 765 
synchronous (同步 )，765 
closed systems (封闭 系统 ), 760 
clusters (RRF, fK), 12 
availability 《可 用 性 ), 514 
hardware primitives (硬件 原 语 )，515 
as parallel machines (作为 并 行 机 ), 514 
potential of (…… 的 潜能 ) 514 
CM* (CM*), 68 
CM-5 (CM-5), 70, 465 ~ 466, 953 
C.mmp (C.mmp), 68 
CM-1 (CM-1), 69, 952 
CM-2 (CM-2), 69, 952 
case study 〈 案 例 研 究 ) 493 ~ 494 
communication assis (通信 辅助 部 件 ) 493 
communication latency 《通信 时 延 ) 525 
“control” network 〈(“ 控 制 ” 网 络 )，542 
data networks (数据 网 络 ) 494 
latency (时 延 )，493 
machine organization (机 器 组 织 结构 )，466 (fig.) 
message interleaving (消息 交叉 ), 495 
network 《网 络 ),，465 
receive overhead (接收 开销 )，525 
send overhead (发 送 开销 ), 523 ~ 524 
shared address read (共享 地 址 读 ), 527 
user-level network support 《用 户 级 网 络 支持 ),，493 ~ 494 
coarse-grained tasks ( 粗 粒 度 任务 ) 83 
coarse vector overflow method (粗糙 向 量 溢出 方法 )，656，657 
(fig. ) 
coarse vector representation (粗糙 向 量 表示 ) ，609，656 (fig. ) 
code instrumentation 《代码 修正 ), 707 ~ 708 
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protocol cost 〈 协 议 成 本 )，708 
run-time cost 《运行 时 成 本 ) , 707 
coherence 〈 一 致 性 ) 272 
cache (高 速 缓 存 ), 272, 273 ~ 283, 433 ~ 446，553 ~ 677 
compiler-based (基于 编译 器 的 ), 723 
global (全 局 的 ), 855 ~ 856 
granularity of (------ 的 粒度 ), 146, 724, 725 (fig. ) 
hierarchical (层次 的 ), 659 ~ 669 
local (本 地 的 ), 855 
management (管理 ), 724 
memory system (存储 器 系统 )， 276 
MSI protocol and (MSI 协议 ) 297 
multilevel cache hierarchies and (多 级 高 速 缓存 的 层次 )， 
393 
object-based (基于 目标 的 ), 721 ~ 723 
properties (性 质 ), 275, 277 
serialization to location for (对 单元 访问 的 串 行 化 ) 589 ~ 
591, 604 ~ 607, 632 ~ 633 
software SVM 《软件 SVM), 721 
TLB (转换 检测 缓冲 器 )，439 ~ 441 
for virtually indexed caches 〈 虚 拟 索引 的 高 速 缓存 )，437 ~ 
439 
coherence controllers (一致 性 控制 器 ) ，562 
contention al (竞争 ), 654 
NUMA-Q (NUMA-Q), 731 
Stanford FLASH (Stanford FLASH), 731 
coherence misses 《一 致 性 扑 空 ), 314 ~ 315 
false-sharing《 假 共享 ), 315 
improving locality on (改善 …… 的 局 部 性 ), 328 
occurrence of (ee 的 发 生 ), 314 ~ 315 
true-sharing (FIFE), 315, BM cache misses 
cold misses《 冷 启动 扑 空 ), 140, 313 
block size and (RRF), 318 
occurrence of (+++ 的 发 生 ), 313 
reducing (减少 ), 314 
spatial locality in (+--+ 的 空间 局 部 性 ) , 324. BIL cache 
misses 
commercial computing 《商业 计算 ), 9 ~ 12 
communication 《通信 ), 25 
all-to-all personalized (全 部 对 全 部 个 性 化 的 )，547 
architecture implications and (体系 结构 的 影响 )，135 
artifactual (人 为 的 ， 附 加 的 )，137，139 ~ 142, 653 
available, operations 《可 用 的 ， 操 作 )，26~27 
baseline, structure (基准 ， 结 构 ), 834 
collective (集体 的 ),，55 
with communication (通信 )，837 


computation with 《对 ……… 的 计算 ), 837 
cost (Æ), 62 ~ 63, 122, 151, 156 
endpoints (端点 ), 518 
expense of (+11 的 花费 ), 138 
explicit《 显 式 的 ), 116, 187, 189 
framework for understanding (理解 框架 ), 26 
frequency of (……- 的 频率 ), 62 
granularity (粒度 ), 186 ~ 187, 724, 725 (fig.) 
hardware support for《…… 的 硬件 支持 ), 515 
impact of (…… 的 影响 ) 132 
implicit〈 隐 式 的 )，189 
inherent (固有 的 ), 140 
interprocess 《进程 间 ), 58, 131 
Meiko CS-2 (Meiko CS-2), 505 (fig. ) 
message-passing (消息 传递 ) 38, 111 
microbenchmarks 〈 微 基准 测试 程序 ) 216 
misses (bÆ), 141 
in multimemory system (〈 在 多 存储 器 系统 中 ) ，137 ~ 142 
network as pipeline for (网 络 作为 …… 的 流水 线 )，836 
(fig. ) 
overhead 〈 开 销 )，186 ~ 187 
overhead, reducing 《开销 减少 ), 487 
overlapping (HB), 63, 155 ~ 156 
performance (PERE), 755 ~ 764 
pipeline 流水线), 836 
between processes (在 进程 之 间 )，59 
processes timelines 《进程 时 线 ), 835 (fig. ) 
queues (队列 ), 498 
read-write (5), 852 
receiver-initiated (接收 方 发 起 的 )，833 
reducing (减少 ), 123, 131 ~ 135 
redundant, data (JURE), 140 
replication and (复制 ), 58 ~ 59 
sender-initiated (发 送 方 发 起 的 )，833, 879 
shared address space 共享 地 址 空间 ), 473, 474 (fig. ) 
structure (44#4), 137, 848, 852 
structuring, to reduce cost 《为 减少 成 本 的 结构 )，150 ~ 156 
SVM (SVM), 712 (fig.) 
tue ( 真 ), 58 

communication abstraction (通信 抽象 ), 26, 52, 56 
“contract” (“3224”), 53 
implementing (实现 )，488 
interface (接口 ) 53 
in large-scale machines 《在 大 规模 机 器 中 ), 469 
message passing 《消息 传递 ), 39 (fig.), 488 
role of《…… 的 角色 ), 53 
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communication architecture (通信 体系 结构 ), 25 ~ 28 
design space 《设计 空间 ), 485 ~ 486 
facets (侧面 ), 25 
communication assists (8 {a #8 Sh AEE), 50 ~ 51, 156 
blind physical DMA 〈 育 物理 DMA), 487 (fig. ) 
block data transfer ( 块 数据 传输 ) , 854 
CM-5 (CM-5), 493 
CRAY T3D (CRAY T3D), 511 
design (Wit), 51 
HAL Si multiprocessor (HAL Sl 多 处 理 器 ) ，644 
Memory Channel (存储 器 通道 )，5S18 
Myricom network (Myricom 网 络 )，826 
network transaction formatting (网 络 事 务 格式 化 ), 485 
in protocol processing 《在 协议 处 理 中 ), 645 
shared memory design and (共享 存储 器 设计 ), 51 
shared physical address space 《共享 物理 地 址 空间 》，506， 
507 
for user-level handlers 《用 户 级 的 处 理 例 程 ), 495 (fig. ) 
for user-level network ports 〈 用 户 级 的 网 络 端口 )，492 
(fig. ) 
communication latency 《通信 时 延 ), 522 ~ 523, 833 
comparison 《比较 ) 525 ~ 526 
components, hiding (构成 部 份 ， 隐 藏 ) 842 
message breakdown (消息 分 解 ),，523 (fig. ) 
speedup 《加速 比 )，842。 参 见 latency; latency tolerance 
communication processor (CP) (通信 处 理 器 ), 455, 496 
bandwidth (带宽 ) ，502 
computer processor and (计算 机 处 理 器 )，498 
concurrency intensive function 〈 并 发 性 密集 的 函数 )，499 
cooperation 《合作 ), 496 
dedicated (专用 的 ), 497 
Meiko CS-2 (Meiko CS-2), 503 
message delivery (消息 递交 ), 499 
polling 〈 轮 询 ) ，497 
synchronization operations (同步 操作 ), 496 
communication-to-computation ratio 《通信 与 计算 比 ), 132 
computing 《计算 )，132 
control of《…… 的 控制 )，132 
data set size and (数据 集 大 小 和 ……), 258 
growth rates of (07+ 的 增长 率 ) 258 ~ 259 
ME scaling (MC 伸缩 ), 433 
measuring 〈 测 量 ) 257 
n/p ratio and (n/p 比率 ), 226 
processor count vs. (与 处 理 器 数 的 关系 ), 258 
scaling models (H HRA), 212 
TC scaling (TC 扩 放 ), 433 


in three dimensions (三 维 ), 132 
in two dimensions (二 维 ), 132 
com swap instruction (比较 并 交换 指令 ), 334, 340, 649 
atomic (RF ÉY), 540 
implementing (XW), 392 
queuing lock (排队 锁 ), 540 
competing operations (竞争 操作 ), 695 
compiler-based coherence (基于 编译 器 的 一 致 性 ), 723 
compilers (编译 器 ) , 959 
advanced optimizations (高 级 优化 ) 289 ~ 290 
architecture evolution and (体系 结构 演变 ), 75 
parallelizing 《并 行 ), 961 
technology (ER), 959 
uniprocessor ( 单 处 理 器 )，289 
complete applications (完整 的 应 用 ), 217 ~ 218 
compulsory trafhic〔 强 制 性 的 流量 )，140 
Computational RAM (计算 型 RAM), 951 
computer architecture (计算 机 体系 结构 ) 
change and (7844), 4 
generations (EBT BL), 15 
history of (…… 的 历史 )，945 (fig.) 
computer systems (计算 机 系统 ) 
bandwidths across 〈 跨 …… 的 带宽 ), 951 (fig.) 
500 fastest (500 个 最 快 的 )，24 (fig. ) 
concurrency (并 发 性 )， 
degree of《…… 的 程度 ), 98 
exposing (4858), 85 
extra 《额外 的 ) 155 
finding with program structure (通过 程序 结构 发 现 )，93 ~ 
4 
Gaussian elimination (高 斯 消去 法 ), 194 ~ 195 
in Gauss-Seidel equation solver computation (在 高 斯 ~ 赛 德 
尔 方程 求解 器 计算 中 ), 95 (fig. ) 
identifying (识别 )，124 ~ 126 
limited (AREY), 84, 86 
loop nests and (EHRE), 93 
managing 《管理 ), 126 ~ 129 
reducing (减少 ), 99, 101 
sealing models 〈 扩 放 模 型 )，212 
workload (工作 负载 ), 254 ~ 257 
concurrency profiles 《并 发 性 态 ), 85 
area under curve 《曲线 下 的 面积 ), 86 
distributed time, discrete-event logic simulator 分布 的 时 间 ， 
离散 事件 逻辑 模拟 器 )，87 
x-axis points (x ~ 轴 点 ), 87 
conflicting operations (冲突 操作 ) 695 
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conflict misses (冲突 型 扑 空 ), 141, 314, 876 
across grids ( 跨 网 格 的 ), 164 
increase of (***** 的 增长 ), 319 
occurrence of (-…… 的 发 生 )，314 
predicting 《预测 ) 885 
reducing (减少 )，314。 参 见 cache misses 
conflict order (PŽ KIF), 696 
constraints (约束 ) 
resource-oriented (面向 资源 的 ), 207 
user-oriented (面向 用 户 的 ) 207 
contention (竞争 ) 
assist occupancy and (辅助 部 件 占用 度 ) , 647 
block data transfer and ( 块 数据 传输 ) 858 
cause of (+++ 的 原因 ), 154, 654 
at coherence controllers《 在 一致 性 控制 器 处 ), 654 
endpoint 〈 端 点 ) 154 
at endpoints (在 端点 处 ), 761 
latency and (时 延 ), 759, 786, 787 (fig. ) 
lock algorithms and ( 锁 算法 ) 675 
network 〈 网 络 ) 154 
orchestration strategies and (协调 策略 ) 654 
prefetching and ( 预 取 ), 895 
preserving (保留 )，235 
problem 《问题 ), 153 ~ 154 
reducing (减少 ), 153 ~ 154 
resource (资源 ), 62 
context status word (CSW) (上 下 文 状态 字 ), 915 
context switches (上 下 文 切 换 )，897, 901 
in blocked scheme 《在 成 块 方案 中 ), 916 ~ 917 
overhead (开销 )，901。 参 见 switches 
Convex Exemplar (Convex Exemplar), 570, 700 
crossbar 《交叉 开关 ), 940 
SCI specification (SCI 规范 ), 822 
correctness (IE BAPE), 377 
classes (28), 589 
deadlock (FEE), 594 ~ 595 
livelock CGH) , 595 
NUMA-Q (NUMA-Q), 632 ~ 634 
requirements (需求 ), 378 ~ 380 
serialization across locations for sequential consistency (为 了 顺 
序 同一 性 的 跨 单元 串 行 化 ), 592 ~ 593 
serialization to location of coherence (对 一 致 性 单元 的 串 行 
化 ), 589 ~ 591 
SGI Origin2000 (SGI Origin2000) , 604 ~ 609 
starvation (RIR), 595 ~ 596 
cost (Æ), 59 


amortizing 《分 摊 ) ，588 

busy-waiting 〈 忙 等 待 )，336 

cache miss〈 高 速 缓存 扑 空 )，324 
communication (通信 )，62 ~ 63, 122, 151, 156 
data access (数据 存 取 )，138 

delay 〈 延 迟 ) 152 

design (设计 )，188，679 

fixed (固定 的 ), 461 

hardware《 硬 件 )，188, 705 ~ 724 
implementation (实现 ), 679 

message 《消息 )，151 

network (网 络 )，782 

parallelism 〈 并 行 性 )，537 

performance trade-off (性 能 折 中 ), 2, 4, 15 
pipelining (流水 操作 )，900 

reducing over integrated/specialized assist (通过 集成 的 或 专 
门 的 辅助 部 件 来 减少 )，708 

reducing through communicationstructure (通过 通信 结构 来 
减少 ), 150~ 156 

scaling (伸缩 ， 扩 放 ), 461 ~ 462 

start-up 《启动 ), 60 

switch (ZFX), 768, 898, 900 

unready thread (未 就 绪 的 线程 ), 909 ~ 910 


costup《 成 本 增加 )，462 
costzones 《成 本 区 域 ), 170, 171 (fig.) 
CRAY (CRAY) 


C90 vector processor (C90 向 量 处 理 机 ), 8 
CRAY-1 (CRAY-1), 45, 67, 953 

CS6400 (CS6400), 410, 445 

SCX LO network (SCX IO 网 络 )，822 

3/SSS (3/SSS) ，952 

vector supercomputers (向 量 超 级 计算 机 ), 8, 22 
Xmp (Xmp), 337 


CRAY T3D (CRAY T3D), 8, 70, 186, 508 ~ 511 


access time (访问 时 间 ), 510 

Alpha architecture (Alpha 体系 结构 )，509 
Alpha 21064 (Alpha 21064), 509 ~ 510, 511 
annex registers ( 相 联 寄存 器 )，510 

BT benchmark (BT 基准 程序 ) 533 

bulk transfer engine (成 批 传送 引擎 ), 511 
communication assist (通信 辅助 部 件 ),，511 
design (设计 ), 508 ~ 509 

DTB Annex (DTB Annex), 510 

flow control ( 流 控 ) ，820，942 

hardware support for barriers (硬件 对 顶 障 的 支持 ) 542 
links〈 链 路 ) 819, 820 
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LU benchmark (LU 基准 测试 程序 ), 532 

machine organization 《机 器 组 织 结构 ), 509 (fig. ) 
network, case study (网 络 ， 案 例 研究 ), 818 ~ 820 
nonblocking stores 《无 阻塞 的 存 贮 ), SH 
nonblocking writes 〈 无 阻塞 的 写 ) 513 

packet buffers (数据 包 缓冲 区 )，820 

packet formats (数据 包 格 式 )，819 (fig.) 

prefetch buffer (FUR Mah), 878 

prefetch instruction ( 预 取 指 令 ), 511 

routing distance (路 由 距离 )，820 

scaling (4° 3, IHA), 509 

shared address read (FES HOHE BE) , 528 
synchronous link design (同步 链 路 设计 ), 765 


three-dimensional bidirectional torus (三 维 双 向 花环 )，818 


user-level messaging support 《用 户 级 消息 支持 ), 526 
virtual-to-physical translation (虚实 转换 ), 510 
write buffer ( 写 缓冲 器 ), 511 
CRAY T3E (CRAY T3E), 36 (fig.), 186, 512 ~ 513 
Alpha 21164 processor (Alpha 21164 处 理 器 ), 512 
asynchronous link design (异步 链 路 设计 ), 766 
block transfer engine utility 〈 块 传送 引擎 设施 ) ，512 
design (Wit), 512 
E-registers (E -~ 寄存 器 组 ), 512 
improvements《 改 善 ),， 512 ~ 513 
nonblocking writes (无 阻塞 写 ), 513 
prefetch buffer 〈 预 取 缓 冲 器 )，878 
prefetch queue utility ( 预 取 队 列 设施 )，512 
critical section (HiFX), 105 
crossbar (Z RFF), 803 ~ 804 
Convex Exemplar (Convex Exemplar), 940 
implementations (实现 ), 803 (fig. ) 
memory as (FMA), 802 
size increase (尺寸 增长 )，808 
tristate drivers and (三 态 驱 动 器 ),，809 
crossbar switch (交叉 开关 交换 机 ), 30, 31 (fig.), 34 
cube-connected cycles (立方 体 连接 环 ), 811 
cut-through routing (直通 路 由 ), 757 (fig), 782 
deadlock (3E), 792 
distance (FERS), 779. BH routing 
Cyber 835 mainframe (Cyber 835 主机 ), 924 ~ 925 
cycles per instruction (CPI) 《每 指令 周期 数 )，138 
cyclic assignment (循环 分 配 )，98，108 


cyclic redundancy checks (CRCs) 〈 循 环 元 余 校 验 ) 608, 633 


SP networks and (SP 网 络 ) 822 
trailer word (FB), 766 


D 


dancehall multiprocessor organization 《舞池 型 多 处 理 器 组 织 结 
构 )，459 (fig.) 
data access (数据 存 取 ) 
cost (WE), 138 
in multimemory system (在 多 存储 器 系统 中 ), 137 ~ 142 
workload (工作 负载 ), 254 
dataflow architecture 《数据 流体 系 结构 ), 47 ~ 49 
division 《分割 ), 48 
dynamic scheduling (动态 调度 ),，51 
execution pipeline (执行 流水 线 ), 48 (fig. ) 
graph (K), 48 (fig. ) 
operation naming (PREY), 48 ~ 49 
tagged-token (加 标记 的 令 牌 )，48 
tags (标签 ), 47 ~ 48 
tokens 〈 令 牌 )，47。 参 见 parallel architectures 
Data General (Data General), 570 
data-local (局 部 数据 ) 158 
data mining 〈 数 据 挖掘 ),80 ~ 81 
for associations (关联 ), 80 ~ 81 
data queries vs. (数据 查询 ), 80 
Data Mining application (数据 控 据 应 用 ), 77, 80 ~ 81，178~ 
182 
assignment (分 配 ), 83, 180 ~ 181 
barrier (HIRE), 106 
decomposition 〈 分 解 )，180 ~ 181 
disk access 〈 磁 盘存 取 )，182 
equivalence classes 〈 等 价 类 别 )，180，181，182 
itemsets (项 目 集 )，180，278 ~ 279 
lexicographic sorting《 字 上 典 式 的 排序 ) 182 
load balance (MRF), 180 ~ 181 
mapping (BRAY), 182 
orchestration (协调 ) 181 ~ 182 
sequential algorithm (H24FHYE), 179 ~ 180 
spatial locality 《空间 局 部 性 }，182 
summary 《总 结 )，182 
synchronization (同步 ), 182 
tasks 任务， 作业 ), 82 ~ 83 
temporal locality (时 间 局 部 性 )，182 
data parallelism 《数据 并 行 )，124,， 125 
data parallel processing 《数据 并 行 处 理 ), 26, 44 ~47 
equation solver pseudocode (方程 求解 器 伪 代 码 )，100 
(fig. ) 
languages (语言 ), 47 
multiple cooperating microprocessors (多 协作 微 处 理 器 ) 46 
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orchestration under (在 …… 之 下 协调 ), 99 ~ 101 
“virtual processor” operations 【(“ 卉 拟 处 理 器 ”操作 )，49 
data-race-free models (无 数据 竞争 的 模型 ), 695 
data races 《数据 竞争 ), 696 
data-remote 《远程 数据 )，158 
data reuse 《数据 重复 使 用 ), 246 
data set size (数据 集 大 小 ) ，206 
data structuring, optimization 《数据 结构 优化 ), 219 
data traffic components (数据 流量 成 分 ), 360 
data transfers 《数据 传输 )，58 
bandwidth (带宽 ), 60 
granularity (粒度 ), 145 
occurrence of (……… 的 发 生 ), 58, 59 
time for (++ 的 时 间 ), 60 ~ 61 
within machines 《机 器 内 部 ),59。 参 见 block data transfer 
deadlock (JES), 378 ~ 379, 791 
avoidance assumption, breaking (回避 假设 ， 突 破 ), 594 
buffer (缓冲 区 ), 412, 594 
in computer system 《在 计算 机 系统 中 ), 379 (fig.) 
cut-through routing (直通 路 由 ), 792 
DASH system and (DASH 4), 594 
detection methods 〈 检 测 方法 )，594 
examples (fF), 792 (fig. ) 
fetch (FX), 390, 412, 483 ~ 485 
freedom (自由 度 ), 791 ~ 795 
“head on”( 朝 向 ), 791 
NACK solutions (NACK 解决 方案 ), 596 
network transactions and (网 络 事务 ),，473 
NUMA-Q (NUMA-Q), 633 
potential (HRE), 378, 390 
prevention 《预防 ), 379, 412 
SGI Origin2000 (SGI Origin2000), 595, 608 
store-and-forward routing (存储 转发 路 由 ), 792 
at traffic intersection 《在 通信 流 的 交 聚 点 ), 379 (fig. )。 参 
JR, livelock; starvation 
deadlock-free networks 〈 免 死 锁 网 络 ) ,483 
DEC Alpha (DEC Alpha), 12, 693, 699 
DEC Memory Channel (DEC 存储 器 信道 ) 520 
hardware organization (硬件 组 织 结构 ), 521 (fig. ) 
transmit regions (AiAK AR), 520 
decomposition (分 解 ), 83, 84 ~ 88 
Bames-Hut application (Bames-Hut 应 用 ), 169 ~ 170 
of cache misses (高 速 缓存 扑 空 ), 318 
changes to (转变 到 ), 107 ~ 108 
Data Mining application (数据 挖 气 应用)，180 ~ 181 
domain (HR), 132, 134 (fig. ) 


equation solver kemel 《方程 求解 器 内 核 ), 93 ~ 98 
goal of (+--+ 的 目标 )，84 
Ocean application (Ocean 应 用 ) 161 ~ 163 
Raytrace application (Raytrace 应 用 ), 175 ~ 176 
row-based 〈 基 于 行 的 ) 98 
scatter 《散布 ) 176, 246, 参见 parallelization process 
DECOMP statement (DECOMP 语句 )，100 ~ 101 
decoupled hardware approach 〈 去 耦合 的 硬件 方法 ),，707 
dedicated message processing (专用 消息 处 理 ), 496 ~ 506 
machine organization with embedded processor (具有 媒人 处 
理 器 的 机 器 组 织 ), 498 (fig. ) 
machine organization with symmetric processor 《具有 对 称 处 
理 器 的 机 器 组 织 ), 497 (fig. ) 
Dekker’ s algorithm (Dekker 算法 ), 284, 688 
delay (延迟 ) 
cost (Æ), 152 
network (网 络 ), 61, 62, 646 ~ 647 
network transit 《网 络 传输 ) ，152 
propagation (传播 ), 815 
reducing 《减少 ), 152 ~ 153 
routing (路 由 ), 460, 758, 761, 781 (fig.) 
switching 《交换 ), 756 
delayed-exclusive replies (延迟 的 排他 应 答 )，698 
delta network (delta 网 络 ) ，804 
dependence order (KHF), 54 
dependences 〈 相 关 性 )，124 
data (数据 ) 94 
in Gauss-Seidel equation solver computation (在 高 斯 - 赛 德 
尔 方程 求解 器 计算 中 ), 95 fig.) 
Ocean application, among grid computations (Ocean 应 用 ， 在 
网 格 计算 中 ) 162 
deterministic routing (确定 性 路 由 ) , 790 ~ 791 
algorithms 《算法 ), 791 
multiple routes (多 路 由 ), 791 
routing path conflicts 《路 由 路 径 冲 突 )，801 (fig.)。 参 见 
routing 
diffs (diffs), 717 ~ 718, 737 
application (应 用 ), 718 
computation (计算 ), 718 
correct order of (***. 的 正确 顺序 ), 738 
ERC (ERC), 745 
LRC (ERC 《纵向 元 余 校 验 )), 717, 746 
processing (数据 处 理 ), 718 
storage, reducing (FFR, WD), 739 


digits (数位 ), 248 
dimension order routing (E/F Rh), 789, 800 
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directed acyclic graph (DAG) (有 向 无 环 图 ), 797 
direct-mapped caches (直接 映射 高 速 缓 存 )，241, 247, 362 
(fig. ) 
direct memory access (DMA) (直接 存储 器 访问 ), 455 
controllers (4 Hil##) , 490, 495 
descriptor (描述 符 ) 493 
devices (设备 ), 486 
engine (313), 486, 499 ~ 502, 517 
full-cache-block write (对 高 速 缓 存 的 满 块 写 ) , 422 
HIO interface chips and (HIO 接口 芯片 ) 422 
IBM SP-2 engine (IBM SP-2 引擎 ) ,41 
input channels (输入 通道 ), 488, 489 
LO transfers by (1/0 传输 ), 274 
nonblocking sends and 〈 无 阻塞 发 送 ) 40 
output channels (输出 通道 )，488 
partial-block write (部 分 块 写 ) 422, 423 
performance advantages (性 能 优势 )，493 
physical (物理 的 ), 486 ~ 491 
read requests (RPR), 422 
read responses ( 读 响 应 )，422 
SGI Origin2000 support (SGI Origin2000 支持 ), 610 
transfers (传输 ), 40, 43, 481, 487, 391, 493 
direct networks (直接 网 络 ), 489 
directories (目录 )》 
basic operation of (…… 的 基本 操作 ), 561 (fig.) 
block information ( 块 信息 )，562 
distributed, doubly linked list (分 布 式 的 ， 双 向 链表 ) 569 
(fig. ) 
height (RBE), 568 
height reduction (高 度 减少 ), 659 
hierarchical (层次 式 的 ), 660, 664 ~ 667 
limited pointer (有 限 指 针 ), 568 
on read miss (RAL), 560 
organization of (…… 的 组 织 结构 )，565 ~ 571 
sparse (IBLE), 659 
state diagrams 《状态 图 ), 670 (fig.), 671 (fig. ) 
storage overhead, reducing (存储 开销 , 减少 ), 655 ~ 659 
value of (07-4 的 值 ) 564 
width (宽度 ), 568 
width reduction (宽度 减少 ), 655 ~ 658 
directory-based cache coherence 〈 基 于 目录 的 高 速 缓存 一 致 
HE), 553 ~ 677 
approaches (途径 ， 路 线 ), 559 ~ 571 
complexity (复杂 性 )，669 
hierarchical coherence (层次 式 的 一 致 性 ) ,659 ~ 669 
parallel software implications (并 行 软件 的 影响 ), 652 ~ 655 


performance parameters 《性 能 参数 ) 645 ~ 648 
storage overhead reduction 〈 存 储 开销 减少 ) , 655 ~ 659 
synchronization (同步 ), 648 ~ 652 
two-level organizations (二 层 组 织 ), 557 (fig.). 25 cache 
coherence 
directory-based multiprocessors (基于 有 目录 的 多 处 理 器 )，553 
~677 
directory controllers (目录 控制 髓 ), 562, 639 
directory lookup (目录 查找 ),，586,， 599 
directory protocols (目录 协议 ), 556 
assessing (if ffi), 571 ~ 579 
assist occupancy impact 《辅助 部 件 占 用 度 的 影响 )，646 ~ 
647 
cache block size effects 高速 缓 存 块 大 小 影响 ), 579 
correctness (正确 性 )，589 ~ 596 
definitions 《定义 ) ，560 
design challenges〈 设 计 挑 战 )，579 ~ 596 
directory state (目录 状态 ), 558 
dirty node 《骨节 点 ),，560,，562 
exclusive node 《独占 节点 ), 560 
home node (EWA), 560 
local node 《本 地 节点 ),560 
local vs. remote traffic (本 地 与 远程 流量 比较 ), 578 ~ 579 
machine organization and (机 器 组 织 结 构 ),，587 ~ 589 
network delay impact 《网 络 延 迟 的 影响 ) , 646 ~ 647 
NUMA-Q (NUMA-Q), 624 
operation (操作 ), 560 ~ 564 
optimizations (优化 )，585 ~ 587 
outer protocol as《 外 部 协议 ), 556 
overview 〈 概 述 ) 559 ~ 571 
owner node 〈 拥 有 者 节点 )，560 
performance (PERE), 584 ~ 589, 645 ~ 648 
sealing ( 扩 放 ， 伸 缩 )，564 ~ 565 
SGI Origin (SGI Origin), 588 
directory schemes {目录 方案 ) 
altematives 《可 选 的 ， 另 外 的 ， 其 他 的 ), 567 (fig.) 
cache-based (基于 高 速 缓存 的 ), 566, 568 ~ 570 
centralized (集中 的 ), 564 
data sharing patterns (数据 共享 模式 ), 571 ~ 577 
flat (扁平 的 ), 565, 567 ~ 571 
hierarchical (层次 的 )，565 ~ 567 
memory-based (基于 存储 器 的 ),，566, 567 ~ 568 
operation (BRIE), 560 ~ 564 
summary (总 结 ), 571 


directory states 《目录 状态 ) 


busy ( 忙 ), 603 ~ 604 
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exclusive 《独占 ) ,603 
directory trees (目录 树 )，566 
dirty bit《 脏 位 )，560，563 
dirty node 《 脏 节 点 )，560, 562, 591 
distributed, doubly linked list 《分布 式 的 ， 双 向 链表 )，569 
distributed-memory organization (分 布 式 存储 器 组 织 ) 
consistency model (同一 模型 ),，508 
generic (一般 的 ), 458 (fig. ) 
distributed queues (分 布 式 队 列 )，128 
distributed shared memory (DSM) systems 《分 布 式 共享 存储 器 
系统 )，558 
domain decomposition 《区域 分 解 )，132 
load balanced 〈 负 载 平 衡 )，133 ~ 134 
for simple nearest-neighbor computation 〈 对 于 简单 的 近邻 计 
算 ), 134。 参 见 decomposition 
downgrade (KE), 600 
Dragon write-back update protocol (Dragon 回 写 更 新 协议 )， 
301 ~ 305, 374 
bus transactions 《总 线 事务 )，302 
exclusive-clean (E) state (独占 的 干净 状态 ) , 302 
lower-level design choices (低层 设计 选择 )，304 ~ 305 
modified (M) state 《已 修改 状态 ), 302 
for processor actions (为 处 理 器 操作 ), 305 (fig.》 
rad miss (4h), 303 
replacement ($F$), 304 
shared-clean (Sc) state〈 共 享 的 干净 状态 )，302 
shared-modified (Sm) state (共享 的 已 修改 状态 ) , 302 
SRAM caches (SRAM 高 速 缓存 )，304 
state transition diagram 〈 状 态 转换 图 ) 303 (fg.) 
state transitions 《状态 转换 ), 303 ~ 304 
write (5), 303 ~ 304。 参 见 update-based protocols 
DRAM chips 《动态 随机 存 取 存 储 器 芯片 )，14 
access time 《访问 时 间 ), 831 
bit array (位 阵列 ), 950 
buffer caches (缓冲 区 高 速 缓存), 954 
capacity (AE), 14, 949, 950 
cycle times (周期 时 间 ), 938 
designs (设计 ), 949 
engineering requirements for (工程 要 求 ), 949 
enhanced (提高 的 ), 949 
gigabit (TJE), 946 
integrating logic into (WEH), 949 
interfaces (接口 ), 950 
packages 《数据 包 )，949 
remote cache (远程 高 速 缓存 ), 663, 700 
vector, organization 《向 量 ， 组 织 结构 ), 953 (fig. ) 


D-tags (D~ 标记 ), 427, 429 
dual-ported RAM (GO RAM), 382 
dynamic assignment (动态 分 配 )，88 
load balancing and (负载 平衡 ),，128 
static assignment vs. 《静态 分 配 ) 126 ~ 129 
dynamic backoff (3&6 ENE), 595 
dynamic partitioning 《动态 分 区 ), 126, 127 (fig. ) 
dynamic scheduling (动态 调度 ), 870 
latency and (AYRE), 938 
processors (处 理 器 ) 895, 922 
Radix (基数 ), 875 (fig. ) 
dynamic tasking (动态 任务 ), 126 ~ 128 
advantages 《优势 )，127 ~ 128 
example (实例 ),，128 
task pool (任务 池 ), 127, 129 (fig.) 
techniques 《技术 ), 128 ~ 129 
Dyna3D (Dyna3D), 956 ~ 957 


E 


eager-exclusive replies 〈 积 极 的 独占 应 答 ) ，698 ~ 699 
eager release consistency (ERC) (积极 的 释放 同一 性 )，712 
diffs (差异 ), 745 
lazy vs. 《与 惰性 方案 相 比 ) ,713 
non-null pointer value (4E 4548 41/14), 715 ~ 716 
software (IF), 715 
echo (回应 ), 824 
negative (负面 的 ), 824 
positive 《正面 的 ), 824 
test (W), 522 
e-cube routing (e - HEEK), 778, 790 
effective bandwidth (有 效 带 宽 )，756 
efficiency-constrained scaling 〈 效 率 约束 的 扩 放 )，231 
EM-4 (EM.4), 494, 495 
encapsulation (封装 ), 754 
Encore Gigamax (Encore 的 Gigamax 机 ) 
block diagram (HER), 664 (fig. ) 
system configuration (系统 配置 )，663。 参 见 hierarchical 
snooping 
Encore Multimax (Encore Multimax), 435 
endpoint contention (端点 竞争 )，154 
end-to-end flow control 〈 端 到 端 流 控 )，494，763，813，816 ~ 
818 
admission control (接纳 控制 )，818 
global communication operations (全 体 通信 操作 ), 817 ~ 818 
hot spots 《热点 )，817。 参 多 flow control 
entry consistency model (和 人口 同 一 性 模型 ), 722 
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equation solver kernel 《方程 求解 器 内 核 )，92 ~ 116 
accumulation and convergence determination in (ABASIC 
决策 )，114 (fig. ) 
assignment 《分 配 ), 98 ~ 99 
data parallel, pseudocode (数据 并 行 ， 伪 代码 )，100 (fig.) 
decomposition (分 解 )，93 ~ 98 
with decomposition into grid points (分 解 到 格 点 ), 98 (fig. ) 
finite differencing method (有 限 差 分 法 ) , 92 
ghost rows〈 阴 影 行 )，109，111 
nearest-neighbor update 〈 最 近邻 域 更 新 )，93 (fig. ) 
orchestration under data parallel model (数据 并 行 模型 下 的 
协调 ), 99 ~ 101 
orchestration under message-passing model (消息 传递 模型 下 
的 协调 ), 108 ~ 116 
orchestration under shared address space model (共享 地 址 空 
间 模 型 下 的 协调 ) ,101 ~ 108 
picking cache sizes with (选择 高 速 缓存 的 大 小 )，240 
(fig. ) 
pseudocode 〈 伪 代码 )，94 (fig. ) 
red-black ordering ( 红 黑 次 序 ) 97 (fig. ) 
row-based, cyclic assignment of (基于 行 的 ， 循 环 分 配 )， 
108 (fig. ) 
scaling model impact on ( 扩 放 模型 的 影响 ) , 211 ~ 213 
shared address space model pseudocode (共享 地 址 空间 模型 
TYRES), 104~ 105 (fig.) 
spatial locality in 《空间 局 部 性 ), 149 (fig. ) 
temporal locality in (时 间 局 部 性 ), 143 ~ 144 

error correction codes (ECCs)《 差 错 校 正 码 ) ,608, 633 

error handling (差错 处 理 ) 

NUMA-Q (NUMA-Q), 633 ~ 634 
SGI Origin2000 (SGI Origin2000) , 608 ~ 609 

Ethernets 《以 太 网 ) 
flow control (JEZ) , 812 
switched gigabit (TJER), 548, 940 

event-driven simulation (事件 驱动 模拟 )，233，234 (fig. ) 

event synchronization (事件 同步 ), 57, 103, 283, 887 
acquire method (获取 方法 ), 335 
components (成 分 ) ，335 ~ 336 
flags for (标记 ), 106, 107 (fig.) 
global 《全 局 的 ), 106, 113, 353 ~ 358 
group (WH), 107 
identifying (识别 )，695 
between pairs/groups of processes (在 进程 对 或 进程 组 之 
间 ), 106 
point-to-point 《点 到 点 ), 107 (fig.), 117, 352 ~ 353 
release method 《释放 方法 ), 335 


requirements of, through flags (需求 ， 通 过 标记 )，285 
(fig. ) 
waiting algorithm 〈 等 待 算法 ) ,335。 参 见 synchronization 
exception program counter (EPC) (异常 程序 计数 器 ), 915 ~ 
916, 918 ~ 919 
exclusive node (独占 节点 )，560 
exclusive pending (EP) state (独占 挂 起 状态 ), 925 
exclusive reply 《独占 的 应 答 )，607 
execution time {执行 时 间 ) 
Bames-Hut application (Barnes-Hut 应 用 ), 174 (fig. ), 214 
busy-overhead (忙碌 开销 ),，158 
busy-useful ( 忙 有 用 ), 157 
components《 成 分 ), 157 (fig. ) 
data-local (局 部 数据 )，158 
data-remote (远程 数据 )，158 
mapping 《映射 ),159 (fig.》 
MC scaling (MC 扩 放 ), 211 
multithreading, breakdowns (多 线程 ， 分 解 ), 913 Chig.) 
Ocean application (Ocean LFA), 166 (fig. ) 
perfect-memory 〈 完 美的 存储 器 )，210 
as performance metric《 作 为 性 能 指标 ), 203 
Raytrace application (Raytrace 应 用 )，179 
synchronization (同步 ), 158 
explicit communication (Sst Mi fa), 116 
advantages of (优势 )，189 
flexibility (灵活 性 ),187。 参 见 communication 
explicit synchronization ( 显 式 同步 ), 285 (fig. ) 
exponential backoff 〈 指 数 回 退 ) ，649 ,651 
extended memory hierarchy 〈 扩 展 的 存储 器 层次 结构 ) 138 ~ 
140 . 
artifactual communication in (附加 通信 ) ，139-140 
improving architecture of (改善 体系 结构 )，139 
in multiprocessors 〈 在 多 处 理 器 中 ) ,138 ~ 139, 271 (fig.) 


F 


false sharing 〈 假 共享 )，146，226,， 322, 360 
of cache blocks (高 速 缓存 块 ) 711 
cause of (原因 ), 329, 360 
cross-particle 〈 跨 粒子 的 ) 365 
effects of 《效应 )，710 
page fault from (ETT), 711 
protocol operations and (协议 操作 ), 710 
reducing (JK), 328, 329, 361 (fig. ) 
SVM communication from (SVM 通信 形式 )，712 (fig. ) 
write wnte (F - BA), 410 


false-sharing misses ( 假 共享 扑 空 )，315 ~ 316 
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block size and (RRF), 318 
increase in (增长 ), 319 
likelihood of (可 能 性 ), 316 
reducing (减少 ), 316 
Fast Fourier Transform (FFT) (快速 傅立叶 变换 ) 196 
block data transfer benefits in 〈 块 数据 传送 的 好 处 )，861 
(fig. ) 
implementation (KW), 549 
kemel performance with consistency models (同一 性 模型 下 的 
内 核 性 能 ), 874 (fig. } 
radix-2 (基数 -2), 548 
sweet spot 《扫描 点 )，859 
fat cube ( 胖 立 方 体 )，613 
fat-trees (HERI), 774 
d-dimensional k-ary (d- 4£ k 70), 776 
illustrated (说 明 ), 777 (fig.) 
routing (路 由 ), 778 
fetch&add instruction ( 取 数 加 指令 ), 340, 372 
feich&decrement instruction 《有 取 数 减 量 指令 ), 340 
fetch&increment instruction ( 取 数 增 量 指令 )，340, 346 ~ 347 
fetch&op instruction 〈 取 数 且 操作 指令 )，611, 613 
at-memory 《在 存储 器 ), 651 
four-entry LRU (PUŽ LRU), 617 
fetch&setup instruction ( 取 数 建立 指令 )，340 
fetch&store instruction ( 取 数 存 贮 指令 ) ，540 
fetch deadlock 〈 取 死 锁 ) , 390, 412, 483 ~ 485 
problem cause (问题 原因 ), 484 
solution (解决 方案 )，484。 参 见 deadlock 
Fiber Channel (光纤 信道 )，637 
Arbitrated Loop (HRF), 769 
switch (交换 机 )，637 
FIFO (AH) 
buffers (IRIK), 409, 616, 804 
input/output 〈 输 人 /输出 )，493 
physical (物理 的 ), 615 
request-response ordering 《请求 - 响应 次 序 ), 409 
transmit/receive (发 送 /接收 )，500 
virtual (虚拟 的 ), 615 
fine-grained tasks ( 细 粒 度 任务 ), 83 
finite differencing method (有 限 差分 法 ), 92 
finite element method 《有限 元 法 ), 957 
Firefly update protocol (Firefly 更 新 协议 ), 374 
fixed-size machine evaluation 《固定 尺寸 机 器 评价 ), 221 ~ 226 
inherent behavioral characteristics (固有 行为 特征 )， 
221 ~ 222 
problem size range determination (问题 规模 范围 判定 ) , 221 


spatial locality 《空间 局 部 性 ), 224 ~ 226 
temporal locality and working sets (时 间 局 部 性 与 工作 集 )， 
222 ~ 224 
flat directory schemes (扁平 目录 方案 )，365, 567 ~ 571 
cache-based (基于 高 速 缓存 的 ), 566, 568 ~ 570 
COMA (COMA), 704 
full bit vector organization (全 上 比特 向 量 组 织 ), 567 ~ 568 
latency reduction 《时 延 减 少 ), 586 (fig.), 587 (fig.) 
memory-based 《基于 存储 器 的 ), 566, 567 ~ 568 
overflow strategy (溢出 策略 )，568。 参 见 directory schemes 
floating-point operations ( 浮 点 操作 )，101，209 
FLOPs (FLOPs), 230, 257 
flow control (MFE) , 399, 404, 811 ~ 818 
ATM (异步 传输 模式 )，813 
CRAY T3D network (CRAY T3D 网 络 )，820 
end-to-end (3m Bit), 494, 763, 813, 816~ 818 
in Ethernet network 〈 在 以 太 网 络 中 ) 812 
link-by-link 〈 逐 链 路 地 )，489 
link-level ( 链 路 级 )，813 ~ 816 
main memory《〈 主 存储 器 ) ,404 
in ring-based LANs〔 在 基于 环 的 局 域 网 中 ), 812 
SGI Challenge (SGI 的 挑战 ), 424 
split-transaction bus (事务 拆 分 型 总 线 )，404 
TCP (TCP), 813 
in wide area networks (在 广域网 中 ), 812 ~ 813 
Flynn” s taxonomy (Flynn 分 类 法 ), 44 
fork-in appmach (分 丸 - 汇 合 方法 )，136 
forwarding (转发 ) ，594 
to dirty node (到 脏 节点 ),，591 
intervention (干预 ),，585, 586 
reply (DZ), 585, 586, 597 
forward pointer 〈 前 向 指针 ) ，569 
four-state invalidation protocol (四 状态 作废 协议 ) 299 ~ 301 
four-state update protocol (四 状态 更 新 协议 )，301 ~ 305 
fragmentation (碎片 )，360，754 
full bit vector organization (全 比特 向 量 组 织 ), 567 ~ 568 
full-empty bit 〈 满 -空位 ) 352 ~ 353 
flexibility and (RATE), 353 
set to empty (#25), 352 
full-word operation (全 字 操 作 ), 15 
function parallelism 《操作 并 行 ), 124 
availability (可 用 性 ), 125 
exploiting (FÆ), 125 
types of (类 型 ), 124 ~ 125 


G 


”galaxy evolution case sudy. (星系 进化 案例 研究 )。 参 见 Bar- 
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nes-Hut application 
Gaussian elimination (高 斯 消去 法 ), 118 
algorithms (算法 )，194 
concurrency (并 发 )，194 ~ 195 
parallelizing (并 行 化 )，119 
sequential, pseudocode 〈 串 行 的 ， 伪 代码 )，119 (fig. ) 
Gauss-Seidel method (高 斯 - 赛 德 尔 方法 ), 92 
concurrency 《并 发 ), 95 (fig. ) 
dependencies (相关 ), 95 (fig. ) 
generic parallel architecture 〈 通 用 并 行 体系 结构 )，50 ~ 52 
communication assist (通信 和 辅助 部 件 ), 50 ~ 51 
convergence toward ( 问 ……: 收敛 ), 50 
organization (组 织 结构 ), 51 (fig. )。 参 见 parallel architec- 
tures 
ghost rows (阴影 行 ),，109, 111 
Gigaplane system bus (Gigaplane RRR), 424 ~ 427 
centerplane design 《中 央 平 面 设计 ), 424 
collision-based speculative arbitration (基于 冲突 的 投机 促 
裁 ) 425 
invalidations and (作废 ), 427 
outstanding transaction support (未 决 事务 支持 ), 425 
signals《 信 号), 425 
signal timing 《信和 号 定时 ), 426 (fig. )。 参见 Sun Enterprise 
6000 
global coherence 《全 局 一 致 性 ), 855 ~ 856 
global synchronization (全 局 同步 ), 95, 96 
barrier algorithms (机 障 算法 ),，356 ~ 357 
centralized barrier with sense reversal (原著 误 为 removal) 
(具有 感应 逆转 的 集中 型 概 障 )，354 ~ 356 
centralized software barrier (集中 型 软件 栅 障 ), 353 ~ 354 
event (事件 ), 106, 113, 353 ~ 358 
between grid sweeps (在 网 格 遍历 之 间 )，9%6 
hardware barriers 《硬件 栅 障 ) 358 
hardware primitives (硬件 原 语 )，357 ~ 358 
performance (TEBE), 356 
point (FA), 156, 参见 synchronization 
global trees 〈 全 局 树 ) 957 
Goodyear MPP (Goodyear MPP), 952 
GO symbol (GO 符号 ) 815 
Grand Challenge (重大 挑战 ) 
application requirements (MHK), 7 (fig. ) 
example (例子 ), 8 
granularity (粒度)，183 
of allocation 《分配 ), 146, 237, 724, 725 (fig.) 
cache block (高速 缓存 块 )，706 
coarse (粗糙 的 ), 724 


of coherence (一 致 性 ), 146, 724, 725 (fig. ) 
communication (ÑA), 186 ~ 187, 724, 725 (fig.) 
data transfer (数据 传输 ), 145 
exploiting (£H), 145 
fine ( 细 的 )，724，725 
memory consistency model and 《存储器 同一 性 模型 ) 681 
page (JL), 725 
Raytrace application (Raytrace 应 用 ) ，177 
task (任务 ), 129 ~ 131 
grid computations ( 格 计算 ) 
iterative nearest-neighbor ( 近邻 欠 代 )，264 
Ocean application (Ocean 应 用 ) ，162 (fig.), 163, 164 
group event synchronization (组 事件 同步 )，107 
guided self-scheduling (引导 式 自 调度 )，128 


H 


half-power point ( 半 功 率 点 ), 60 
HAL S multiprocessor (HAL Sl 多 处 理 器 ), 643 ~ 645 
bandwidths 《带宽 ), 644 
communication assist (通信 辅助 部 件 ), 644 
DMA engine (DMA 引擎 ) 644 
MCU (MCU), 644 
hardware-controlled prefetching (硬件 控制 的 预 取 )，880， 
881 ~ 883 
advantages (优势 )，888，896 
coverage (MW), 889 
disadvantages (劣势 ) , 889 
effectiveness (有 效 性 ) 889 
goal (目标 )，881 
history table (HEX), 882 
LA-PC (LA-PC}, 883 
OBL schemes (OBL 7738), 882 
scheduling (JHE), 883 
schemes (7738), 881 
software-controlled vs. (与 软件 控制 方案 比较 ), 888 ~ 890 
unnecessary prefetch reduction (减少 不 必要 的 预 取 )，889。 
参见 prefetching 
hardware cost 〈 硬 件 成 本 ) 188 
access control through code instrumentation and (通过 代码 修 
改 的 访问 控制 )，707 ~ 708 
access control through language/compiler support and (通过 语 
言 /编译 器 支持 存 取 控 制 )，721 ~ 724 
access control with decoupled assist and ( 带 有 独立 辅助 部 件 
的 访问 控制 ), 707 
CC-NUMA (CC-NUMA), 705 ~ 706 
page-based access control and (基于 页 的 存 取 控制 )， 
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709 ~ 721 
reducing (WY), 705 ~ 724 
hardware locks (硬件 锁 ), 337 ~ 338 
around instruction sequence 〈 围 绕 指 令 序 列 的 )，339。 参 
JR. locks 
hardware/software trade-offs (硬件 /软件 折 中 ), 679 ~ 747 
capacity for replication (复制 容量 ), 679 ~ 680 
COMA (COMA), 701 ~ 702 
design/ implementation cost 《设计 /实现 成 本 ), 679 ~ 680 
parallel software implications (并 行 软件 的 影响 ), 729 ~ 730 
waiting time at memory operation (存储 器 操作 的 等 待 时 
间 )，679 ~680 
header (34), 754 ~ 792 
head node (KHA), 624 
rolling out scenario 〈 转 出 方案 )，631 
of sharing list (共享 表 ), 628 
write (5), 630 
head-of-line blocking (47 #12}, 805 
avoiding with switch design (通过 交换 开关 设计 来 避免 )， 
807 (fig. ) 
impact of (04), 806 
head pointer ( 头 指 针 )，569 
HEP (HEP), 905, 906, 907 
hierarchical coherence 〈 层 次 式 一 致 性 )，659 ~ 669 
hierarchical directories (Kit AR) 
branching factors (HERR), 669 
latency problem (时 延 问题 )，668 
multirooted (多 根 的 ), 667 (fig.) 
organization (组 织 结构 ), 666 (fig. ) 
storage overhead (存储 开销 )，667。 参见 directories 
hierarchical directory scheme 《层次 目录 方案 ), 565 ~ 567 
advantages (优势 )，566 
bandwidth characteristics (带宽 特征 )，566 
COMA (COMA), 703 ~ 704 
latency characteristics, (BY HE#FIE), 566 
location information 〈 位 置信 息 )，566 
processing nodes 《处 理 节 点 )，565，566。 参 见 directory 
schemes 
hierarchical parallelism (层次 式 并 行 )，193 
hierarchical ring-based multiprocessor 《层次 式 基于 环 的 多 处 理 
器 ) 665 (fig.) 
hierarchical snooping 《层次 式 侦 听 ) , 559, 660 ~ 664 
bus hierarchy 〈 总 线 层 次 ) 660 
bus transactions (总 线 事务 ), 661 
Encore Gigamax (Encore 的 Gigamax 机 ), 663 ~ 664 
interconnection network 《互连网 络 ) ，666 


processor caches (处 理 器 高 速 缓存 )，660 

remote caches 〈 远 程 高 速 缓存 ) 660 

write serialization (E RIIE), 663, Æ, snooping 
Hierarchical Uniform Grid (HUG) (层次 式 均匀 格 )，174 
High Performance Fortran (HPF) (高 性 能 Fortran), 723, 967 
hit rate 〈 命 中 率 ) 943 
home-based protocols (基于 宿主 的 协议 ), 717 

LRC (LRC), 746 

performance advantage《 性 能 优势 ), 717 ~ 718 
home node (宿主 节点 ), 560 

need for local serialization at (局 部 串 行 化 的 需要 )，606 
(fig.) 

page (BL), 717 
Horizon design 《水 平 设计 ), 905 

cycle (周期 ), 906 

lookahead 先行), 906 
hot spots (热点 ) 

adaptive routing and《 自 适应 路 由 )，817 

end-to-end flow control〔 端 到 端 流 控 ), 817 

network (网 络 ), 760 
HP PA-8000 processor (惠普 PA-8000 处 理 器 ), 684, 868, 940 
hybrid protocols 《混合 协议 ), 330 ~ 332 

competitive scheme (竞争 方案 ), 331 

miss rates for (FRÆ 44), 322 (fig. ) 

mixed approaches (混合 方法 ), 331 

upgrade/ update rates for (升级 /更 新 率 )，333 (fig.). 参见 

protocols 
hypercubes ( 超 立 方 体 ), 38, 778 

links (HERR), 782 

ports (端口 )，778 

uses 《使 用 ), 778。 参 见 network topologies 


IBM PowerPC (IBM PowerPC), 693, 699 
G30 (G30), 940 
systems (R), 12 
IBM SP-1/SP-2 (IBM SP-1/SP-2), 40, 41 (fig.), 466 
BT benchmark (BT 基准 测试 程序 ) 533 
LU benchmark (LU 基准 测试 程序 ) ，533 
network case study (网 络 案例 研究 ) ，820 ~ 822 
output port (输出 端口 )，822 
packets (数据 包 ), 821 
switch design 《交换 开关 设计 )，823 
switch packaging 《交换 开关 封装 ), 821 (fig.) 
workstation as node support (工作 站 作为 节点 支持 ), 467 
idle time (空闲 时 间 ), 898 
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Iliac IV (Iliac IV), 67 
implicit communication ( 隐 式 通信 )，189 
inclusion (包含 )，393 ~ 394 
fall out (BERS), 394 
maintaining (维护 , 维持 ), 394 ~ 396 
requirements (FK), 394 
IncPIO requests (IncPIO 请 求 ), 424 
indefinite postponement 《无 限 推迟 ) 791 
infinite caches (无 限 高 速 缓存 ) 572 
inherent behavioral characteristics (固有 行为 特征 ), 221 ~ 222 
inherent communication 《固有 通信 ), 140 
inner protocol (内 部 协议 )，556 
input buffers (输入 缓冲 ) ，472 
associated with incoming channels 〈 与 输入 通道 相 联 )，490 
full (2), 484 
management of (+++ 的 管理 ), 482 
overflow (Ht), 482 ~ 483 
scalability and (可 扩展 性 ), 484 
space availability (可 用 空间 ), 484 
state of (71e 的 状态 ), 483, 参见 buffers 
input-output microbenchmarks (输入 输出 微 基 准 测试 程序 )， 
215 
instruction-level parallelism 《指令 级 并 行 ), 15 ~ 17 
distribution of (………， 的 分 布 ), 18 
increasing amount of 《数量 增加 ) ,17 
superscalar execution (超标 量 执 行 )，17 
integration (集成 ) 
board-level《 板 级 ), 465 ~ 466 
chip-level 《芯片 级 ) ,463 ~ 464 
system-level (系统 级 )，466 ~ 467 
Intel Paragon (Intel 的 Paragon 机 ), 8, 41, 42 (fig.), 68 
in ASCI Red machine (在 ASCI Red 机 中 ), 502, 503 
case study 〈 案 例 研 究 ) 49 ~ 503 
communication latency 〈 通 信 时 延 ) 525 
CP elimination (取消 通信 处 理 器 )，525 
DMA engines (DMA 引擎 )，499 ~ 502 
DMA transfers (DMA 传输 ) ，500,，501 
flow control (WFE), 942 
i860XP (i860XP) 500, 501 
machine organization 《机 器 组 织 结构 ), 500 (fig.) 
NI chip (网 络 接口 芯片 ), 499, 500 
node operating systems 《节点 操作 系统 ), 526 
nodes (节点 ), 499 
output buffer (输出 缓冲 ), 550 
processing elements per node (每 个 节点 的 处 理 单元 ), 740 
send overhead (发 送 开销 )，524 


shared address read (共享 地 址 读 取 ), 527 ~ 528 
Intel Pentium Pro (inter 奔腾 Pro), 868, 935 

cache coherence memory bus (高 速 缓存 一 致 性 内 存 总 线 )， 

935 

four-processor “quad-pack"，《〈 四 处 理 器 模块 )，32 (fig. ), 

33 (fig.) 

processor consistency model 《处 理 器 同一 性 模型 ) ,698 

processor module (处 理 器 模块 ) 641 
interconnection network 〈 互 连 网 络 ) 

design 《设计 ), 749 ~ 830 

generic parallel machine (类 属 并 行 机 ), 751 (fig. ) 

sealable (可 扩 放 ， 可 伸缩 )，764。 参 见 networks 
interleaved multithreading (交错 多 线程 ), 902 ~ 910 

advantages (优势 ),，902, 911 

basic (基础 )，905 

blocked scheme vs. (分 块 方案 与 …… 相 比 》, 911 

context availability (上 下 文 可 用 性 ), 918 

control (控制 ), 920 

disadvantages (劣势 ), 912 

evolution (演变 ), 904 

implementation issues (实现 问题 ), 917 ~ 920 

latency tolerance (时 延 包 容 ), 904 (fig.), 911 (fig.) 

long-latency events and (长 时 延 事 件 以 及 )，908 

overhead (开销 ), 909 

PC bus (PC 总 线 ), 919 (fig.) 

PC unit (PC 单元 ), 918 ~ 919 

pipeline use (流水 线 使 用 ), 905 ~ 908 

requirements 《需求 )，914 

short-latency events and 〈 短 时 延 事 件 以 及 ) 909 

single-thread pipelined support (单线 程 流 水 支持 )，908 ~ 

910 

speedup (DIZH), 912 (fig.) 

state replication 《状态 复制 ), 917 ~ 918 

Tera (FTAL), 906 ~ 908。 参 见 multithreading 
intervention (FH), 585 

forwarding 《前 向 ) 585, 586 

request buffers (IRBs) (请 求 缓冲 (IRBs), 615 
invalidation acknowledgments (fEBEMHIA) , 607, 699 
invalidaticn-based protocols (基于 作废 的 协议 ), 278 

lock transfers ( 锁 传输 ), 675 

MESI (four-state) ( MESI (四 状态 )), 299 ~ 301 

misses and 〈 扑 空 )，887 

miss rates 《 扑 空 率 )，332 (fig. ) 

MOESI (five-state) (MOESI (五 状态 ) ) 300 

MSI (three-state) (MSI (三 状态 )), 293 ~ 299 

update-based protocols combined with (基于 更 新 的 协议 与 
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ee 结合 ) ,330 ~ 332 
update-based protocols vs. (基于 更 新 的 协议 与 …… 相 比 
BE), 329 ~ 330 
upgrade/update rates for (升级 /更 新 率 ), 333 (fig. ) 
write atomicity ( 写 操作 的 原子 性 ), 592 ~ 593 
write-back ( 回 写 ), 293 ~ 299, 391 
write-through (Fi 7), 280, 283 (fig. ) 
invalidation frequency 〈 作 上 废 频率 ) ，572 
invalidation pattems with default data sets 〈 缺 省 数据 集 的 作废 
模式 )，574 ~ 575 (fig. ) 
irregular read-write (不 规则 读 - 5), 573 
migratory 《迁移 ) ,573 
producer-consumer 《生产 者 - 消费 者 ), 573 
read-only (AGE), 572 
invalidation size distribution (作废 尺寸 的 分 布 ), 572 
invalid pending (IP) state (无 效 的 挂 起 (IP) RAS), 925 
LO buses (输入 /输出 总 线 ) 515 
IQ-Link board 《IQ- 链 路 板 ), 622, 623, 643 
block diagram ( 块 图 )，636 (fig. ) 
efficiency (效率 ) ，643 
implementation (RW), 639 ~ 641 
IRIX (IRIX (一 种 类 UNIX 操作 系统 ) ) , 415 
ltemsets (HARE), 81 
iWARP (iWARP), 69, 494, 495 


J 


Jade programming language (Jade 编程 语言 )，723 
J-machine (J-machine) , 494 ~ 495, 810 

execution contexts (执行 现场 ), 495 ~ 496 

3D torus (3 维 花 环 ), 771 


K 


Kernels (AK), 92, 216 
benchmarks 〈 基 准 测试 程序 ) 967 
data structure sharing (数据 结构 共享 ) 218 
equation solver (方程 求解 器 程序 ), 92 ~ 116 
examples (例子 ), 216 
interaction among 《在 …… 之 间 互 相 作用 ), 217 
message-passing abstraction support (消息 传递 抽象 支持 )， 
488 
performance-relevant characteristics 《性 能 相关 的 特征 ), 217 
software 《软件 )，488 
user linkages 《用 户 链接 ), 488 
keys (XF), 248 


LAN (局 域 网 ) 


controllers, 《控制 器 ), 490 ~ 491 
flow control (FF), 812 
interfaces (FEF), 490 ~ 491 
ring (#5), 514 
scalable high-performance (可 伸缩 高 性 能 ), 503 
shared bus《 共 享 总 线 ) ,514 

LAPACK suite (LAPACK 组 ), 963 

latency (时 延 ), 17, 59, 151 
array-based lock (基于 数组 的 锁 )，347 
avoidance (384), 938 
back-to-back (背靠背 ) 619, 620 (fig. ) 
bandwidth vs. (带宽 ), 59, 787 
Bames-Hut ( Bames-Hut) , 913 
barrier (HERE), 356 
of cache misses 《高速 缓存 扑 空 ), 17, 324 
CM-5 (CM-5), 493 
COMA，( 仅 高 速 缓存 存储 访问 )，729 
communication (通信 ) ,522 ~ 523, 525 ~ 526, 833 
contention and (F), 759, 786, 787 (fig. ) 
dynamic scheduling and (动态 调度 )，938 
flat cache-based directory protocol，《 基 于 高 速 缓存 的 扁平 
目录 协议 ) 587 (fig. ) 
flat memory-based directory protocol (基于 内 存 的 扁平 目录 
协议 ) 586 (fig.) 
hiding (PARK), 155, 842, 849 (fig.), 870, 871, 877, 914 
hierarchical directory (层次 式 目录 )，566, 668 
LL-SC lock (LL-SC 锁 ), 346 
lock (84), 343 
lock acquisition 〈 锁 获取 ) ，337 
memory (存储 器) ,833 
network {网 络 ), 755 ~ 761 
network transaction (网 络 事务 ), 475 
NUMA-Q (NUMA-Q), 641 ~ 642 
performance degradation from (性 能 退化 ), 17 
phits vs. (物理 单元 与 …… 相 比 较 ), 788 (fig. ) 
pipelined (MK), 618, 911 
reducing (减少 ), 831 ~ 832 
scaling (伸缩 ， 扩 放 ), 460 ~ 461 
shared memory approach and 〈 共 享 存 储 器 解决 方案 )，37 
sharing list purge (共享 表 清除 ) 629 
snoop (WBT), 383 
test-and-test&set lock 〈 测 试 -测试 并 设置 锁 ) 343 
trade-offs (权衡 ), 784 
true unloaded ( 真 印 载 ), 619 
unloaded ($), 755, 756, 780 ~ 785 

latency tolerance 《时 延 包容 ) 832 ~ 951 
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application limitations 《应 用 限制 ) ,843 
approaches 《解决 方案 ), 837 ~ 840 
assist occupancy and 《辅助 部 件 占 用 度 ), 845 
benefit bounds (受益 界限 ), 843 (fig. ) 
benefits (益处 ), 841 ~ 843 
block data transfer 〈 块 数据 传送 ), 837, 838, 848 
in blocked multithreading (阻塞 的 多 线程 ), 903 (fig. ) 
cache-coherent multiprocessor (高速 缓存 一 致 的 多 处 理 器 )， 
926 ~ 927 
communication architecture limitations (通信 体系 结构 限 
制 )，843 ~ 846 
communication pipeline and (通信 流水 线 )，836 ~ 837 
goals (目标 ), 836 
in interleaved multithreading (交错 多 线程 ), 804 (fig.) 
interleaved scheme (交错 方案 ), 911 (fig. ) 
limitations 《限制 )，843 ~ 847 
in message passing (消息 传递 ), 847 ~ 851 
multithreading (LE), 840, 850 ~ 851 
network capacity and (网 络 容量 )，846 
no 〈 无 )，834 
overhead and (开销 ) 845 
overview (概貌 ), 834 ~ 847 
point-to-point bandwidth and 〈 点 对 点 带宽 )，845 ~ 846 
precommunication ( 预 通信 ), 838 ~ 839, 848 ~ 850 
proceeding past communication in same thread (在 同一 线程 
中 推进 越过 通信 ), 839 ~ 840, 850 
processor limitations 《处理 器 限制 ) , 846 ~ 847 
requirements (需求 ) ,841 
in shared address space (在 共享 地 址 空间 中 ),，851 ~ 852 
techniques (技术 ), 647, 926 ~ 927 
timelines for different forms (不 同形 式 的 时 间 量 )，844 
(fig. ) 
write (5), 876 
latency under load (A SETHE) , 785 ~ 788 
comparison (比较 ), 786 
with routing delay( 带 有 路 由 延迟 ), 787 (fig. ) 
latency wall (时 延 障碍 ) 940 ~ 942 
network interface (网 络 接口 ), 941 ~ 942 
parallel architecture evolution and (并 行 结构 演变 ), 941 
speed-of-light (光速 )，943 
lazy release consistency (LRC) (惰性 释放 同一 性 (LRC)), 
713 
acquire-based 《基于 获取 的 ), 738 
complexity (复杂 性 ), 715 
diffs (差别 ), 717, 736 
eager vs. (积极 型 与 …… 相 比较 ), 713 (fig. ) 


home-based (基于 宿主 的 ), 746 

implementations (XH), 715 

write notices ( 写 通知 ), 717, 参见 release consistency (RC) 
least recently used (LRU) (最 近 最 少 使 用 (LRU)) 

caches (SERF), 259 

replacement (444%), 395 

limited pointer directories (有 限 指针 目录 )，568 

LimitLESS scheme (无 限制 方案 )，658 

linear arrays (线性 数组 ), 769, 770 (fig. ) 

linear scaling property (线性 扩 放 特性 ), 209 

link-by-link flow control 〈 逐 链 路 流 控 ) ,489 

link-level flow control ( 链 路 级 流 控 ), 813 ~ 816 
handshake (RF), 815 (fig. ) 
as host-switch links (作为 主机 交换 开关 链 路 ), 816 
illustrated (被 说 明 的 ), 814 (fig. ) 
implementation (EW), 813 
problem with 《问题 )，817 
short-narrow link (RERE), 814 
short-wide link 〈 短 宽 链 路 )，814。 参 见 Row control 

link-level protocol ( 链 路 级 协议 ), 751 

links (HERR), 751, 764 ~ 767 
advancement of (进步 ) 939 
asynchronous (异步 的 ), 765 
bandwidth (775%), 760, 939 
butterfly ( 蝶 型 的 ), 775 ~ 776 
CRAY T3D network (CRAY T3D) 网 络 , 819, 820 
framing (成 帧 ) 765 
host-switch (主机 交换 开关 ), 816 
hypercube ( 超 立方 体 )，782 
long (长 ), 764, 815 (fig.) 
narrow (42), 764 ~ 765, 815 
propagation delays (传播 延迟 ), 815 
SCI (SCI), 766 
SGI Origin network (SGI Origin 网 络 ) 825 
short (Hi), 764 
synchronous (同步 的 ) 765 
tous (花环 ), 775 
tree (BY), 775 
wide ($i), 764 ~ 765 
width (宽度 ), 781 (fig. ) 

LINPACK benchmark (LINPACK 基准 测试 程序 ) 13, 503 
matrix factorization (和 矩阵 因 式 分 解 )，209 
microprocessor-based systems on (基于 微 处 理 的 系统 )，22 
supercomputer/MPP performance on (超级 计算 机 /MPP 性 
能 ), 24 (fig.) 
uses (使 用 ) ,23。 参见 benchmarks 
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Little’s Law (Littles 定律 ), 944 
livelock (J544), 379, 390, 791 
avoiding (He), 390 
directory protocols and (目录 协议 ), 595 
LL-SC implementation and (LL-SC 实现 ), 392 
NACK solutions (NACK 解决 方案 )，596 
NUMA-Ọ (NUMA-Q), 633 
potential (TERI), 379, 390, 392 
problem solution (问题 解决 方案 )，380 
SGI Origin2000 (SGI Origin2000), 608. 参见 deadlock; star- 
vation 
load balancing (负载 平衡 )，88，123 ~ 131 
dynamic partitioning for (动态 分 区 ), 127 (fig.) 
goal of (HER), 124 
process (进程 )，124 
as software responsibility〔 作 为 软件 的 责任 ), 131 
slatic assignment and (静态 分 配 和 ) ,126 
workload (工作 负载 ), 254 ~ 257 
load-locked (LL) instruction (负载 锁定 (LL) 指令 )，344， 
345 
load-locked, store-conditional (LL-SC) locks (负载 锁定 , 条件 
存储 (LL-SC) 锁 ), 344 ~ 346 
exponential backoff and (ARIER EE), 649, 651 
guarantees 〈 保 证) ，345 
guidelines (指南 )，345 
implementing (实现 ), 392, 652 
for implementing atomic operations (实现 原子 操作 ), 344 
latency (时 延 ), 346 
livelock and〔 活 锁 ) ,392 
performance (性 能 ), 348 ~ 349, 350, 392 
R10000 processor instructions (R10000 处 理 器 指令 ), 611 
spin-lock built with (用 …-… 构造 的 踏步 锁 )，346 
storage 《存储 )，346。 参见 locks 
local blocks (本 地 块 )，560 
local caches 〈 本 地 高 速 缓存 ) 139 
local coherence (本 地 一 致 性 ) 855 
locality (局 部 性 ) 
characteristics, changing 《特征 ， 变化) ，141 
exploiting (FF), 57, 139, 142, 143 ~ 150 
parallelism and 〈 并 行 性 ) 14 
spatial 《空间 的 ), 142, 145 ~ 150 
temporal 《时 间 的 ), 142, 143 ~ 145 
in tree network (在 树 状 网 络 中 ), 668 
local memory microbenchmarks (本 地 存储 器 微 基准 测试 程 
FR), 215 
local node 《本 地 区 点 ), 560 


local spinning (本 地 踏步 ;，543 ~ 545 
local state monitor (本 地 状态 监视 ),， 661 
lock algorithm (WAE), 337, 538 ~ 541 
advanced (高 级 的 ), 346 ~ 348 
enhancements (增强 ), 342 ~ 343 
high-contention/low-contention and (高 竞争 / 低 竞 争 ), 675 
lock-free synchronization (ME), 351 
locks (BH) 
accessing 《访问 ) , 336 
acquiring (EHR), 106 
acquisition latency (ERATZE), 337, 343 
array-based (基于 数组 的 ), 347 ~ 348, 539, 651 
expense of (…… 的 开销 )，106 
faimess YFTE), 343 
hardware (48/4) , 337 ~ 338 
LL-SC (LLSC), 344 ~ 346 
performance (性 能 ) ，340 ~ 342, 348 ~ 350 
performance goals (PERE HER), 343 ~ 344 
QOLB (QOLB), 651 
queuing (HEBA), 651 
scalability 《可 伸缩 性 ), 343 
on SGI Origin2000 (FE SGI Origin2000 机 上 ), 650 (fig.) 
software (HF), 338 ~ 340 
software queuing (软件 队列 )，539 
storage cost (存储 成 本 )，343 
test&set (Test and Set), 340, 341 (fig.), 342 
test-and-test&set (测试 -测试 并 设置 ) 342 ~ 343 
ticket (人 场 卷 )，346 ~ 347 
traffic (ME), 343 
lockup-free caches (EMARE), 414 
Cyber 835 mainframe (Cyber835 KAHL), 924 
design (HIF), 922 ~ 926 
design questions (Ht ER), 923 ~ 924 
at memory system level (在 存储 系统 级 )，930 
options (选择 ) 924 
LogP model (LogP 模型 )，191 
Lı caches (L È REH) 
set-associative (ZH AHIR), 394 ~ 395 
write-back ( 回 写 ), 396 
write-through (E29), 396 
long links (KH), 764 
lookahead buffer 〈 先 行 缓冲 ) 870 
lookahead program counter (LA-PC) (先行 程序 计数 器 )，883 
lookup-free cache design (无 锁 高 速 缓存 设计 ) ，922 ~ 926 
loop nests (IRE), 93, 95 
loops (循环 ) 
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analysis of (分 析 )， 93 
bounds (+), 113 
parallelizing (并 行 化 ) 124 
parallel, self-scheduling of (并 行 、 自 调度 ) 128 
sequential ( 串 行 化 ), 93 
low-voltage differential signal (LVDS) (〈 低 电压 差分 信号 )，766 
LU benchmark (LU 基准 测试 程序 ) 532 
application performance (应 用 程序 性 能 ), 533 (fig. ) 
communication characteristics (通信 特征 )， 551 (fig.) 
speedups 《加 速 比 )，532 
working set curves 〈 工 作 集 曲线 ), 537 (fig. )。 参 见 bench- 
marks 
LU factorization (LU 因 式 分 解 ),， 244 ~ 248 
computational complexity of (计算 复杂 性 ) 244 
Gaussian elimination and (高 斯 消去 法 ), 244 
invalidation pattem (RER), 574 (fig.) 
invalidations (fEBE), 576 
load imbalance (负载 不 平衡 )，256 
locks and〈 锁 ) ，248 
miss rates 《 扑 空 率 ), 320 (fig. ) 
parallel blocked (并 行 分 块 的 ), 247 (fig. ) 
sequential blocked (EBFT4}3R AY), 245 (fig. ) 
spatial locality (空间 局 部 性 ), 320, 322 
speedup (WIELE), 431 
speedup on SG] Origin2000 (SGI Origin2000 上 的 加 速 比 》， 
621 (fig.) 
traffic vs. local cache (流量 与 本 地 高 速 缓存 比较 )，582 
(fig. ) 
traffic vs. number of processors (流量 与 处 理 器 数量 比较 )， 
580 (fig. ) 
writing block in (77 AJR), 576, 参见 workload case studies 


M 


machine size 《机 器 规模 ), 206 
main memory ( 主 存储 器 ) 
flow control ( 流 控 ) ，404 
out-of-order responses and { 乔 序 响应 ), 409 ~ 410 
SGI Challenge (SCI 挑战 ), 415, 420 
subsystem (FR), 405 
Manchester Dataflow Machine (曼彻斯特 数据 流 机 ), 494 
mapping 《映射 ) 83, 89 ~ 90 
Bames- Hut application 《 Bames-Hut hii FA PEF), 173 
cumulative performance (累积 性 能 ) ,531 
Data Mining application 《数据 挖掘 应 用 程序 ), 182 
execution time (执行 时 间 ), 159 (fig. ) 
Ocean application (Ocean 应 用 程序 )，165 


- parallel algorithms (并 行 算法 ), 153 
Raytrace application (Raytrace 应 用 程序 )，178。 参见 paral- 
lelization process 
MasPar (MasPar), 952 
massively parallel processors (MPPs) (大 规模 并 行 处 理 器 ), 23 
dedicated proprietary network (专用 网 络 )，454 
packaging (封装 ), 454 
performance (YERE), 24 (fig. ) 
matrix transposition 〈 和 矩阵 转 置 ) 876 
process 《进程 ), 675 ~ 677 
sender-initiated (发 送 者 启动 的 ), 676 (fig.), 929 (fig. ) 
MC (memory-constrained ) scaling (MC (存储 器 约束 ) 的 伸 
48), 207 ~ 208, 431. 433 
communication-to-computation ratio (通信 和 与 计算 之 比 )， 
212，433 
concurrency《 并 发 性 ), 212 
execution time (执行 时 间 ), 211 
memory requirements (WRR), 212 
naive (简单 的 ) 433 
realistic 《真实 的 ), 433 
scaled speedup (可 扩展 的 加 速 比 )，210 
SGI Origin 2000 (SGI Origin2000) ，621 ~ 622 
spatial locality 《空间 局 部 性) 213 
speedup 《加 速 比 ), 211, 213 
synchronization (同步 ), 213 
temporal locality (时间 局 部 性 ), 213 
work (TĦ), 211 
working set (TÆ), 27. 参见 scaling; scaling models 
media arbitration (介质 仲裁 ), 472 
Meiko CS-2 (Meiko CS-2), 503 ~ 506, 953 
asymmetric CP ( 非 对 称 CP), 503 
case study 《案例 研究 ), 503 ~ 506 
communication assist 《通信 辅助 部 件 )，505 (fig. ) 
communication latency (ii {HBT XE) , 525 ~ 526 
conceptual structure (概念 性 结构 ), 504 (fig. ) 
design shortcoming (设计 缺陷 )，506 
DMA processor (DMA 处 理 器 )，505,， 506 
elan (elan (一 种 处 理 器 的 名 字 )), 504 
flow control (WFE), 942 
machine organization (机 器 组 织 结构 ), 505 (fig. ) 
MBUS (MBUS), 503 
network transactions (网 络 事务 ), 503, 505 
node architecture〔 节 点 体系 结构 ), 503 
node operating systems (节点 操作 系统 ), 526 
page table (HX), 506 
send overhead (发 送 开 销 )，524 ~ 525 
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shared address read (共享 地 址 读 取 ), 528 
memory (存储 器 ) 

attraction 《吸引 1)，701 

main( 主 ), 404. 405 

mainframe《 主 机， 大 型 机 ),，30 

reflective (反射 性 ), 515, 518 

shared memory parallel progtam (共享 内 存 并 行程 序 ), 30 

shared virtual ( 共 亭 虚拟 )，709 ~ 724 
memory accesses (存储 器 访问 ) 

average (平均 ), 942 

frequency of (HR), 310 
memory barrier (MEMBAR) (存储 器 栅 障 (MEMBAR)), 688 
~ 689, 692 ~ 693 
memory-based directory schemes (基于 存储 器 的 目录 方案 )， 
566, 567 ~ 568 

latency reduction in (时 延 降低 ), 586 (fig. ) 

SGI Origin (SGI Origin), 596 ~ 622, 参见 directory schemes 
memory consistency (存储 同一 性 ), 283 ~ 291 

al acquire (在 获取 点 )，734 ~ 737, 738 ~ 739 

al release (在 释放 点 ), 733 ~ 734, 737 ~ 738 

sequential 〈 串 行 的 )，286 ~ 291 
mentory consistency models (存储 同一 性 模型 ) 285 

cost and (成 本 ), 681 

granularity and 《粒度 ), 681 

microprocessor 〈 微 处 理 器 )，699 

NUMA-Q (NUMA-Q), 633 

in real multiprocessor systems (在 实时 微 处 理 器 系统 中 )， 

698 ~ 700 

relaxed 《放松 的 ), 681 ~ 700 

SGI Origin2000 (SGI Origin2000) , 607 ~ 608 

shared address space (共享 地 址 空间 ) ，681 
memory/directory interface (MI) (存储 器 /目录 接口 ), 617 
memory latency (存储 器 时 延 )，833 

hiding (KARK), 870 

two contexts and (LEF X), 913, BH latency; latency 

tolerance 
memory management unit (MMU) (存储 管理 单元 ) 507 
memory operations (存储 器 操作 ), 275 ~ 276 

for execution with write-through invalidation protocol (使 用 直 

写作 废 协议 的 执行 ), 283 (fig.) 

incomplete, in SC (未 完成 ,在 SCRW), 871 

parallel case and (并 行情 况 ), 276 

reordering( 重 排序 ), 290 

with respect to processors (相对 处 理 器 而 言 ), 275 ~ 276 

sequential consistency (顺序 同一 性 ), 286 

within instructions (在 指令 中 ), 275 


memory system design (存储 系统 设计 )，305 
multiprocessor (多 处 理 器 ), 276 
SGI Challenge (SGI Challenge) , 424 
Sun Enterprise 6000 (Sun Enterprise 6000), 429 
memory usage (存储 器 使 用 ), 206 
meshes (网 格 )，38, 770 
with dimension order routing ( 维 序 路 由 ), 800 
two-dimensional (二 维 的 ), 771 
uniform wire density 《一致 的 连 线 密度 ), 784 
MESI write-back invalidation protocol (MESI 问 写 作废 协议 )， 
299 ~ 301 
bandwidth requirement (带宽 需求 ), 307 ~ 311 
bus actions (ERSTE), 311 
bus transactions (总 线 事务 ) 299 
cache-to-cache sharing (高 速 缓存 对 高 速 缓存 的 共享 )， 
300 
exclusive clean state (JH i HI-F MHRA), 299 
lower-level design choices (低层 设计 选择 ), 300 ~ 301 
owned state (拥有 状态 ) 300 
SGI Challenge (SGI Challenge), 422 
shared signal (S) 《共享 信号 ), 300 
stable states (稳定 状态 )，387 
states CIRA), 299 
state transition diagram (状态 转换 图 )，301 (fig.), 388 
(fig. ) 
state transitions 《状态 转换 ) , 299 ~ 300 
variants (变量 ), 299, 参见 MSI write-back, invalidation pro- 
tocol 
message passing 《消息 传递 ), 26, 37 ~ 42 
abstraction (抽象 ), 39 (fig. ), 488 
asymptotic bandwidths (渐进 带宽 ),529 (fig.) 
asynchronous (异步 的 ), 479 (fig.) 
bandwidth vs. message size (带宽 与 消息 大 小 的 关系 )，531 
(fig. ) 
collective communication operations 《集合 通信 和 操作), 55 
communication (通信 ), 111 
convergence (KR), 42 ~ 43 
equation solver pseudocode (方程 求解 器 伪 代 码 )，110 ~ 111 
(fig. ) 
implementation (实现 ), 43 
libraries (FE), 43, 52 
local references (局 部 引用 )，187 
machines (机 器 ), 38, 39 (fig. ) 
mutual exclusion (HF), 538 
naming (命名 ), 56 
operations GRE), 43, 56 
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operation time vs. message size《 操 作 时 间 与 消息 大 小 的 关 
系 ), 530 (fig. ) 
orchestration under (在 …… 下 协调 ), 108 ~ 116 
ordering (XJF), 56 
parallel software operations (并 行 软件 操作 ), 528 ~ 531 
point-to-point events 《点 对 点 事件 ), 538 
primitives ( 原 语 ),，109 
replication (复制 )，185 
research efforts (研究 努力 ), 68 
send/receive pair (发 送 /接收 对 ), 476, 481 
start-up costs 《启动 开销 ), 60, 529 (fig.) 
store-and-forward (存储 转发 ), 40 
synchronization (同步 ), H1, 113 
synchronous (同步 的 ), 39, 478 (fig.) 
three-phase protocol (三 阶段 协议 ), 480 
user communication 《用 户 通信 ), 38 
user-level 《用 户 级 ), 476, 477, 490 
uses (使 用 ), 38, ÆJ. shared address space 
(消息 传递 体系 结构 )，37 
node packaging (WAE), 37 
processors in 《处 理 器 ), 42 
Message Passing Interface ( MPI) 
112, 477, 957, 967 
message passing latency tolerance (消息 传递 时 延 包 容 ), 847 ~ 
. 851 
block data transfer 〈 块 数据 传送 ) 848 
multithreading 【多 线程 ), 850 ~ 851 
precommunication ( 预 通信 ),，848 ~ 850 
precommunication latency hiding 《通过 预 通信 隐藏 时 延 )， 
849 (fig. ) 
proceeding past communication in same thread (在 同一 线程 
中 处 理 过 去 的 通信 )，850 
structure of communication (通信 结构 )，848。 参见 latency 


message-passing architectures 


(消息 传递 接口 (MPI)), 


tolerance 
messages (消息 ), 751 
flow control ( 流 控 ) , 753 
making larger ( 变 大 ) 838, 839 (fig. ) 
overhead 《开销 ), 755 
size of (RF), 762 
MFLOPS (millions of floating-point operations per second) (每 秒 
百 万 次 浮 点 操作 ), 230, 231 
microbenchmarks 〈 微 基准 测试 程序 )，215 ~ 216, 967 
communication 《通信 ), 216 
echo test (回应 测试 ),，522 
experiment results 《实验 结果 ), 217 (fig. ) 
implementation (实现 ), 216 


input-output (输入 输出 ), 215 
local memory (本 地 存储 器 ), 215 
processing (处 理 ), 215 
role of (…… 的 角色 )，216 
SGI Origin2000 characterization with (SGI Origin2000 的 特 
HE), 618 ~ 620 
synchronization (同步 ), 216, 参见 benchmarks 
microprocessors 〈 微 处 理 器 )，63 ~ 64 
architecture design trends (体系 结构 设计 趋势 ), 15 ~ 19 
bit-level parallelism 《位 级 并 行 ), 15 
bus bandwidth (总 线 带 宽 ), 19, 21 
bus-based shared memory〔 基 于 总 线 的 共享 存储 器 ), 20 
CISC, 19 
clock frequency improvement 《时钟 频率 提高 )，13 
engineering requirements for (工程 需求 ), 949 
era (时 代 ), 6 
fraction devoted to memory (用 于 存储 器 的 一 部 分 )，947 
(fig. ) 
growth curve (增长 曲线 ), 15 
logic density improvement (人 逻辑 密度 改进 ),，13 
markets 《市场 ),，19 
memory consistency models (存储 同一 性 模型 ),， 699 
parameters (参数 ), 71 (fig. ) 
Pentium Pentium), 20 
performance (PERE), 4, 13 
RISC (RISC), 19 
transistors (SRK), 946, 948 (fig. ) 
user-level interrupts and (用 户 级 中 断 )，491 
(每 秒 百 万 条 指 





MIPS (millions of instructions per second), 
4), 230, 231, 257 

MIPS R4000 processor (MIPS R4000 处 理 器 ), 910 

MIPS R10000 processor (MIPS R10000 4h #2 #8), 597, 684, 
868 

misses 〈 扑 空 ) 2 il cache misses 


miss state holding registers (MSHRs) ( 扑 空 状态 保存 寄存 器 )， 


924 ~ 925 


access 《访问 ) ，924 
contents (AA), 924 
state entries (RASA), 925 (fig. ) 
MOESI protocol (MOESI 协议 ), 300 
Monsoon 〈 一 种 机 器 的 名 称 )，494，495，496 
MSI write-back invalidation protocol (MSI 回 写 作废 协议 )， 


293 ~ 299 


bus read exclusive (总 线 读 独占 )，294 
coherence satisfaction (一 致 性 满足 ), 297 
illustrated (i259), 295 (fig. ) 
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invalid state 《无效 状态 )，293 
lower-level design choices《 较 低层 设计 选择 ), 298 ~ 299 
modified state (已 修改 状态 ) 293 
for processor transactions (处 理 器 事务 ) 297 (fig. ) 
sequential consistency satisfaction (MUFF lal — TEN Æ), 297 
~ 298 
shared state (共享 状态 ) ，293 
state transitions (状态 转换 ) 294 ~ 296 
transactions and (事务 )，293 ~ 294 
write to unmodified blocks (对 未 修改 块 的 写 )，296。 参 见 
invalidation-based protocols 
multicast 《组 播 ) 120 
multidimensional meshes (多 维 网 格 ), 770 
multilevel cache hierarchies (多 级 高 速 缓存 层次 结构 )，393 ~ 
398 
coherence and (一 致 性 ), 393 
dual tags and (DURE), 397 
handling (Ab##), 393 
inclusion property (包含 性 质 ) 393 ~ 304 
intemal queues 《内 部 队列 ), 411 (fig.) 
intrahierarchy protocol (屋内 协议 )，397 
propagating transactions in 《传播 事务 ) 396 ~ 398 
split-transaction bus with (事务 拆 分 型 总 线 ), 410 ~ 413 
two-level (二 级 ), 394 (fig), 398 (fig. ) 
multimemory system 《多 存储 器 系统 },，137 ~ 142 
multipath routing (多 路 径路 由 )，800 
multiple-context processing (多 上 下 文 处 理 ), 897 
multiple-instruction-multiple-data (MIMD) (多 指令 -多 数据 
(MIMD)), 44 
multiple outstanding references (多 重 未 完成 引用 ), 413 ~ 414 
exploiting (RHE), 414 
semantic implications of (i XE), 414 
write buffer example ( 写 缓 冲 实例 ), 413 
multiple writer protocols (多 写 人 者 协议 )，716~ 718 
with acquire-based consistency (基于 获取 的 同一 性 ), 738 ~ 
739 
automatic update mechanism 《原子 的 更 新 机 制 ), 719 (fig.) 
home-based (基于 宿主 的 ), 717 
problem (问题), 717 (fig. ) 
with release-based consistency 《基于 释放 的 同一 性 )，737 ~ 
738 
software method 《软件 方法 ), 717 
TreadMark SVM (TreadMark SVM), 716 
multiprocessors 《多 处 理 器 )，12 
architectures (体系 结构 ), 23 
board-level ( 板 级 ) ,948 


cache-coherent (高 速 缓 存 一 致 性 ), 314, 926 ~ 927 
chip-level (芯片 级 ) ,948 
dancehall organization 《舞池 式 组 织 结构 ), 459 (fig. ) 
directory-based (基于 目录 的 ), 553 ~ 677 
distributed-memory organization (分 布 式 存储 器 结构 ), 458 
(fig. ) 
extended memory hierarchies 《扩展 的 存储 器 层次 结构 )， 
138 ~ 139, 271 (fig.) 
FLASH (内 存 ) 640, 648 
HAL S! (HAL S1), 643 ~ 645 
hierarchical bus-based (基于 层次 式 总 线 的 ), 661 (fig. ) 
hierarchical ring-based (基于 环 的 ), 665 (fig. ) 
as memory hierarchy〔 存 储 器 层次 结构 ),，140 
performance measures (性 能 度量 ), 202 ~ 204 
ring-connected ( 环 型 连接 ), 442, 443 (fig. ) 
scalable 《可 伸缩 的 ), 453 ~ 551 
shared memory (共享 存储 器 ), 23, 28, 29, 269 ~ 376 
simulations with 《用 …… 模 拟 )，200, 233 ~ 234 
snooping cache-coherent 〈 侦 听 式 高 速 缓存 一 致 性 )，278 
(fg. ) 
symmetric (对 称 ), 32 ~ 34, 269 ~ 271 
use goal for (应 用 目标 )，121 
Multiprog (ZEEF), 244, 252 
miss rates ( 扑 空 率 )，323 (fig.) 
spatial locality (空间 局 部 性 ), 323 ~ 324 
statistic gathering 《统计 收集 ), 254 
traffic as function of cache block size for (作为 高 速 缓 存 块 大 
小 的 函数 的 流量 ), 327 (fig. ) 
workload (工作 负载 ), 313, 323 
multiprogrammed workloads (多 道 程序 工作 负载 ), 218 
multistage interconnect (EHHE), 30 ~ 31, 34 
multithreading (多 线程 的 )，155 
blocked 《阻塞 的 ), 898 ~ 902, 914 ~ 917 
execution time breakdowns (执行 时 间 分 解 ), 913 (fig.) 
future of ( 的 未 来 )，939 
hardware-supported (硬件 支持 的 ) , 896 ~ 897 
integrating with multiple-issue processors (与 多 指令 发 射 处 
理 器 的 集成 )，920 ~ 922 
interleaving 《交错 ), 902 ~ 908, 917 ~ 920 
latency hiding (FHERR), 914 
message passing 《消息 传递 ) 850 ~ 851 
parallelism (并 行 性 ), 840 
performance benefits (性 能 益处 ), 910 ~ 914 
relaxed memory consistency and (放松 的 内 存 问 一 性 ), 914 
shared address space (共享 地 址 空间 )，896 ~ 922 
simultaneous 《同时 的 ), 920 ~ 922 
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support (FF), 851 (fig. ) 
techniques (4% A), 898 ~ 910, Æ IL latency tolerance; node chip 〈 节 点 芯片 ) ,463 
threads nearest-neighbor sharing (最 近 相 邻 者 共享 ) 588 
Munin system (Munin 系统 )，738 negative acknowledgment (NACK) (771A (NACK)), 591 
mutual exclusion (HFK), 57, 103, 113, 124, 188, 337 ~ 351 input buffer space availability (输入 缓冲 空间 可 用 性 ) 484 
algorithm (算法 ), 688 lines( 线 ), 400 
implementation of (EW), 335 NUMA-Q and (NUMA-Q), 632 
message-passing model (消息 传递 模型 )，538 SGI Chalienge (SGI Challenge), 404 
operation implementation (操作 实现 ) 337 SGI Origin2000 (SGI Origin2000) , 597 
shared address space (共享 地 址 空间 ), 538。 参 见 synchro- network design (网络 设计 ), 749 ~ 830 
nization case studies 《案例 研究 ), 818 ~ 827 
Myricom network (Myricom 网 络 )，826 ~ 827 trade-offs (4X), 749 ~ 750, 779 ~ 788 
communication assist (通信 和 辅助 部 件 ), 826 network interface card (NIC) 网络 接 口 卡 (NIC)) 
packets (数据 包 )，827 IBM SP-2 (IBM SP-2), 41 
switches 《交换 机 、 交 换 开关 )，827 Memory Channel (存储 器 通道 ), 519 ~ 520 
Myrinet (Myrinet), 514 ~ 515 Myrinet (Myrinet), 516 ~ 518 
case study 《案例 研究 ), 516 ~ 518 network interface (NI) 〈 网 络 接口 (NI)), 493, 525, 751, 768 
communication endpoints 《通信 端点 ) ,518 input/output ports 《输入 /输出 端口 ), 768 
DMA engines (DMA 引擎 ),， 517 Intel Paragon (Intel 的 Paragon #L), 499, 500 
Lanai processor (Lanai Mh E2), 516 packet formatting (数据 包 格 式 化 ),，768 
NIC (网 络 接口 卡 《NIC)), 516 ~ 518 SGI Origin2000 (SGI Origin2000), 618 
NOW organization (工作 站 网 络 (NOW) 组 织 结 构 )，517 network (s) 《网络 ) 
(fig.) back pressure and ( 反 向 压力 )，483 
bandwidth (HR), 761 ~ 764 
N Benes (Benes), 776, 777 (fig.) 
naming (命名 ), 55 ~ 56 buffering 《缓冲 ), 760 
Bames-Hut application (Bames-Hut 应 用 程序 ) 184 capacity (AH), 846 
message-passing model (消息 传递 模型 ) 56 closed system (封闭 系统 )，760 
Ocean application (Ocean 应 用 程序 ) 184 communication performance (GÑ APERE), 755 ~ 764 
Raytrace application (Raytrace 应 用 程序 ) 184 contention 《 争 用 ) 154 
shared address model (共享 地 址 模型 )，55，184 cost (成 本 ， 开 销 )，782 
narrow links (EPEE), 764 ~ 765 deadlock-free (人 免 死 锁 ), 483 
NAS benchmarks (NAS 基准 测试 程序 ), 966 ~ 967 definitions 《定义 ), 750 ~ 755 
BT (BT), 532 ~ 537 delay (HEIR), 61, 62 
kemels (ARK), 967 diameter (直径 ) 753 
LU (LU), 532, 533, 537 ~ 538 direct (ELE), 489 
paper-and-pencil ( 纸 和 笔 }, 966 flow control mechanism《 流 控 机 制 ) ,753 
parallelism costs 《并 行 代价 )，537。 参见 benchmarks fully connected (全 连接 的 ), 768 ~ 769 
n-body problems (n - 体 问 题 ), 76, 80 (fig. ) “hot spots”(“ 热 点 ”), 760 
nCUBE (nCUBE), 68, 463 latency (时 延 ) ,755 ~ 761 
nCUBE/2 (nCUBE/2), 463 ~ 464 open system (FARR), 763 
case study (案例 研究 ) , 488 ~ 490 organizational structure (组 织 结构 ), 764 ~ 768 
DMA controllers of (DMA 控制 器 ), 490 performance modeling (性 能 建 模 ) , 763 ~ 764 
input channels (输入 信道 ), 489 routing algorithm (路 由 算法 )，752 ~ 753 
machine organization (机 器 组 织 结构 ), 464 (fig. ) routing distance (路 由 距离 ), 753 


network interface organization (网 络 接 口 组 织 结 构 )，489 saturation point (饱和 点 ), 762 
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switches 《交换 开关 ) ,457 
switching strategy (XMR), 753 
wiring complexity《 连 线 复杂 性 ), 764。 参 见 network topolo- 
gies 
networks of workstations (NOWs) 
513 ~ 521 
communication latency (iH {AAT %E) , 526 
convergence (H), 513 
hardware primitives (硬件 原 语 ), 515 
Myrinet SBUS Lanai case study (Myrinet SBUS Lanai 案例 研 
F), 516 ~ 518 
node operating systems (节点 操作 系统 ), 526 
organization using Myrinet (采用 Myrinet 的 组 织 结 构 )，517 
(fig. ) 
PCL Memory Channel case study (PCI 存储 器 通道 案例 研 
究 ), 518 ~ 521 
receive overhead (接收 开销 )，525 
send overhead (发 送 开销 ) 525 
speedup 《加速 比 )，532 
network topologies (网 络 拓扑 ), 752, 768 ~ 778 
butterly《 蝶 型 的 ), 774 ~ 777 
choice of (选择 ), 761 
fully connected (全 连接 的 ), 768 ~ 769 
hypercube ( 超 立 方 体 ), 778 
latency and 《时 延 ), 756 
linear array 《线性 数组 ), 769 
multidimensional mesh (多 维 网 格 ) ，769 ~ 772 
ring (IF), 769 
trade-offs (权衡 ), 779 ~ 788 
tree Gf), 772 ~ 774 
network transactions 〈 网 络 事务 ),， 455, 468 
action 《动作 )，472 
bus transactions vs. (总 线 事务 与 …… 比较 ), 469 
completion detection (结束 检测 ), 472 
deadlock avoidance ( 死 锁 避 人 免 ), 473 
delivery guarantees (递交 保证 ), 473 
destination name and routing 《目的 地 和 名字 和 路 由 ), 472 
effects (效应 ), 469 
flow with symmetric communication (对 称 通信 流 )，499 
(fig. ) 
format 《格式 ), 471, 485 
input buffering 《输入 缓冲 ), 472 
interpreting (解释 ), 490 
latencies CHY2E), 475 
media arbitration (介质 仲裁 ), 472 
Meiko CS-2 (Meiko CS-2), 503, 505 


(工作 站 网 络 (NOWs))， 


Monsoon design (Monsoon 设计 ), 496 
output buffering 〈 输 出 缓冲 ) , 472 
overhead (开销 )，584 
parallel software and 《并 行 软件 ), 522 ~ 526 
performance (PERE), 522 ~ 526 
point-to-point (点 对 点 ), 555 
primitive (RUB), 469 (fig. ), 470 ~ 473 
processing in large-scale architecture 《大 规模 体系 结构 中 的 
处 理 )，485 (fig.) 
protection (保护 ), 471 
transaction ordering (事务 次 序 ), 473 
uncoupled source/destination (去 耦 的 源 / 目 的 地 )，471 
user/system flag 《用 户 /系统 标记 ), 491 
next PC (NPC) (于 一 PC (NPC)), 918 ~ 919 
node-level protocols 《节点 级 协议 ), 752 
nodes 《节点 ), 457 
dirty (HE), 560, 562 
exclusive (独占 的 ) 560 
head (3&), 624 
home (4), 560 
Intel Paragon (Intel 的 Paragon #L), 499 
linear array of (线性 数组 ) 769 
local (本 地 的 ), 560 
NUMA-Q (NUMA-Q), 623 
outer protocol (外 部 协议 ) 556 
owner (拥有 者 )，560 
pending lists and (来 决 表 )，633 
ring of (…… 的 环 )，769 
routing distance between 〈…… 之 间 的 路 由 距离 )，460 
SGI Origin2000 (SGI Origin2000) , 597 
SMP 〈 对 称 多 处 理 器 (SMP)), 467, 503, 721 
tail ( 尾 )，624 
workstations as 《作为 …… 的 工作 站 ), 467 
node-to-network interfaces (节点 - PERRET), 156, 454 
physical DMA (物理 DMA), 486 ~ 488 
user-level access 《用 户 级 访问 )，491 ~ 493 
nonadaptive routing 《 非 自 适应 路 由 )， 参 见 deterministic rout- 
ing 
nonbinding prefetch ( 非 绑 定 的 预 取 )，880 
nonblocking asynchronous SEND operation 〈 非 阻塞 异步 SEND 
操作 ) 115 
nonblocking synchronization 《 非 阻 塞 同步 ) ,351 
nonuniform memory access (NUMA) approach ( 非 一 致 的 存储 
器 访问 (NUMA) 方法 )，34，549 
scalable shared memory multiprocessor 《可 伸缩 的 共享 存储 
器 多 处 理 器 )，35 (fig.》 
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shared memory context (共享 内 存 器 上 下 文 ), 70 
use of 《对 …… 的 运用 ), 36 
NUMA-Q (NUMA-Q), 556, 622 ~ 645, 700 
average remote miss latency components (平均 的 远程 扑 空 时 
延 成 份 )，643 (fig. ) 
bandwidth 《带宽 ), 641 
case study 《案例 研究 ), 622 ~ 645 
coherence controller 《一 致 性 控制 器 ), 731 
comparison case study《 比 较 性 案例 研究 ), 643 ~ 645 
correctness issues (正确 性 问题 ), 632 ~ 634 
DataPump (DataPump), 641, 642 
deadlock (SES), 633 
directory protocol (目录 协议 )，624 
directory state diagrams (目录 状态 图 ), 670 (fig. ) 
directory structure (目录 结构 ) ，624 
error handling (出 错 处 理 ), 633 ~ 634 
hardware overview 《硬件 概述 )，635 ~ 637 
interquad IO transfers 《四 处 理 器 之 间 的 1/0 传送 ) 637 
I/O subsystem (VO FRZ), 637 (fig. ) 
1Q-Link board (IQ- 链 路 板 ), 622, 623, 643 
1Q-Link board block diagram (IQ - tE HAR HER), 636 
(fig. ) 
1Q-Link implementation 〈IQ- 链 路 实现 ) 639 ~ 641 
latency (HFE), 641 ~ 642 
livelock ( 活 锁 }, 633 
memory consistency model (存储 同一 性 模型 )，633 
microbenchmark characteristics 〈( 微 基准 测试 程序 特征 )， 
642 (fig.) 
multiprocessor block diagram (多 处 理 器 框图 ), 623 (fg.) 
NACKs and (NACKs), 632 
performance characteristics (性 能 特征 ), 641 ~ 643 
processing nodes 《处理 节点 ), 623 
processor consistency model (处 理 器 同一 性 模型 ) 698 
protocol extensions 〈 协 议 扩展 ) 634 ~ 635 
protocol interactions with SMP node (与 SMP 节点 的 协议 交 
H), 637 ~ 639 
read request handling (〈 读 请 求 处 理 ) , 626 ~ 628 
remote cache (远程 高 速 缓存 ) 623 ~ 624, 700 
SCI ring (SCI 环 ), 824 
SCI specification (SCI 规范 ), 822 
SCLIC (SCLIC), 635, 638, 639 ~ 640 
serialization of operations to given location (对 特定 单元 操作 
BIBITE), 632 ~ 633 
serialization of writes 〈 写 串 行 化 )，673 ~ 674 
sharing list 《共享 表 )，624，625 (fig.), 628 
SMPs (SMPs), 623 


SMPs as nodes {以 SMP 作为 节点 )，588 

starvation (FR), 633 

states CIRA), 624 ~ 626 

third-party commodity hardware (第 三 方 商用 硬件 )，622 
TPC-B benchmark (TPC-B 基准 测试 程序 ) 642, 643 
TPC-D benchmark (TPC-D 基准 测试 程序 ) ,642, 643 
workload characteristics 《工作 负载 特征 ), 642 (fig. ) 
write-back request handling 〈 回 写 请 求 处 理 )，630 ~ 632 
write request handling《 写 请 求 处 理 ), 628 ~ 630。 参 见 SGI 
Origin2000 


O 


object-based coherence 〈 基 于 对 象 的 一 致 性 ) ,721 ~ 723 
advantages/disadvantages (优势 /劣势 )，722 
synchronization events 《同步 事件 ), 723。 参 见 coherence 

occupancy (ii ARE), 61 

Ocean application (Ocean 应 用 程序 ), 76, 77 ~78, 161 ~ 166 
assignment (4}AC), 83, 161 ~ 163 
block transfer benefits in 〈 块 传输 的 好 处 )，861 (fig. ) 
capacity misses (REWE), 324 
concurrency (并 发 性 ) 78 
decomposition 〈 分 解 ) 161 ~ 163 
dependences among grid computations ( 格 计算 中 的 相关 性 )， 
162 (fig. ) 
equation solver keme! (方程 求解 器 内 核 ) 92 ~ 116 
execution time breakdown (执行 时 间 分 解 ), 166 (fig. ) 
grid arrays 〈 格 数组 ) ，90 
grid computations 〈 格 计算 ) 162 (fig. ) 163, 164 
horizontal cross sections OKEE), 78 (fig. ) 
invalidation pattem 《作废 模式 ), 574 (fig.) 
invalidations (R), 576 
iterative nearest-neighbor grid computalions (JK TUK REUSE AS 
HH), 891 
mapping (BRAT), 165 
miss rates 〈 扑 空 率 )，321 (fig. ) 
models 《模型 ), 77 
naming (497%), 184 
nearest-neighbor sharing (最 近 相 邻 共 享 ) 588 
on Origin2000 machine (TE Origin2000 机 器 上 )，149 
orchestration (协调 ), 163 ~ 165 
owner computes arrangement (拥有 者 计算 方案 ), 90 
prefetching remote data in 〈 预 取 远 程 数 据 ) 892 (fig.) 
process streams 《进程 流 ), 261 
sealing (PR, IMAX), 432 
sequential algorithm (4377035), 161 
spatial locality (空间 局 部 性 ) 163 ~ 164, 320, 321 
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sbeedup〈 加 速 比 )，431 
speedup on SGI Origin2000 (在 SGI Origin2000 上 的 加 速 
Hk), 621 (fig.) 
summary 【总 结 ) 165 
synchronization 《同步 ) ，165 
tasks (任务 )，82 
temporal locality (空间 局 部 性 ), 164 
time-step phases 《时 间 步 阶段 ), 162 (fig. ) 
traffic vs. local cache 《流量 与 本 地 高 速 缓 存 的 关系 )，582 
(fig.), 583 (fig. ) 
traffic vs. number of processors 《流量 与 处 理 器 数目 的 关 
系 )，580 (fig.), 581 (fig.) 
two-dimensional grids (二 维 格 ), 77 
working sets (TE), 164. BIL case studies 
offered bandwidth (提供 的 带宽 ) , 762 
one-block lookahead (OBL) schemes (— 38547 (OBL) 策 
略 ) , 882 
on-line bipartite matching 《在线 双向 匹配 ) ，810 
on-line transaction processing ( OLTP) benchmarks 〈 在 线 事务 
处 理 (OLTP) 基准 测试 程序 )，10 
open systems (开放 系统 ), 763 
operations 
atomic, implementing (操作 原子 性 , 实现 )，391 ~ 393, 
652 
competing (324+), 695 
conflicting (冲突 ) ，695 
critical section 《临界 区 ) ，105 
floating-point ( 浮 点 )，101， 209 
global communication (全 局 通信 ), 817 ~ 818 
interleaving, prohibiting (交错 , Bik), 105 
lock-based (基于 锁 的 ), 351 
message passing (消息 传递 )，43, 56 
out-of-order processing of (ALFALFA), 290 
parallel prefix (FFR), 546 ~ 547 
programming model (编程 模型 ), 56 
RECEIVE (接收 ), 112, 114~ 115 
release (FFI), 692, 733 ~ 734 
SEND (发 送 ), 112, 114 ~ 115 
serial order of (RFK), 276 
shared address model (共享 地 址 模型 )，56 
optimization 《优化 ), 219 ~ 220 
algorithmic 《算法 的 ), 219 
data layout, distribution, alignment (数据 布局 )，220 
data structuring 《数据 结构 化 ), 219 
orchestration (协调 ), 220 
orchestration 〈 协 调 ) 83, 89 


Bames-Hut application (Barnes-Hut 应 用 程序 ) 170 ~ 173 
choices (JEFF), 89 
Data Mining application (数据 挖掘 应 用 程序 ) , 181 ~ 182 
under data parallel model (在 数据 并 行 模型 下 ), 99 ~ 101 
under message-passing model (在 消息 传递 模型 下 )，108 ~ 
116 
Ocean application (Ocean 应 用 程序 ) 163 ~ 165 
optimization 《优化 ), 220 
for performance (TERE), 142 ~ 156 
performance goals 《性 能 目标 ), 89 
Raytrace application (Raytrace 应 用 程序 ) 176 ~ 177 
under shared address space model (在 共享 地 址 空间 模型 
下 )，101 ~ 108。 参 见 parallelization process 
ordering 〈 定 序 )，56 ~ 57 
bus transaction properties 《总 线 事务 属性 ), 473 
channel (信道 ), 794 (fig.) 
message-passing model (消息 传递 模型 ) 56 
network transaction 〈 网 络 事 务 )，473 
partial store (PSO) (部 分 存储 (PSO)), 686, 689, 865 
red-black (£1 - FA), 96, 97 (fig. ) 
relaxed memory (RMO) (放松 的 存储 器 (RMO)), 686, 
690, 693, 699, 866 
request-response (请 求 - 应 答 ), 409 
shared address model (共享 地 址 模型 )，57 
static (静态 的 ), 445 
synchronization and (同步 ), 57 
total store (TSO) (全 部 存储 (TSO)), 686, 865, 866, 867 
weak (WO) (SFR (WO)), 686 ~ 687, 690 ~ 691, 699, 
866, 867 
Orion bus interface controller (OBIC) (Orion 总 线 接口 控制 器 
(OBIC)), 635, 638, 639 
orthogonal recursive bisection (ORB) 〈 正 交 递 归 对 分 (ORB)), 
170 
Bames-Hut (Bames-Hut), 171 (fig, ) 
hypercube technology mapping《 超 立方 体 技术 映射 )，173 
outer protocol (外 部 协议 ) 556 
output array (输出 数组 ), 248 
output scheduling (输出 调度 ), 808 ~ 810 
algorithm (算法 ), 808 
control structure (控制 结构 )，809 (fig. ) 
overflow (溢出 ) 
broadcast scheme (广播 方案 ), 655 
coarse vector scheme ( 粗 向 量 方 案 ), 656 ~ 657 
dynamic pointers scheme (动态 指针 方案 ), 658 
methods for reducing directory width (减少 目录 宽度 的 方 
法 )，655 ~ 658 
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no broadcast scheme 〈 无 广播 方案 ) ，655 ~ 656 page fault handlers ( 缺 页 处 理 例 程 ) 709 
pointers (4841), 658 page granularity 《页 粒度 ), 725 
software scheme (软件 方案 ), 657 ~ 658 page migration (页 面 迁 移 ) 
overhead 《开销 ),61 automatic (自动 的 ), 729 
block transfer 〈 块 传输 ) ，242 explicit ( 显 式 的 ), 729 
cache block (高 速 缓存 块 ) 242 SGI Origin2000 and (SGI Origin2000) , 610 ~ 611, 729 
communication 《通信 )，186 ~ 187, 487 page table entries (PTEs) (页 表 项 (PTEs)) 
context switch 《现场 切换 ), 901 locking (锁定 ) ，440 
directory memory ( H RARS), 667 modifying (修改 ), 439 
endpoint (端点 )，183，846 pairwise sharing (成 对 共享 ) , 624 
hierarchical directory storage 〈 层 次 式 目 录 存 储 )，667 PAL code〈 可 编程 阵列 逻辑 代码 ) ，526 
interleaved scheme (交错 方案 )，909 parallel architectures 《并 行 体系 结构 ) 
latency tolerance and 《时 延 包 容 ), 845 abstraction layers (抽象 层 ), 27 (fig. ), 52 
message 《消息 ), 755 commercial computing and (商用 计算 ), 9~ 10 
network transaction (网 络 事务 )，584 convergence of (会 聚 ), 25 ~ 52 
per-message, amortized (每 条 消息 , PE), 857 cost-performance trade-offs and (性 能 成 本 权衡 )，4 
receive (424), 522, 523, 525 dataflow 《数据 流 ), 47 ~ 49 
reducing (RP), 151 ~ 152, 659 data parallel processing (数据 并 行 处 理 ), 44 ~ 47 
send (发 送 ) 522, 523 ~ 525 efficiency 〈 效 率 )，230 
single-thread support scheme《 单 线程 支持 方案 ),909 engineering component (工程 元 素 ), 64 
thread-switching (线程 交换 ) , 898 ~ 899 evolutionary scenario (演变 情况 ), 937 ~ 940 
unready thread cost (未 就 绪 线 程 开销 ), 909 (fig. ) evolution of (演变 ), 2 
overlap (重合 ), 63 form and function elements 《形式 和 功能 元 素 ), 1 
overlapping transactions (Hf #3345), 586 future of (…… 的 未 来 ), 935 ~ 961 
owner computes arrangement (拥有 者 计算 方案 ), 90 generic (一般 的 ), 50 ~ 52 
owner node (拥有 者 节点 ), 560 layers of (+4 的 层 ) 469 (fig. ) 
leaming process (学 习 过 程 ), 2~3 
P message passing 《消息 传递 ), 37 ~ 44 
packet buffers (数据 包 缓 冲 )，820 potential breakihroughs (潜在 的 突破 ), 944 ~ 955 
packets (数据 包 ), 751 reasons for (+++ JR), 4 ~ 25 
CRAY T3D formats (CRAY 13D 格式 ), 819 (fig. ) role in information processing (在 信息 处 理 过 程 中 的 角色 )， 
crossing channels (交叉 信道 ), 756 2 
envelope (ERE), 756 sealing in (eve 方面 的 伸缩 )，467 ~ 468 
format (格式 ), 754 (fig.) scientific computing and (科学 计算 ), 8 
formatting ERAK), 768 shared address space (共享 地 址 空间 ), 28 ~ 37 
fragmentation (碎片 ) 755 systolic 《脉动 的 ), 49 ~50 
full buffers and (全 缓冲 ), 759 technology and (技术 ), 936 ~ 955 
header (34), 754, 792 parallel computers 〈 并 行 计算 机 ) ,1 
IBM SP network (IBM SP 网络 ) 821 cost-performance trade-offs (性 能 成 本 权衡 )，2 
Myricom network (Myricom 网 络 )，827 hardware/software responsibilities in (硬件 /软件 责任 ), 2 
parts (ABE), 754 market pyramid 〈 市 场 金 字 塔 )，937 (fig. ) 
payload (HARER), 754 operating systems (操作 系统 ) 959 
SCI, formats (SCI， 格 式 )，825 (fig. ) performance characteristics 〈 性 能 特征 ) , 202 
trailer (Æ), 754, 766 programming model realization (编程 模型 实现 )，468 
packet switching( 包 交换 ), 758, 759 parallelism (并行 性 ) ,14 


page-based access control 《基于 页 的 访问 控制 ), 709 ~ 721 attractiveness of (吸引 力 ), 5 
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bi-level 《位 级 )，15 
computer architecture and 《计算 机 体系 结构 ), 1 
costs (Æ), 537 
data (RHE), 124, 125 
exploiting (发 据 ， 利 用 ) ,57 
freedom of (…… 的 自由 ), 75 ~ 76 
function (SHAE), 124 
hierarchical 《层次 结构 的 ) ，193 
importance of (…… 的 重要 性 ) 12 
instruction-level (指令 级 )，15 ~ 17 
leaming curve (学 习 曲 线 ), 9 
levels of (+++ RHI), 193, 194 (fig. ) 
locality and (Ja @B PE), 14 
multithreading (多 线程 )，840 
1960s innovations (60 年 代 的 革新 ) 67 
performance improvement and (性 能 改进 ), 6 
pipeline 《流水 线 ), 119, 120, 124, 125 
process-level (iE PERK), 19 
thread-level (线程 级 ), 17 ~ 19 
parallelization process 《并 行 化 过 程 ), 81 ~ 92 
data 《数据 ), 90 ~ 91 
example program 《范例 程 序 ), 92 ~ 116 
goals of (*…*-. 的 目标 )，82, 91 ~ 92 
gradual (AMAY), 366 
steps in (A), 82~90 
parallel languages 〈 并 行 语 言 )，958 
parallel prefix operation (并 行 前缀 操作 ), 546 ~ 547 
downward sweep 《向 下 扫描 ), 547 (fig.) 
performance (PERE), 546 
upward sweep (向 上 扫描 ), 546 (fig.) 
parallel programming (并 行程 序 设计 ) 
languages, immaturity of GH A, PRATE), 200 
models 《模型 ), 26 
transition to 《向 …… 的 转移 )，]12 
parallel programs 《并行 程序), 75 ~ 120 
algorithm designers and (算法 设计 者 ), 75 
architects and (体系 结构 设计 者 ), 75 
case studies (案例 研究 ) ,76 ~ 81 
debugging (调试 ), 960 
deterministic (确定 的 ), 96 
example parallelization of (并 行 化 的 实例 ), 92 ~ 116 
immaturity of 《不 成 熟 性 ) ,200 
load imbalanced (负载 不 平衡 ), 88 
programmers and 《程序 员 ), 75 
speedup of 《加 速 比 )，122 
statistics about (关于 …… 的 统计 ), 255 


Parallel Random Access Memory (PRAM) model (并 行 随机 访 
问 存储 器 (PRAM) 异型 )，136 ~ 137, 191, 718, 908 
algorithm development for (算法 开发 ),，137 
speedups on (JIMBEEL), 254 
usefulness of (有 用 性 ) 191 
parallel software (并 行 软件 ) 522 ~ 538 
application-level performance (应 用 程序 级 性 能 )，531 ~ 538 
categories 《类 别 )，955 
directory-based cache coherence implications (基于 目录 的 向 
速 缓存 一 致 性 实现 )，652 ~ 655 
evolutionary scenario (演变 情况 ), 955 ~ 960 
hardware/software trade-offs and (硬件 /软件 权衡 )，729 ~ 
730 
message-passing operations 《消息 传递 操作 ),，528 ~ 531 
network transaction performance 〈 网 络 事务 性 能 ) 522 ~ 526 
potential breakthroughs (HERM), 961 
shared address space operations (共享 地 址 空间 操作 )，527 
~ 528 
walls (44), 960 ~ 961 
parallel vector processors (PVPs) (并 行 向 量 处 理 器 ), 23, 24 
(fig. ) 
parallel virtual machine (PVM) (并 行 虚拟 机 (PVM)), 52 
parameter space (参数 空间 ) ,238 ~ 243 
associativity ( 相 联 性 ), 241 
cache block size (高 速 缓存 块 尺寸 ), 241 
cache/replication size (高 速 缓存 /复制 尺寸 ), 239 ~ 240 
goals 《目标 ), 238 
number of processors 《处理 器 数 日 )，238 ~ 239 
performance parameters of communication architecture (授信 体 
系 结构 的 性 能 参数 ) 242 
problem size (问题 大 小 ,238 ~ 239 
PARKBENCH (PARKBENCH), 967 ~ 968 


partial store ordering (PSO) 《部 分 存储 序 (PSO)), 686, 689, 
865 


partitioning (划分 ,分 区 ),83，123 ~ 137 
Bames-Hut application ( Bames-Hut 应 用 程序 )，169，171 
(fig.) 
dynamic (动态 的 ), 126, 127 
goal of (……' 的 目标 )，132，135 ~ 136 
image plan (图 像 平面 )，177 (fig.) 
into contiguous subdomain 〈 进 人 连续 的 子 域 ) 135 
principle (JRE), 359 
profiling-based semistatic〈 基 于 性 态 的 半 静 态 ) 169 
repartitioning ( 重 划分 )，134 
specifying (487), 101 
static block (HÆJ), 176 
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techniques 《技术 )，136 
trade-offs (权衡 )，135 
patches (补丁 ) 249 ~ 250 
interaction list (364 #2), 250, 253 (fig. ) 
light transfer between (++ 之 间 的 轻 量 传输 )，250 
payload (有 效 负 载 )，754 
PCI Memory Channel (PCI 存储 器 信道 ), 518 ~ 521 
communication assist (通信 辅助 部 件 ), 518 
DMA engine (DMA 引擎 ) 520 
interface (4215), 719 
NIC (网 络 接口 卡 (NIC)), 519 ~ 520 
page control table (PCT) (页 面 控制 表 (PCT) ) 520 
shared physical address space (共享 物理 地 址 空间 )， 518 
write doubling mechanism 〈 写 加 倍 机 制 ) ，718 
PC (problem-constrained) scaling (问题 约束 (PC) 的 伸缩 )， 
207 
communication-to-computation ratio (通信 与 计算 之 比 )，212 
concurrency 《并 发 性 ), 212 
memory requirements (存储 器 需求 ), 212 
problem size (问题 规模 ), 208 
spatial locality 《空间 局 部 性 ), 213 
speedup (加 速 比 )，208, 213 
synchronization {同步 ), 213 
temporal locality (时 间 局 部 性 ) ,213 
working set 《工作 集 ), 227。 参 见 scaling; scaling models 
pending lists (RAK) 
distributed (分 布 的 ), 634 
SCI (SCI), 629 (fig. ) 
total number for nodes (节点 总 数 )，633 
pending states 《未 决 状态 ), 590 
Pentium。 参 见 Intel Pentium Pro 
Perfect Club benchmarks (Perfect Club 基准 测试 程序 ) , 968 
perfect-memory execution time (完美 的 存储 器 执行 时 间 ), 210 
performance (PERE), 59 ~ 63, 121 ~ 197 
absolute (绝对 的 ), 202, 203, 228 ~ 229 
application parameter impact on 《应 用 程序 参数 对 ……… 的 影 
响 ) ,202 
array-based lock (基于 数组 的 锁 ), 350, 651 


factors (因素 ), 156 ~ 159 

floating-point GF), 13 

hierarchical coherence and (层次 式 一 臻 性), 668 ~ 669 
isolation with microbenchmarks (用 微 基准 测试 程序 来 分 
BY), 215 ~ 216 

lock ($4), 340 ~ 342, 348 ~ 350 

microprocessor ( 微 处 理 器 ), 4, 5 (fig. ), 13 

modeling 〈 建 模 ) 189, 763 ~ 764 

MPPs (大 规模 并 行 处 理 器 (MPPs)), 24 

multiprocessor, measures (多 处 理 器 ， 度量 ), 202 ~ 204 
multithreading (多 线程 ), 910 ~ 914 

NUMA-Q (NUMA-Q), 641 ~ 643 

occupancy and (占用 度 ), 61 

orchestration for (协调 )，142 ~ 156 

overhead and (FF #4), 61 

partitioning for (为 …… 分 区 )，123 ~ 137 

percentage improvement in (在 …… 方面 提高 的 百分比 )， 
231 

processor, growth 《处 理 器 , WHE), 4, 5 (fig.) 
programming (程序 设计 ), 121 ~ 197 

relaxed consistency models and 《放松 的 同一 性 模型 ) , 700 
SGI Origin2000 (SGI Origin2000), 618 ~ 622 
supercomputer (超级 计算 机 ), 24 

SVM (SVM), 720 ~ 721 

synchronization algorithm (同步 算法 ), 649 ~ 651 

trade-offs 《权衡 )，122, 123 

uniprocessor, supercomputer (FARIAS), 22 (fig. ) 
workstation (工作 站 ), 71 (fig. ) 


performance metrics (性 能 指标 ) 228 ~ 231 


absolute performance (绝对 性 能 ), 228 ~ 229 
choosing 《选择 ), 228 ~ 231 

execution time《 执 行 时 间 ), 157 ~ 159, 179, 203 
percentage improvement 《提高 的 百分比 ), 231 
problem size (问题 规模 ), 230 ~ 231 

processing rate (处 理 率 ), 230 

rate-based 《基于 比率 的 ), 262 

speedup 《加速 比 )。 参 见 speedup 

utilization 《利用 ), 230, 262 


block data transfer benefits ( 块 数据 传输 的 好 处 )，856 ~ 863 
COMA, trade-offs (COMA， 权 衡 )，702 ~ 703 
communication 《通信 ), 755 ~ 764 

components (成 分 )，59 

cost trade-off and 《成 本 权衡 )，4 

data transfer time (数据 传送 时 间 ), 60 ~ 61 

directory protocal (目录 协议 )，584 ~ 589, 645 ~ 648 
example (例子 ), 59 ~ 60 


perimeter-to-area ratio( 周 长 - 面积 比例 )，132, 133 (fig. ) 
peripheral component interface (PCI) buses (外 围 部 件 接口 总 
#2), 635, 636, 637 
per-processor heaps 每 处 理 器 的 堆 ), 363 
phits 《物理 单元 ), 752 

flits vs. (与 流 控 单元 的 关系 ), 753 

latency vs. 《与 时 延 的 关系 ), 788 (fig.) 
physical DMA (物理 DMA), 486 ~ 491 
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blind, communication assist for ( 盲 的 ， 通 信 辅 助 部 件 )， 
487 (fig.) 
communication abstraction implementation 《通信 抽象 实现 )， 
488 
LAN interfaces (局 域 网 接口 ) ，490 ~ 491 
nCUBE/2 (nCUBE/2), 488 ~ 490 
node-to-network interface (节点 到 网 络 的 接口 )，486 ~ 488。 
参见 direct memory access (DMA) 
physical protocol (物理 协议 ), 751 
physical scaling (物理 上 的 扩 放 ), 462 ~ 468 
board-level integration ( 板 级 集成 ), 465 ~ 466 
chip-level integration (芯片 级 集成 ), 463 ~ 464 
system-level integration (系统 级 集成 )，466 ~ 467。 参 见 
scaling 
pipelined latency( 流 水 时 延 ), 618, 911 
pipelined parallelism 《流水 并 行 性 ), 119, 120, 124 ~ 125 
availability (可 用 性 ), 125 
example (HF), 125 
pipeline stalls (流水 线 暂 停 ), 901 
pipelining (流水 ) 
cost (RÆ), 900 
late miss detection in 《晚期 扑 空 检测 ), 901 (fig. ) 
multiple memory operations 《多 个 存储 器 操作 ) ，863 
strategy (ZEEE), 400 ~ 401 
of writes (3), 866 
pivot element ( 主 元 素 ), 118 
pivot row (E47), 118, 119 
“platform pyramid” ( “平台 人 金字塔 "), 6 
PLUS system (PLUS 系统 ), 718 
P-node trees (P- 节点 树 ), 544 
point-to-point bandwidth (点 对 点 带宽 ). 151, 845 ~ 846 
point-to-point events (点 对 点 事件 )，538 
point-to-point network transactions (点 对 点 网 络 事务 ) 555 
point-to-point synchronization 《点 对 点 同步 ), 96, 172 
data dependences and (数据 依赖 )，130 
event ($F), 107 (fig.) 117, 352 ~ 353 
full-empty bits :ad ( 满 -空位 ), 352 ~ 353 
hardware suppor! (WHE FF), 352 ~ 353 
interrupts (HER), 353 
software algorithms (软件 算法 ), 352 
polling ($W), 482 
PowerChannel-2 1/0 subsystem (PowerChannel-2 输 人 /输出 子 系 
统 ) 422 ~ 424 
HIO interface chips (HIO 接口 芯片 ),， 422 
organization 《组 织 结构 ), 423 (fig. )。 参 见 SGI Challenge 
Powerpath-2 system bus (Powerpath-2 系统 总 线 ), 417 ~ 420 


acknowledge cycle (应 答 周期 )，419 
address/data buses (地 址 /数据 总 线 )，418 
data resource ID line (数据 资源 了 D 线 ), 419 
distributed arbitration scheme 《分 布 式 仲裁 方案 ), 418 ~ 419 
four-cycle sequence 《四 周期 序列 ), 420 
signals (信号), 417 
state transition diagram (状态 转换 图 ) , 418 (fig. ) 
timing diagram (HHF RI), 419 Cig. ) 
urgent requests (HAIR), 418. 25 SGI Challenge 
Precommunication ( 预 通信 ), 155, 838 ~ 839 
latency hiding through (通过 …… 的 时 延 隐藏 )，849 (fig. ) 
long-latency events and (长 时 延 事件 ) , 839 
message passing 《消息 传递 )，848 ~ 850 
with multiple-issue, dramaticafly scheduled processors (多 指 
令 发 射 、 动 态 调度 的 处 理 器 ) 895 
performance benefits (性 能 收益 )，891 ~ 896 
prefetching (HHX), 850, 878 
in receiver-initiated communication (接收 者 发 起 的 通信 )， 
839 
relaxed consistency comparison 《放松 的 同一 性 比较 ), 895 ~ 
896 
sender-initiated 〈 发 送 者 发 起 的 )，890 ~ 891 
shared address space〈 共 享 地 址 空间 ) , 877 ~ 896 
with single-issue, statically scheduled processors ( 单 指令 发 
射 、 毅 态 调度 的 处 理 器 ) ，891 ~ 894 
summary (总 结 ) ，896 
without caching of shared data (不 高 速 缓存 的 共享 数据 )， 
877 ~ 879。 参 见 latency tolerance 
predicted PC (AWAY PC), 919 
prefetch buffers 〈《 预 取 缓 冲 ) 878 
prefetching 〈 预 取 )，434，850 
analysis 〈 分 析 ) 880, 881 
binding 〈 绑 定 )，880 
block (48), 880 
compiler-generated, performance benefits (编译 器 产生 的 性 
能 收益 ) 893, Cig.) 
concepts (HEA) , 880 ~ 881 
contention and (竞争 ) 895 
coverage (37H), 881 
effectiveness (AZE), 895 
effects for SC (SC 的 效果 )，874 
hardware-controlled (硬件 控制 的 ), 880, 881 ~ 883 
hardware-controlled vs. software controlled (硬件 控制 与 软件 
控制 的 比较 )，888 ~ 890 
implementation issues《 与 实现 有 关 的 问题 ), 896 
ineffectiveness (无 效 性 )，872 
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nonbinding (H7), 880 
on local accesses (本 地 访问 )，891 
with ownerships (44442), 888 (fig.) 
precommunication (fii (9), 850, 878 
relaxed memory consistency comparison (放松 的 存储 器 同一 
性 比较 )，895 ~ 896 
remote data (远程 数据 ), 891 
remote data, performance benefits 《远程 数据 ， 性 能 收益 )， 
892 (fig. ) 
reorder buffer operations 《〈 重 排序 缓冲 器 操作 )，876 
scheduling (HARE). 880, 883 
selective, benefits of (选择 ，…… 的 益处 ) ，894 (fig. ) 
in shared address space (在 共享 地 址 空间 中 ) , 879 (fig. ) 
with single processor (对 于 单 处 理 器 ), 884 ~ 887 
software-controlled (软件 控制 的 ), 880, 884 
timing (ERY), 881 
unnecessary (不 必要 的 ), 881, 884 
presence bits (存在 位 ), 496, 560 
Princeton SHRIMP designs 《普林斯顿 SHRIMP 设计 ), 521 
private address space (私有 地 址 空间 )，!12 
problem sizes 《问题 规模 ) , 206 
artifactual communication and (附加 通信 ) , 223 
choosing 《选择 ), 238 ~ 239 
choosing based on working sets (基于 工作 集 的 选择 ) 224 
(fig. ) 
effect of (+--+ 的 效果 ), 227 (fg.) 
impact on spatial locality behavior 《对 空间 局 部 性 行为 的 影 
响 ), 225 (fig. ) 
metric (指标 ), 230 ~ 231 
PC scaling 《问题 约束 的 扩 放 ), 208 
range determination (范围 判定 )，221 
TC sealing 〈 时 间 约 束 的 扩 放 )，208 
proceeding past communication in same thread (在 同一 线程 越 
过 通信 )，839 ~ 840 
buffering and (4211), 863 
message passing (消息 传递 ), 850 
pipelining and 《流水 )，863 
reads ( 读 )，868 ~ 876 
in receiver-initiated communication (在 接收 者 发 起 的 通信 
H), 840 
shared address space (共享 地 址 空间 ), 863 ~ 877 
summary (总 结 ), 876 ~ 877 
writes (FJ), 864 ~ 868。 参 见 latency tolerance 
proceeding past reads (越过 污 操 作 ), 868 ~ 876 
dynamic scheduling (动态 调度 )，870 
enhancing (提高 ), 871 ~ 872 


performance impact (性 能 影响 ), 873 ~ 876 
release consistency 《释放 同一 性 ), 871 
sequential consistency (顺序 同一 性 )，871 
speculative execution 《投机 性 执行 )，870 ~ 871 
speculative reads (投机 性 读 )，872 


proceeding past writes (越过 号 操作 ), 864 ~ 868 


cache size/cache block size effects on 《高 速 缓 存 尺 寸 /高 速 
缓存 块 尺寸 对 …… 的 影响 )，869 (fig. ) 

performance benefits (性 能 收益 ), 867 (fig. ) 

performance impact (性 能 影响 ), 865 ~ 868 

write buffer and 〈 写 缓冲 )，867 ~ 868 


processes (HEFE), 29, 83 


communication between (之 间 的 通信 ), 59 
descheduling ( 反 调度 )，233 

execution intervals 《执行 间隔 ) ,736 

pinning ( 探 询 ), 89 

relationships of (…… 的 关系 )，84 (fig. ) 
serialization of《 串 行 化 ), 124 

shared memory machine (共享 存储 器 的 机 器 ), 49 


processing elements (PEs) 《处 理 单元 ), 44 ~ 45 


condition flag (条 件 标记 )，45 
systolic architecture (脉动 体系 结构 ), 49 
“virtualizing” ( “HHE” ), 46 


processing microbenchmarks (处 理 微 基准 测试 程序 ), 215 
processing rate (处 理 速率 ), 230 

process-level parallelism (进程 级 并 行 ), 19 
processor-and-memory (PAM) (处 理 器 和 存储 器 (PAM))， 
946, 950, 954, 955 

processer-cache handshake (处 理 器 - 高 速 绥 存 握手 )，388 
processor consistency (PC) (处 理 器 同一 性 (PC)), 686, 866, 
867 


comparison (比较 ) 688 (fig. ) 

model (EH!) , 698 

write ordering preservation (77 WIF RIE), 687. BIL system 
specification 


processor-in-memory (PIM) 《存储 器 内 轻 处 理 器 (PIM)), 951, 
952 (fig. ) 
processor interface (PI) (AMMAR CT (PID), 615 ~ 617 


physical FIFO 〈 物 理 先 进 先 出 缓冲 (FIFO)), 615 
request numbers (RE), 617 
shielding (FRE), 617。 参 见 SGI Origin2000 
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HP PA-8000 (HP PA-8000), 684 
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massively parallel (MPPs) 《大 规模 并 行 (MPPs) ) 23 
message-passing machine 《消息 传递 型 机 器 ), 42 
MIPS R10000 (MIPS R10000), 597, 684, 868 
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parallel vector (PVPs) (并行 向 量 (PYPs)),，23, 24 (fig. ) 
performance growth (性 能 增长 ), 4. 5 (fig. ) 
relationships of (+++ 的 关系 ), 84 (fig. ) 
statically scheduled (静态 调度 的 ), 891 ~ 894 
status word (状态 字 ), 915 
superscalar (超标 量 ), 895 
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vector 《向 量 ), 2i ~ 22 
program counters (PCs) 《程序 计数 器 ), 915 ~ 916, 918 ~ 919 
blocked multithreading {阻塞 的 多 线程 ), 915 ~ 916 
bus (总 线 ), 919 (fig.) 
chain (#£), 915, 918 
exception (EPCs) (异常 )，915 ~916, 918 ~919 
interleaved multithreading (交错 多 线程 ), 918 ~ 919 
managing (管理 ), 916 
next (NPC) (下 一 程序 计数 器 值 ), 918 ~ 919 
predicted (预测 ),，919 
programmer’ s interface (程序 员 接口 ) 686 
access labels ( 存 取 标号 ) 697 
consistency model (同一 性 模型 ), 694 
relaxed models at (放松 模型 ),699 
synchronization event identification (同步 事件 识别 )，695， 
参见 relaxed memory consistency models 
programming languages 《程序 语言 ), 682 
High Performance Fortran 《高 性 能 Fortran 庄 言 ), 723 
Jade (Jade), 723 
labeling support 《标记 支持 ), 729 
parallel, immaturity of (FFF, 不 成 熟 ) ,200 
Spjit-C (Split-C), 724 
variable declaration attribute (变量 声明 的 镶 性 ) ,697 
programming models (编程 模型 ， 程 序 设计 模型 ), 26 
abstraction (抽象 ), 28 
Active Messages (主动 消息 ), 481 ~ 482 
challenges (PEAK), 482 ~ 485 
data parallel (数据 并 行 ), 44 ~ 47 
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implications for (A4), 182 ~ 190 

message passing 《消息 传递 ), 37 ~ 44, 476 ~ 481 

naming (MA). 55 ~ 56 

operations (操作 ), 56 

ordering (HEF), 56 ~ 57 

requirements (需求 ), 53 ~ 57 

shared address space 《共享 地 址 空间 ), 37, 473 ~ 476 

shared memory processor 《共享 存 储 型 处 理 器 ) ，29 
programming performance (编程 性 能 ) 121 ~ 197, 960 
program orders 〈 程 序 操作 序 ) 687 ~ 694 

relaxing all (全 部 放松 ), 689 ~ 694 
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bandwidth requirement (带宽 需求 ), 307 ~ 311 

in cache block size (按照 缓存 块 尺寸 ), 313 ~ 319 
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impact of (…… 的 影响 )， 311 ~313 

methodology (方法 ), 306 ~ 307 

per-processor bandwidth 《每 个 处 理 器 的 带宽 ) 

requirements (需求 ), 312 (fig.) 
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于 作废 方式 的 比较 ), 329 ~ 334 
protocols (协议 ) 

home-based 《基于 宿主 的 ), 717 

hybrid (混合 的 ), 330 ~ 332 

inner (ARRAY), 556 

invalidation-based (fig.) (HEF PEBEAY (图 )), 278, 280, 

283 (fig. ) 

multiple writer (多 写 人 者 ), 716 ~ 718 

outer (外 部 的 )，556 

processing (处 理 )，708 
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queuing locks CHEBA SH), 651 


R 


Radiosity (Radiosity 应 用 ), 244, 249 ~ 252 
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BSP tree (BSP 树 ), 250 
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invalidation pattem 《作废 模 式 ), 575 (fig. ) 
invalidations ({£ BE), 577 
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miss rates 〈( 扑 空 率 ) 320 (fig. ) 
patches (补丁 ) 249 ~ 250 
quadtrees 《四 叉 树 ), 251 (fig.) 
spatial locality (空间 局 部 性 ), 322 
speedup (AUZE E), 431 
speedup on SGI Origin2000 (SGI Origin2000 的 加 速 比 ), 621 
(fig. ) 
traffic vs. local cache 《流量 与 本 地 高 速 缓存 的 关系 ) 582 
(fig. ) 
traffic vs. number of processors (流量 与 处 理 器 个 数 的 关 
系 )，580 (fig. )。 参 见 workload case studies 

Radix (Radix WFH), 244, 248 ~ 249, 267 
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dynamic scheduling (动态 调度 ), 875 (fig.) 
false-sharing effect in 〈 假 共享 效应 ) ,323 
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invalidations (作废 ) 576 
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keys (#7), 248 
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miss rates ( 扑 空 率 ), 321 (fig. ) 
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sorting 《排序 ), 249 (fig.) 
sorting kemel 《排序 内 核 ),，576 
speculative execution 《投机 执行 ), 875 (fig. ) 
speedup 《加速 比 ), 256, 431 
speedup on SGI Origin2000 (SGI Origin200 AY ANIL), 621 
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traffic vs. local cache 《流量 与 本 地 高 速 缓存 的 关系 )，582 
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invalidation pattem 《作废 模式 ), 574 (fig. ) 
invalidations 《作废 )，577 
mapping (BRET), 178 
miss rates ( 扑 空 率 ), 321 (fig. ) 
naming (MA), 184 
orchestration 《协调 )，176 ~ 177 
ray-oriented approach (面向 射线 的 方法 ) 175 
rays 《射线 ), 174, 175, 176 
scene-oriented approach (面向 景物 的 方法 ) ，175 
sequential algorithm 〈 串 行 算法 ) 175 
serialization 〈 串 行 化 ) 256 
spatial locality (空间 局 部 性 )，176 ~ 177 
speedup 《加 速 比 ), 431 
speedup on SGI Origin2000 (SGI Origin2000 的 加 速 比 }，621 
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summary (总 结 ), 178 
synchronization (同步 ),，177 
tasks (任务 ), 82 
temporal locality (时 间 局 部 性 )，177 
traffic vs. local cache 〈 流 量 与 本 地 高 速 缓存 的 关系 )，582 
(fig.), 583 (fig.) 
traffic vs. number of processors (流量 与 处 理 器 个 数 的 关 
系 )，580 (fig.), 581 (fig. ) 
working sets (TES), 177 
ray tracing (光线 跟踪 ), 79 ~ 80 
read exclusive (EH FF), 292 
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bus transactions (总 线 事务 ), 292 
cache coherence and (高 速 缓存 一 致 性 ), 294 
writing cache and〈 写 高 速 缓存 ) 297 
read misses 〈 读 扑 空 ) 662, 744 
blocking (阻塞 )，864，877 
proceeding past (越过 ), 868 ~ 876 
read-only sharing 《只 读 共享 ), 572, 588 
read requests (ÈK) 
buffers (RRBs) (mł), 615 
NUMA-Q (NUMA-Q), 626 ~ 628 
SGI Origin2000 (SGI Origin2000), 599 ~ 601 
read-to-own 〈 读 拥有 )。 参 见 read exclusive 
read-write communication ( 读 写 通信 ), 852 
ready threads (就 绪 线 程 )，898 
realistic scaling (真实 的 伸缩 )，266 
RECEIVE operation (RECEIVE 操作 )，112 
blocking asynchronous (阻塞 式 异 步 的 ) 115 
nonblocking asynchronous 〈 非 阻塞 式 异 步 的 )，115 
semantics 《语义 ), 114 ~ 115 
synchronous form〈 同 步 形 式 的 )，l12，114 
receive overhead (接收 开销 )，522 
comparison (比较 ), 525 
message breakdown (消息 分 解 ) ,523 (fig. ) 
red-black ordering (£0 - 黑 序 ), 96 
advantages 《优点 ), 96 
of equation solver 《方程 求解 器 ), 97 (fig. ) 
REDUCE statement (REDUCE 语句 ) 100 (fig.), 101 
reducing (减少 ) 
application miss rate 《应 用 扑 空 率 ) ,325 
artifactual communication (附加 通信 ), 142 ~ 150 
capacity misses (容量 型 扑 空 ), 314 
cold misses ( 冷 启动 扑 空 ) 314 
communication (fF), 123, 131 ~ 135 
concurrency (并 发 ), 99, 101 
conflict misses (冲突 型 扑 空 ) 314 
contention (竞争 ), 153 ~ 154 
delay (HEIR), 152 ~ 153 
extra work 《额外 工作 ), 123, 135 ~ 137 
false sharing( 伪 共享 ), 316, 328, 329, 361 (fig. ) 
overhead (开销 )，151 ~ 152 
serialization (434744), 130 ~ 131 
spatial interleaving 《空间 交错 ), 360 ~ 362 
true-sharing misses ( 真 共享 扑 空 ), 316 
reference generators 《访问 生成 器 ), 233 
reflective memory (反射 式 存 储 器 ), 515 
address space organization (地 址 空间 的 组 织 ), 519 (fig.) 


receive region (KEIR), 518 
transmit region (RIK KIRK), 518 
register insertion rings (寄存 器 插入 环 ), 443, 444 
relaxed memory consistency models (放松 的 内 存 同 一 性 模型 )， 
681 ~ 700 
intuition behind (H2), 684, 685 (fig. ) 
multithreading and (LRF), 914 
performance and (PERE), 700 
prefetching comparison (MELELE), 895 ~ 896 
programmer’ s interface (程序 员 接 口 )，686，694 ~ 697 
in real multiprocessor systems 《在 真实 的 多 处 理 器 系统 中 )， 
698 ~ 700 
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性 的 单 写 人 者 )，734 ~737 
single writer with consistency at release (在 释放 时 具有 同一 
性 的 单 写 人 者 ) ，733 ~ 734 
software implementation (软件 实现 ), 732 ~ 739 
solution components ( 解 的 成 分 ), 685 ~ 686 
system specification (系统 规范 ), 685 ~ 694 
translation mechanism (翻译 机 制 )，686，698 
using (使 用 ), 711 ~ 716。 参 见 memory consistency models 
relaxed memory ordering (RMO) (放松 的 存储 器 次 序 (RMO) )， 
686, 690, 693, 699, 866 
release-based consistency 〈 基 于 释放 的 同一 性 )，737 ~ 738 
release consistency (RC) (释放 同一 性 (RC)), 687, 690, 
691 ~ 692, 699, 866, 867 
acquire (3B), 692 
conservative (保守 的 ), 722 (fig. ) 
eager 《积极 的 ), 712, 713 (fig. ) 
hardware implementations 《硬件 实现 ), 715 
incomplete acquire operation in (未 完成 的 获取 操作 ), 871 
interface (接口 )，692 
latency hiding under〈 隐 藏 的 时 延 ) 871 
lazy (ERI), 713 (fig), 715, 717, 738, 746 
non-null pointer value (〈 非 空 指针 值 )，715 ~ 716 
at programmers interface (在 程序 员 的 接口 ) 699 
release (FERC), 692 
weak ordering vs 与 弱 序 相 比 较 )，691 (fig). BU sys- 
tem specification 
release method (释放 方法 )，335 
release operation (释放 操作 ), 692, 733 ~ 734 
remote blocks (远程 块 )，560 
remote caches (远程 高 速 缓 存 ), 623 ~ 624, 660, 662 
access time, minimizing (访问 时 间 ， 最 小 化 ) ,663 
DRAM (DRAM), 663, 700 
renaming 〈 重 命名 ) 18 
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replication (42 fill), 184 ~ 186 
artifactual communication and 《附加 通信 )，140 ~ 142 
communication and (通信 ), 58 ~ 59 
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finite capacity (有 限 容量 ) 140 
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723 ~ 724 
size 《尺寸 ), 239 ~ 240 
state (RAS), 914 ~ 915, 917 ~ 918 
reply forwarding (应 管 转发 ) ，585 
outstanding requests and (未 完成 的 请 求 )，586 
SGI Origin2000 (SGI Origin2000), 597, 602 
requests (请 求 )，398 
conflicting (PPR), 398 ~ 399, 402 ~ 403 
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responders (响应 者 )，382 
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uses 《使 用 ), 769。 参 见 network topologies 
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467 ~ 468 
importance of (重要 性 ), 204 ~ 206 
key issues in 《关键 问题 ), 206 ~ 207 
latency (时 延 ),，460 ~ 461 
linear, property (线性 的 ， 特 性 ), 209 
machines 〈 机 器 ) ，206 
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j), 211 ~ 213 
memory-constrained (MC) (PZŻ), 207 ~ 208, 210 ~ 
211，431，433，621 ~ 622 
problem-constrained (PC) 
208, 212 ~ 213, 227 
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scatter decomposition ( 散 列 分 解 )，176 
scene-oriented approach (面向 场景 的 方法 ), 175 
scheduling (调度) 
algorithm (算法 ), 808 
based on latency (基于 时 延 ), 885 
dynamic 《动态 的 ), 870 
output (输出 ), 808 ~ 810 
prefetch ( 预 取 ), 880, 883 
scientific/engineering computing《 科 学 /工程 计算 )，6 ~ 9, 218 
~ 219 
SCI link interface controller (SCLIC) (SCI 链 路 接口 控制 器 
(SCLIC)), 635, 638, 639 
chip block diagram CÈ H HER), 641 (fig. ) 


(问题 约束 的 (PC)), 207 ~ 
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coherence controler (一 致 性 控制 器 ) ，640 
directory controller (目录 控制 器 )，639 
engine (312), 640 
memory-mapped counters 《存储器 映射 的 计数 器 ),， 641 
scope consistency《 域 同一 性 ), 723 
segmented register file (分 段 寄存 器 文件 )，900 
for multithreaded processor (多 线程 处 理 器 ),，915 (fig. ) 
statically (静态 地 ),，914 
self-scheduling 〈 自 调度 的 ) 128 
sender initiated communication (发 送 者 启动 的 通信 )，833， 
879 
precommunication 〈 预 通信 )，890 ~ 891 
software-controlled (软件 控制 的 )，890 
sender -initiated matrix transposition (发 送 者 启动 的 矩阵 转 
置 )，676 (fig.), 929 (fig.) 
SEND operation (SEND 操作 ), 112 
blocking asynchronous (阻塞 的 异步 的 ), 115 
nonblocking asynchronous 〈 非 阻塞 的 异步 的 ) 115 
semantics (X), 114 ~ 115 
synchronous form (同步 形式 ), 112, 114 
send overhead (发 送 开销 ),，522 
comparison 《比较 ), 523 ~ 524 
message breakdown (消息 分 解 ), 523 (fig. ) 
sense reversal (感应 逆转 )，355 
Sequent Computer Systems (Sequent 计算 机 系统 )。 参 见 
NUMA-Q 
sequential algorithms 〈 串 行 算法 ) 
Barnes-Hut application (Bames-Hut 应 用 ), 166 ~ 169 
Data Mining application (数据 挖 所 应 用 ), 179 ~ 180 
Ocean application (Ocean 应 用 ), 161 
providing (提供 )，389 
Raytrace application (Raytrace 应 用 ) ，175 
sequential consistency (SC) 《顺序 同一 性 ), 286 ~ 291, 865 
comparison (比较), 688 (fig. ) 
execution model 〈 执 行 模型 )，695 
implementing (EM), 287 
incomplete memory operation in (未 完成 的 存储 器 操作 )， 
871 
interleaving (ZR, ZR, ZH), 288, 695 
invalidations and (作废 ), 710 
latency hiding under (时 延 隐藏 )，871 
memory operations (存储 器 操作 )，286 
model (模型 ), 682 
MSI invalidation protocol and (MSI 作废 协议 ), 297 ~ 298 
performance limitations (性 能 局 限 性 )，684 
prefetching effects for 〈( 预 取 效果 )，874 


preservation conditions (保留 条 件 )，289 ~ 291 
at programmer’ s interface 〈 在 程序 员 的 接口 )，683 
register allocation by compiler and (通过 编译 器 分 配 寄存 
#8), 683 (fig.) 
in rings (TEM), 441, 444 
in scalable machines (在 可 扩展 的 机 器 中 ) , 475 
semantics (语义 ), 685, 688, 697 
sequentially consistent execution (顺序 同一 性 执行 ), 288 
sequentially consistent system (顺序 同一 性 系统 ),， 288 
serialization and (414716), 289, 592 ~ 593 
split-transaction bus 〈 事 务 拆 分 型 总 线 )，406 ~ 409 
for SVM (for SVM), 711 (fig.) 
in two-level hierarchical bus design (二 级 层次 总 线 设 计 )， 
677 
write atomicity 〈 写 原子 性 )，288,，289 (fig. ) 
write buffers 〈 写 缓冲 区 )，865，874 
sequential loops (顺序 循环 ), 93 
sequential program order (顺序 的 程序 原 序 ), 53, 54 
serialization 〈 串 行 化 ) 388 ~ 390 
across locations for sequential consistency (跨越 单元 以 保证 
顺序 同一 性 ) 592 ~ 593 
buffer at home (宿主 节点 的 高 速 缓 存 ) 590 ~ 591 
buffer at requestor (请 求 方 的 缓冲 ) ，591 
for bus-based machines (基于 总 线 的 机 器 )，291 
forward to dirty node 《转发 给 脏 节点 ),，591 
globally consistent 《全 局 同一 的 )，590 
to location for coherence (单元 一 致 性 )，589 ~ 591, 604 ~ 
607, 632 ~ 633 
minimizing (最 小 化 ), 124 
NACK and retry (否定 回答 并 重 试 ), 591 
of operations at different locations (在 不 同位 置 的 操作 )， 
406 
Raytrace application (Raytrace 应 用 ), 256 
reducing (减少 ), 130 ~ 131 
in rings (EIF), 41, 444 
SCI protocol (SCI 协议 )，639 
sequential consistency and (顺序 同一 性 ), 289 
split-transaction bus (事务 拆 分 型 总 线 )，406 ~ 409 
write (7), 277, 288, 389, 589, 663 


SGI Challenge (SGI 4 Challenge 机 ), 311 


application performance 《应 用 性 能 ) 429 ~ 433 

application speedups (应 用 加 速 比 ), 430 ~ 431 

barrier performance on 〈 栅 障 性 能 ) 357 (fig. ) 

bus architecture 《总线 体系 结构 〉, 400 

bus interface chips (总 线 接口 芯片 ), 420 

cache-to-cache transfers (高 速 缓存 到 高 速 缓 存 的 传输 )， 
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384 
case study (RAWA), 415, 417 ~ 424 
chip types CH 844), 420 
design (iit), 415 
flow control (HFE), 424 
VO subsystem (输入 /输出 子 系统 ), 422 ~ 424 
lock performance on (PAPERE), 348 ~ 350 
main memory 〈( 主 存储 器 ), 415, 420 
memory subsystem 《存储 器 子 系统 ), 420 ~ 422 
memory system performance (存储 器 系统 性 能 ), 424 
MESI protocol (MESI HPX), 422 
NACK lines ( NACK 28) 404 
operating system 《操作 系统 ), 415 
outstanding transactions (未 完成 的 事务 )，449 
Powerpath-2 system bus (Powerpath-2 系统 总 线 ), 417 ~ 420 
processor board chip partitioning (处理 器 板 芯片 的 分 区 )， 
421 (fig.) 
processor subsystem 《处 理 器 子 系统 ). 420 ~ 422 
read microbenchmark results( 读 微 基准 测试 程序 结果 )， 
425 (fig. ) 
scaling results ( 扩 放 结果 )，432 
system organization (系统 组 织 结 构 )，416 ( fig. )。 参 见 
Sun Enterprise 6000 
SGI Origin2000 (SGI Origin2000), 36 ~ 37, 150, 160, 556, 
5% ~ 622 
access protection rights (访问 保护 权 ) , 608 ~ 609 
application speedups (应 用 的 加 速 比 )，620 ~ 621 
arbitrator (仲裁 器 ), 614 
automatic page migration support 《自动 页 迁移 支持 ), 610 ~ 
611 
back-to-back latency (背靠背 时 延 )，619，620 (fig. ) 
bandwidths (带宽 ), 618 
Barnes-Hut application on (Barned-Hut 应 用 ), 174 
busy states (CRR), 597, 600 
cache coherence protocol (缓存 一 致 性 协议 )，597 ~ 604 
case study (案例 研究 ) . 596 ~ 622 
characterization with microbenchmarks (通过 微 基准 测试 程 
序 进行 特征 描述 ) ，618 ~ 620 
correctness issues (正确 性 问题 ),，604 ~ 609 
deadlock 〈 死 锁 ) 608 
deadlock detection 〈 死 锁 检 测 ) 595 
directory lookup (目录 查询 )，599 
directory protocol (目录 协议 ) 588 
directory state diagrams (目录 状态 图 )，670 (fig.) 
directory structure (目录 结构 ) 598 ~ 599，609 
DMA operation support (DMA 操作 支持 ), 610 


error handling (2244 4b #8), 608 ~ 609 

fat cube ( 胖 立 方 体 )，613 

hardware (硬件 )，612 ~ 614 

input/output operation support 〈 输 入 /输出 操作 支持 ) 610 
interconnection network ( 1.7128), 613 

IO configuration (输入 /输出 配置 )，614 (fig. ) 

lazy TLB invalidation mechanism 《惰性 TLB 作废 机 制 )，611 
links (HEH), 825 

livelock (754), 608 

local serialization at home node (7# E W A KRBE), 
606 (fig. ) 

local serialization at requestor ( 局 部 串 行 化 需求 )，606 
(fig. ) 

lock performance on 〈 锁 性 能 ) 650 

memory consistency model (存储 同一 性 模型 )，607 ~ 608 
MIPS R10000 processors (MIPS R10000 处 理 器 ) 597, 684, 
868 

multiprocessor block diagram 〈 多 处 理 器 框图 ) ,598 (fig. ) 
NACKs (NACKs), 597 

network case study (网 络 案例 研究 ) ，825 ~ 826 

network topology 〈 网 络 拓扑 )，826 (fig.) 

node board (节点 板 ), 613 (fig. ) 

Ocean application on (Ocean fii fA), 150 

performance characteristics (性 能 特征 ), 618 ~ 622 

pipelined latency (流水 线 延 迟 ), 618 

processing nodes 《处 理 节点 )，597 

protocol actions in response to requests 《响应 请 求 的 协议 动 
作 )，601 (fig.) 

protocol extensions (协议 扩展 ), 610 ~ 612 

protocol states (协议 状态 ) 598 ~ 599 

Raytrace application on (Raytrace 应 用 ), 179 

read-exclusive handling ( 读 互 斥 处 理 ) 602 

read request handling〈 读 请 求 处 理 ) 599 ~ 601 

reply forwarding (应 答 转 发 ) 597, 602 

router connections 《路 由 器 连接 ) 826 (fig. ) 

sealing (伸缩 ， 扩 放 ), 621 ~ 622 

serialization to location for coherence (为 一 致 性 在 单元 上 的 
串 行 化 ) 604 ~ 607 

speedups on (WIEHE), 205 (fig. ) 

SPIDER switch (SPIDER 开关 ), 825 

starvation (RiR), 608 

synchronization support (同步 支持 ), 611 ~ 612 

SysAD bus (SysAD Ñ), 609, 612, 613 

true unloaded latency (真实 无 载 时 延 ), 619 

virtual channels (HE (#iH), 613 

write atomicity 〈 写 原子 性 ) 607 
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write-back request handling ( 回 写 请 求 处 理 )，603 ~ 604, 
673 
write request handling (ERARI), 601 ~ 603 
Xbow (Xbow), 612, 613, 614。 参 见 NUMA-Q 
SGI Origin2000 Hub 《SGI Origin2000 立方 体 ), 706 
chip Gis Fr), 612 
chip layout 〈 芯 片 布线 )，616 (fig. ) 
connections (连接 ), 612 
controller components (控制 器 部 件 ), 615 
crossbar《 交 叉 开关 ), 617, 618 
implementation (SCHL), 614 ~ 618 
memory/directory interface (MI) (存储 器 /目录 接口 (MD), 
617 
network interface (NI) (网 络 接口 (NID), 618 
processor interface (PI) (处 理 器 接口 )，615 ~ 617。 参 见 
SGI Origin2000 
shared address (JE HUE), 29 
Fortran 90/High Performance Fortran ( Fortran 90/ 高 性 能 
Fortran), 52 
programming (编程 ), 26 
shared address space《 共 享 地 址 空间 ), 28 ~ 37, 116 
abstraction support (抽象 支持 ), 475 
arrays representing grid in (代表 网 格 的 阵列 ), 147 (fig.) 
artifactual communication in (附加 通信 ),， 142, 146 
cache-coherent (高 速 缓存 一 致 性 ), 879 ~ 891 
without caching of shared data《 不 做 高 速 缓存 的 共享 数 
据 )，877 ~ 879 
coherent replication in 〈 一 致 的 复制 )，556 
communication abstraction (通信 抽象 ), 473, 474 (fig.) 
convergence 《会聚 ), 42 ~ 44 
data transfer (数据 传输 )，37 
equation solver pseudocode (方程 求解 器 伪 指 令 ) ，104 ~ 105 
(fig. ) 
key primitives〈 关 键 原 语 ) 102 (fig. ) 
memory consistency model (存储 同一 性 模型 ), 681 
mutual exclusion (7), 538 
naming (484%), 55, 184 
node structures 《节点 结构 ), 728 (fig. ) 
operations (PEPE), 56 
orchestration under 〈 在 …… 下 的 协调 ) 101 ~ 108 
ordering ( 定 序 ), 57 
parallel software operations (并 行 软件 操作 ), 527 ~ 528 
physical (物理 的 ), 52, 506 ~ 513 
point-to-point events 《点 到 点 的 事件 ), 538 
prefetching in (HiX), 879 (fig.) 
programming model 《编程 模型 )，37 


read performance comparison( 读 性 能 比较 ), 527 (fig. ) 
read/write to shared data ( 读 / 写 共享 数据 )，183 
replication (复制 )，185 
spatial locality in (空间 局 部 性 ), 146 ~ 148 
threads of control 《控制 线程 ) ,54 
virtual 《虚拟 的 ), 43 
without coherent replication 《无 一 致 性 的 复制 ), 723 ~ 724 
working set (TER), 186. Æ message passing; pro- 
gramming models 
shared address space latency tolerance (共享 地 址 空间 时 延 包 
容 )，851 ~ 922 
block data transfer ( 块 数据 传输 ) , 853 ~ 863 
cache-coherent (高 速 缓存 一 致 性 ),，879 ~ 891 
communication structure (通信 结构 )，852 
multithreading (多 线程 )，896 ~ 922 
precommunication 〈 预 通信 )，877 ~ 896 
proceeding past communication in same threads (越过 同一 个 
线程 中 的 通信 )，863 ~ 867 
system application 〈 系 统 应 用 )，851 ~ 852 
technique properties (技术 属性 )，923 (fig. )。 参 见 latency 
tolerance 
shared bus (共享 总 线 ) ,453 
shared caches (共享 的 高 速 缓存 ), 434 ~ 437 
associativity 〔 相 联 度 ) 436 
bandwidth requirement satisfaction (带宽 需求 满足 ), 436 
benefits of (好 处 ), 434 ~ 435 
cache hardware utilization (高 速 缓存 的 便 件 利用 率 )，435 
disadvantages of (缺点 ) 436 ~ 437 
examples (例子), 435 
first-level 《第 一 层 ), 435, 436 ~ 437 
hit latency (命中 时 延 ), 436 
multiprocessor architecture (多 处 理 器 体系 结构 )，435 
(fig. ) 
size of (K/h), 436 
spatial locality and (空间 局 部 性 ), 434 
working sets and (CTER), 434。 参 见 caches 
shared memory multiprocessors (共享 存储 器 的 多 处 理 器 )， 
23, 28, 269 ~ 376 
bus interconnection (H2 4 #), 32 
communication assist and communication hardware (通信 辅助 
部 件 和 通信 硬件 )，51 29 
crossbar switch 《交叉 开关 交换 机 ), 30, 31, 34 
extending systems into (扩展 系统 ), 31 (fig.) 
interconnection schemes ( 互 连 方案 ), 31 (fig.) 
latency and (时 延 )， 37 
memory capacity, increasing 《存储 器 容量 ， 增 加 ),29 
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memory model (存储 器 模型 ), 30 (fig. ) 
multistage interconnect (REE), 30 ~ 31, 34 
processes (进程 ), 49 

programming model (编程 模型 ), 29 

sealable (H READ), 34 

small-scale (小 规模 的 ), 66, 453 

software implications 《软件 的 影响 ), 359 ~ 366 
synchronization (同步 ), 334 ~ 358 


sharing write back 《共享 的 回 写 ), 600 

Shasta (Shasta), 745 

short links ( 短 链 路 )，764 

SHRIMP (SHRIMP), 718 

Sigma-] (Sigma-1), 494 

Simple COMA (简单 COMA), 681, 726 ~ 728 
design 《设计 ), 726 
drawbacks (缺点 ) ，727 


shared pending (SP) state (共享 的 未 决 (SP) 状态 ) 925 path of read reference 〈 读 访问 的 路 径 )，727 ~ 728 
shared physical address space 〈 共 享 的 物理 地 址 空间 )，52， performance trade-offs 《性 能 折 中 ), 726 ~ 727 
506 ~ 513 presence check (存在 性 检查 ), 726。 参 见 cache-only mem- 


cachability (可 高 速 缓 存 性 ) 508 

communication assist 《通信 辅助 部 件 )，506，507 

CRAY T3D case study (CRAY T3D 案例 分 析 ) ，508 ~ 511 
CRAY T3E case study (CRAY T3E 案例 研究 ) ，512 ~ 513 
early designs 〈 早 期 的 设计 )，506 

limitations, overcoming 《局限 性 ， 克 服 ),，732 

machine organization 《机 器 组 织 结 构 ), 507 (fig. ) 

Memory Channel (存储 器 通道 ), 518 

MMU (存储 器 管理 部 件 ) 507 

summary 《总 结 ) 513, BIL shared address space 


ory architecture (COMA) 

simulated time 《模拟 的 时 间 ), 233 

simulations (模拟 ) 
event-driven (事件 驱动 ), 233, 234 (fig.) 
expense of (代价 ) ,232 
limitations of 《局限 性 ), 200, 232 
machine parameters for (机 器 参数 ) 234 ~ 237 
multiprocessor 《多 处 理 器 ), 200, 233 ~ 234 
speeding up 《加速 比 ) ,234 
trace-driven 《踪迹 驱动 的 ), 233 


shared pools (共享 池 )，807 simulators 《模拟 器 )，199 
shared virtual memory (SVM) (共享 的 虚拟 存储 器 (SVM))， accurate, building (精确 的 ， 构 造 ), 232 
709 ~ NA memory system (存储 器 系统 )，233 


coherence protocol 〈 一 致 性 协议 ), 733 
communication (通信 ), 712 (fig. ) 
high-performance, protocols (高 性 能 ， 协 议 ), 709 
illustration 《说 明 ), 710 (fig. ) 

memory management problems (存储 器 管理 问题 ), 726 
page-based (基于 页 的 ) 709 

page-grained 《页 粒度 的 ), 739 

path of read operation 〈 读 操作 的 路 径 ) ,719 ~ 720 
performance implications (性 能 影响 ), 720 ~ 721 
sequential consistency for (顺序 同一 性 ) ,711 (fig.) 
software, coherence (软件 ， 一 致 性 ), 721 
software, layer (软件 ， 层 ), 716 

TreadMarks system (TreadMarks 系统 ), 716 

write notices 〈 写 通告 ) , 711 

sharing list (共享 表 ) 

elements (元 素 ) 625 (fig. ) 

head node 〈 头 节点 )，628 

long (长 ), 629 

primitive operations 〈 原 语 操 作 ) 625 

purging (清除 ), 630 (fig. ) 

purging latency (清除 时 延 ),，629 

writer in (号 人 ), 629 


processor (处 理 器 ), 233 
simultaneous multithreading (并 发 多 线程 ), 920 ~ 922 
illustrated (说 明 的 ), 921 (fig.) 
issues (问题 ), 921 ~ 922 
for uniprocessors (HALERE), 922。 参 见 multithreading 
single-instruction-multiple-data (SIMD)( 单 指令 多 数据 (SIMD) )， 
44, 108 
data parallel programming model, (数据 并 行程 序 设 计 模 
型 )，44 
evolution (演变 ， 进 化 ), 46 ~ 47 
organization 《组 织 ), 45 (fig. ) 
renaissance (32%), 46 
single-instruction-single-data (SISD) (〈 单 指令 单数 据 (SISD)), 
44 
single-level caches 〈 单 级 高 速 缓存 ) ,281 
with atomic bus (原子 总 线 )，380 ~ 393 
atomic operation implementation (原子 操作 的 实现 )，391 ~ 
393 
base organization (基本 组 织 结构 )，385 
cache controller design (高 速 缓存 控制 器 设计 )，381 ~ 382 
deadlock 〈 死 锁 ) ，390 
livelock ( 活 锁 ) ，390 
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nonatomic state transitions ( 非 原子 性 的 状态 转换 )，385 ~ 
388 
serialization (4346) , 388 ~ 390 
snoop results (AWAR), 382 ~ 384 
starvation (RiR), 390 ~ 391 
tag design 《标记 设计 ), 381 ~ 382 
write backs 〈 回 写 ) ，384 ~ 385, Æ caches 
single-program-multiple-data (SPMD )( 单 程序 多 数据 (SPMD))， 
46~47, 103 
single-system image (单一 系统 映像 )，513 
single writer protocol 〈 单 写 人 者 协议 ) 
with consistency at acquire (获取 时 的 同一 性 ), 734 ~ 737 
with consistency at release (释放 时 的 同一 性 ), 733 ~ 734 
recent copy invalidation 《最 近 副 本 作废 ), 735 (fig. ) 
slackness (松弛 ) ,155 
slotted rings (44456), 443 
snoop-based multiprocessors (AEF (WT KA Ab EAE ) 
cache-coherent (高 速 缓存 一 致 性 ), 278 (fig. ) 
design (IT), 377 ~ 452 
snooping ( 侦 听 ) 
buses (总 线 ), 277 ~ 283, 589 
cache controllers (高 速 缓存 控制 器 ) ，277 
hierarchical (层次 的 ),.559, 660 ~ 664 
latency 《时 延 )，383 
results, matching 《结果 ， 匹 配 ), 402 ~ 403 
results, reporting (结果 ， 报 告 ), 382 ~ 384 
snooping caches 〈 侦 听 高 速 缓存 ) 
base machine design (基本 机 器 设计 ), 386 (fig. ) 
organization of (组 织 结构 )，383 
two-level, organization (两 级 , 组 织 结构 )，398 (fig. )。 参 
见 caches 
snooping protocols 《 侦 听 协议 ), 280 
cache-coherent 〈 高 速 缓存 一 致 性 ) 272 
components (部 件 )，280 
design space for (设计 空间 ) , 291 ~ 305 
supporting (支持 ) 381 
software caches (软件 高 速 缓存 ), 186 
software combining trees (软件 合并 树 )，542 ~ 543 
flat arrive structure vs. (与 扁平 的 到 达 结 构 相 比 )，543 
(fig.) 
for release (为 了 释放 )，5S43 
software-controlled prefetching (软件 控制 的 预 取 技术 ) 880 
coverage (Matt), 889 
effectiveness (AZE), 889, 895 
hardware-controlled vs. (与 硬件 控制 的 比较 ), 888 ~ 890 
scheduling (调度 ), 884 


with single processor 〈 单 一 处 理 器 )，884 ~ 887 
unnecessary prefetch reduction 〈 不 必要 的 减少 预 取 ) ，889 
参见 prefetching 
software instrumentation (软件 修改 )，707 ~ 708 
protocol processing (协议 处 理 ), 708 
run-time cost (运行 时 间 代 价 ), 707 
of write operations (SRE) » 718 
software locks (软件 锁 ) , 338 ~ 340 
implementation (SCHL), 339 
problem (问题 )，338 ~ 339 
state storage (状态 存储 )，338。 参 见 focks 
software overflow scheme 《软件 溢出 方案 ), 657 ~ 658 
for limited pointer directories 《有 限 指针 目录 )，658 
overhead (F4), 657 ~ 658 
software queuing locks (软件 排队 锁 ), 539 
algorithm for (算法 ), 541 (fig. ) 
compare&swap operation (比较 并 交换 操作 )，540 
space per lock (每 个 锁 的 空间 ), 541 
states RÆ), 540 (fig. )。 参 见 locks; software locks 
Solaris UNIX (Solaris UNIX), 416 
source-based routing (基于 洲 的 路 由 ), 790, 805 
space-sharing 《空间 共享 ), 89 ~ 99 
sparse directory (iit A 3k), 659 
spatial interleaving (空间 交错 ), 360 ~ 362 
spatial locality (空间 局 部 性 ), 142, 319 ~ 320 
analyzing 《分析 )，885 
Bames-Hut application (Barnes-Hut 应 用 )，170 ~ 172, 322 
in capacity misses 《容量 型 扑 空 ), 324 
centralized memory and (集中 式 存储 器 )，360 
in cold misses 〈 冷 启动 扑 空 ) 324 
Data Mining application (数据 挖掘 应 用 )，182 
in equation solver kemel (方程 求解 器 内 核 )，149 (fig. ) 
exploiting (At 4), 145 ~ 150 
increasing by copying data (通过 复制 数据 增加 )，363 ~ 364 
interaction example (相互 作用 的 例子 ) 225 
linked lists and (链表 ) ，324 
LU (LU), 320, 322 
mismatches 《不 匹配 ) 146 
Multiprog (多 道 程序 ), 323 ~ 324 
Ocean application (Ocean 应 用 ) ，163 ~ 164, 320, 321 
poor (不 良 ), 145 
problem size impact on 《问题 规模 的 影响 ) ,225 (fig. ) 
of processes’ access pattems (进程 的 访问 模式 ),，148 
Radiosity application (Radiosity 应 用 )，322 
Raytrace application (Raytrace 应 用 ), 176 ~ 177 
scaling models 《伸缩 模型 ， 扩 放 模 型 ), 213 
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in shared address space 共享 地 址 空间 ), 146 ~ 148 
shared caches and (HERRAT), 434 
using 〈 使 用 ) ，224 ~ 226。 参 见 locality 
SPEC benchmark (SPEC 基准 测试 程序 ) 13, 199, 968 
SPEC95 (SPEC95), 199 
SPEC92 (SPEC92), 199, 2551 benchmarks 
speculative execution (投机 性 执行 ), 684，870 ~ 871, 876 
instructions (指令 )，870 ~ 871 
lookahead buffer (先行 缓冲 )，870 
Radix (基数 ), 875 (fig. ) 
speculative reads (投机 性 读 ) , 684, 872, 876 
speculative reply (投机 性 应 答 ),，600 
speedup 《加 速 比 ), 122, 203 
algorithmic (算法 ), 220, 254, 256 (fig.) 
application (WA), 430 ~ 431 
Bames-Hut (Bames-Hut), 431 
blocked multithreading (阻塞 的 多 线程 ), 912 (fig. ) 
CRAY T3D (CRAY T3D), 532 
IBM SP-2 (IBM SP-2), 532 
interleaved multithreading 〈 交 错 的 多 线程 )，912 (fig. ) 
limit (BRI), 135, 136 
LU (LU), 431 
MC scaling 《存储 器 约束 的 扩 放 ), 211, 213 
measuring (测量 ), 163, 203, 229 
Ocean (Ocean 应 用 ), 431 
on PRAM architectural model (PRAM 体系 结构 模型 ), 254 
on SGI Origin2000 (SGI Origin2000), 205 (fig.), 620 ~ 621 
PC scaling 问题 约束 的 扩 放 ), 208, 213 
perfect (完美 的 ), 266 
Radiosity (Radiosity 应 用 ), 431 
Radix (Radix 应 用 ), 431 
Raytrace (Raytrace 应 用 ), 431 
sealed (伸缩 的 ), 210 
self-relative( 自 相关 的 ),163 
superlinear《 超 线性 的 ), 204, 205 
TC scaling (时 间 约 束 的 扩 放 ), 209, 213 
UltraSparc cluster (NOW) ( UltraSparc 集群 (NOW), 532 
over uniprocessor ( 优 于 单 处 理 器 ) 204 
SPIDER switch (SPIDER 交换 开关 )，825 
spin-waiting (踏步 等 待 ) 106 ~ 107 
SPLASH-2 suite (SPLASH-2 程序 组 ),'307, 965 ~ 966 
Split-C language (Split-C 语言 ), 724 
split-transaction bus (事务 拆 分 型 总 线 )，398 ~ 415 
advantages/disadvantages (优点 /缺点 )，398 
alternative design choices (其 他 设计 选择 ), 409 ~ 410 
cache miss path (ERR hE KIZ), 404 ~ 406 


example design (Ax PALIT), 400 
flow control 《 流 控 ) ，404 
incoming transactions (进入 的 事务 ), 408 
issues (问题 )，398 ~ 399 
lock-down (锁定 ), 391 
with multilevel caches (Z ERRET), 410 ~ 413 
multiple outstanding miss support (多 个 未 决 扑 空 支持 ), 413 
~415 
negative acknowledgment ( NACK) (否定 应 答 (NACK))， 
400 
read transaction (i445), 401 (fig.) 
request-response matching (请 求 -响应 匹配 )，398，400 ~ 
402 
request transaction (请 求 事务 ), 398 
response transaction 《响应 事务 )，398 
sequential consistency (上 顺序 同一 性 ),，406 ~ 409 
serialization 《 串 行 化 )，406 ~ 409 
snoop results 〈 侦 听 结 果 )，402 ~ 403 
SparcCenter 2000 (SparcCenter 20000) , 410 
SRAM (静态 随机 存储 器 (SRAM)), 949, 950 
stable states (稳定 状态 ),387 
Stache (Stache), 726 ~ 728 
allocation management (分 配 管理 ), 727 
memory management 〈 存 储 器 管理 ) 727 
stacked dimension switches ( 栈 式 维度 交换 开关 ), 810 ~ 811 
design (设计 ), 810 
illustrated (说 明 的 ), 811 (fig. )。 参 见 switches 
Stanford DASH (Standford 的 DASH #L), 640, 910 
deadlock detection 《 死 锁 检测 ),，594 
directory-based coherence (基于 目录 的 一 致 性 ), 596 
multiprocessor (多 处 理 器 ) ,301 
project (SIA), 69 
Stanford FLASH (Standford 的 FLASH #1), 640, 648, 658 
coherence controller 〈 一 致 性 控制 器 ) 731 
programmable protocol engine 〈 可 编程 协议 引擎 ) 706 
starvation (484%), 380, 390 ~ 391 
directory protocols (目录 协议 ), 595 ~ 596 
elimination of 《消除 ), 380, 390 
NUMA-Q (NUMA-Q), 633 
potential (潜在 的 ), 380 
SGI Origin2000 (SGI Origin2000}, 608 
solution (##), 595~ 596. ÆJ deadlock; starvation 
state bits (状态 位 ) 560 
states 《状态 ) 
busy《 忙 ), 603 ~ 604 
cache block (高 速 缓存 块 ) 279 
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directory (目录 ), 603 ~ 64 
dirty (HIE), 600 
exclusive (JH AY), 603 
exclusive-clean (E) (独占 -干净 ), 302, 600 
exclusive pending (EP) 《独占 - 挂 起 ), 925 
expanding number of (扩展 数量 ), 387 
invalid pending (IP) (无 效 的 挂 起 ), 925 
master (EJF), 704 
modified (M) (已 修改 的 ), 293，302 
NUMA-Q (NUMA-Q), 624 ~ 626 
shared (共享 ), 293 
shared-clean (Sc) (共享 -干净 )，302 
shared-modified (Sm) (共享 -被 修改 ), 302 
share pending (SP) (HZHH), 925 
stable (稳定 的 )，387 
transient (过 渡 的 )，388 (fig. ) 
state transition diagrams (状态 转换 图 ) 
cache block (REITIR), 279 ~ 280 
Dragon protocol (Dragon 协议 ), 303 (fig.》 
MESI protocol (MESI 协议 ), 301 (fig.}, 388 (fig. ) 
Powerpath-2 bus {Powerpath-2 总 线 ), 418 (fig. ) 
state transitions CRAE), 308 ~ 309 


applications with smaller caches 《 较 小 高 速 缓存 的 应 用 )， 


314 
bus actions corresponding to 《对 应 的 总 线 动作 ), 311 
cache block (高 速 缓 存 块 ), 367 
Dragon update protocol (Dragon 更 新 协议 ) 303 ~ 304 
frequency data 〈 频 度数 据 ), 308 ~ 309 
MESI invalidation protocol (MESI 作废 协议 ) , 299 ~ 300 
MSI invalidation protocol (MSI 作废 协议 ) 294 ~ 296 
nonatomic (AE JRF AY), 385 ~ 388 

static assignment 《静态 分 配 )，88，99 
dynamic assignment vs. 《与 动态 分 配 相 比较 ) , 126 ~ 129 
load balance and (负载 平衡 ), 126 
task granularity with 《任务 粒度 )，130 
task management and (任务 管理 ), 126 
task size and (任务 规模 ) ，130。 参 见 assignment 

static ordering (静态 次 序 )，445 

steady-state loop 〈 稳 态 循环 )，850 

STOP symbol 《停止 符 导 ), 815 

storage technology revolution 《存储 技术 革命 ), 67 

store-and-forward (存储 转发 ), 40, 460 

store-and-forward routing (存储 转发 路 由 ), 756, 758 
cut-through routing vs. (与 直通 路 由 比较 ), 757 (fig. ) 
deadlock (JESH), 792 
delay (延迟 ), 942 


distance (距离 ), 779 
store-conditional (条 件 存储 )，344, 652 
stream buffers 〈 流 缓冲 区 )，882 
subblock write bits (SWBs) ( 子 块 写 位 (SWBs)), 925 ~ 926 
subgrids《〈 子 格 )，133，148 
Sun Enterprise 1000 (Sun Enterprise 1000), 445 ~ 446 
Sun Enterprise Server (Sun Enterprise AR 9 AF), 35 (fig. )， 
384, 404 
Sun Enterprise 6000 (Sun Enterprise 6000), 415 ~ 416, 424 ~ 
429 
block diagram (HERI), 417 (fig. ) 
design (设计 ), 415 
D-tags (D-FR%), 427, 429 
FiberChannel modules (光纤 信道 模型 )，429 
Gigaplane system bus (Gigaplane 系统 总 线 )，424 ~ 427 
VO subsystem (输入 /输出 子 系统 ), 429 
memory (存储 器 ), 416 
memory subsystem (存储 器 子 系统 ), 427 ~ 429 
memory system performance (存储 器 系统 性 能 )，429 
operating system (操作 系统 ), 416 
processing and VQ board 《处理 和 WO 板 ) 
organization，( 组 织 结构 ), 428 (fig. ) 
processor subsystem 《处 理 器 子 系统 ) 427 ~ 429 
read microbenchmark results〈 读 取 微 基准 测试 程序 结果 )， 
430 (fig. ) 
SysIQ ASICs (SyslO ASICs), 429, JL SGI Challenge 
Sun Spare (Sun Sparc) 
MEMBAR instructions (MEMBAR 指令 )，693 
PSO model (PSO 模型 ) 689 
V8 (V8), 689 
V9 RMO (V9 RMO), 689, 690, 693 
Sun SparcCenter 2000 (Sun SparcCenter 2000), 331 
multiple bus approach (多 总 线 方 式 ), 445 
split-transaction buses (3445 $5) AY B22), 410 
Sun UliraSpare (SUN 公司 的 UltraSparc), 533, 868, 940 
supercomputers (超级 计算 机 ), 21 ~ 23 
CRAY vector (CRAY 向 量 ), 8, 22 
performance (YERE), 24 (fig. ) 
uniprocessor performance of ( 单 处 理 器 性 能 ), 22 (fig. ) 
vector processors 【向 量 处 理 器 ) 21 ~ 22, 946 
superlinear speedup〈 超 线性 加 速 ) 204, 205 
superscalar execution 〈 超 标量 执行 )，17 
superscalar processors (超标 量 处 理 器 ) , 895 
surface-area-to- volume ratio (表面 积 对 体积 的 比例 )，132 
swap instruction (交换 指令 )，339 
switches〈 交 换 开 关 )，457，767-768 
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bandwidth (带宽 ), 939 
buffering (22741) , 759 
context (EFX), 897, 901 
cost (BA), 768, 900 
degree (BF), 457, 752, 767, 768, 801 
design of (iF), 801 ~ 811 
input buffered (输入 缓冲 的 )， 805 (fig. ) 
input ports (输入 端口 ), 767, 802 
intemal buffering (内 部 缓冲 ) 768 
internal datapath 《内 部 数据 路 径 )，802 ~ 804 
“intranode”，(“ 结 点 内 ””)，457 ~ 458 
Myricom network (Myricom 网 络 ), 827 
network (PRE), 457 
organization (41214449), 767 (fig. ) 
output ports (输出 端口 ), 767, 802 
output scheduling (输出 调度 )，808 ~ 810 
routing operations at (路 由 操作 ), 789 
scale limitation ( 扩 放 限制 ), 457 
SPIDER (SPIDER), 825 
stacked dimension 《 栈 式 维度 ) ,810 ~ 811 
VLSI (超大 规模 集成 电路 )，768，802，804 
switching 《交换 ) 
circuit (电路 ), 756 ~ 757 
cost (成 本 )，898 
delay (延迟 ), 756 
packet (数据 包 ) ，757 
strategy (策略 )，753 
time (MEJ), 897 
symmetric multiprocessors (SMPs) 《对称 多 处 理 器 )，32 ~ 34, 
269 ~ 271 
building blocks (构造 块 )，5$15 
bus-based (基于 总 线 的 ), 271, 457 
design challenge (设计 挑战 ), 366 ~ 367 
inexpensive (廉价 的 ) ,949 
layers of abstraction (抽象 层 ), 270 (fig.) 
nodes 《节点 ), 467, 503, 721 
symmetric successive overrelaxation (SSOR) (对 称 连 续 超 松 
ah), 532 
Synapse multiprocessor (Synapse 多 处 理 器 ), 298 
Synchronization (同步 ), 334 ~ 359 
algorithms for barriers (所 障 算法 ),，542 ~ 547 
algorithms for locks( 锁 算法 ), 538 ~ 541 
Bames-Hut application (Bames-Hut 应 用 ), 172~ 173 
barier( 栅 障 )，252 
block data transfer and ( 块 数据 传输 )，857 
Data Mining application (数据 挖 拨 应 用 )，182 


directory-based cache coherence (基于 目录 的 高 速 缓存 一 臻 
性 )，648~ 652 

directory-based multiprocessors (基于 目录 的 多 处 理 器 )， 
556 

event (事件 ), 57, 103, 106, 283 

execution time component (执行 时 间 的 成 分 )，158 

explicit (ERHI), 285 (fig. ) 

fine-grained 《 细 粒 度 的 )，130 

frequency of (频率 ), 95 

global (全 局 的 ), 95, 96, 106 

interprocess (进程 间 )，118 

library design (ERIH), 336 

lock-free ( 免 锁 的 ), 351 

MC scaling (MC 伸缩 ), 213 

message-passing program 《消息 传递 程序 ), 111, 113 
microbenchmarks 〈 微 基准 测试 程序 ) 216 
multiple-producer, singleconsumer group (多 生产 者 、 单 消 
费 者 组 )，173 

mutual exclusion (FJ), 57, 103, 113, 124, 188，337 ~ 
351 

nonblocking《 非 阻塞 ), 351 

Ocean application (Ocean 应 用 ), 165 

operation order (操作 次 序 ), 714 (fig. ) 

PC scaling (PC 414%), 213 

point-to-point 《点 到 点 ), 96, 117, 172 

QOLB (QOLB), 626, 651 

Raytrace application (Raytrace Jif FH), 177 

scalable multiprocessor (可 扩展 的 多 处 理 器 ) 538 ~ 547, 
655 

SGI Origin2000 support (SGI Origin2000 支持 ) 611 ~ 612 
for shared data variable access (共享 数据 变量 访问 )，691 
(fig. ) 

shared memory multiprocessor (共享 存储 器 多 处 理 器 ) 334 
~ 359 

software algorithms (软件 算法 ), 336 

summary (2444), 358 

support 《支持 ) 57 

TC sealing (TC 伸缩 ), 213 

wait-free (无 等 待 ) 350 

wait time 〈 等 待 时 间 ) ，124，866 

workload (工作 负载 )，254 


synchronized programs (同步 程序 ), 695 


at programmer’ s interface (程序 员 接 口 ) 699 
yielding (产生 )，697 


synchronous links (同步 链 路 ), 765 
synchronous message passing (同步 消息 传递 ), 39 
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matching rule (匹配 规则 ), 478 
protocol (HIL), 478 (fig.) 。 参 见 message passing 
system area networks (SANs) (系统 域 网 络 (SANs) ) 467, 
750 
Myrinet (Myrinet) 516 ~ 518 
scalable high-performance (可 扩展 的 高 性 能 )，503 
system design trends (系统 设计 趋势 ), 19 ~ 21 
system-level integration (系统 级 集成 ), 466 ~ 467 
system specification (系统 规范 )，685 ~ 686, 690, 693 
Alpha (Alpha) 693 
characteristics (特征 ), 694 (fig. ) 
PC (PC), 686, 687, 688 (fig. ) 
PowerPC (PowerPC), 693 
PSO (PSO), 686, 689 
RC (RC) 687, 690, 691 ~ 692 
TSO (TSO), 686, 687, 688 (fig.), 689 
WO (WO), 686 ~ 687, 690 ~ 691. 参见 relaxed memory con- 
sistency models 
systolic architectures (脉动 体系 结构 ), 49 ~ 50 
compulation of inner product (内 积 计 算 ), 50 (fig.) 
PEs (PEs), 49 
solutions on generic machines (在 一 般 机 器 上 的 解法 )，50。 


参见 parallel architectures 


T 


* T machine, (T machine), 495 
table-driven routing 〈 表 驱动 的 路 由 ) , 790 
tail node〈 尾 节点 )，624 
Tandem Himalaya system (Tandem 的 Himalaya 系统 )，12 
task granularity 《任务 粒度 ) 129 ~ 131 
determining (确定 的 ) 129 ~ 131 
with dynamic task queuing (动态 任务 队列 ), 129 ~ 130 
fineness (48), 130 
with static assignment 〈 静 态 分 配 ) 130 
task pools (任务 池 ), 127, 128 
task queues (ES BAF), 128, 129 
distributed 〈 分 布 式 的 ) 192 
implementing (EW), 130 ~ 131 
locking (加 锁 ) 131 
remote, accessing 〈 远 程 的 ， 访 问 )，131 
tasks (任务 ), 82 ~ 83 
assignment of (分配 ), 83, 116 
coarse-grained ( 粗 粒度 的 )，83 
examples (示例 )，82 ~ 83 
fine-grained 〈 细 粒度 的 ) ，83 
relationships of (关系 ), 84 (fig. ) 


task stealing ({E4 #7 FX), 128 
dynamic (动态 的 )，134 
implementing (EIL), 128 
termination detection and (终止 检测 ) 195 
TC (time-constrained ) sealing (TC (HFI HK) 扩 放 )， 
207, 431, 433 
communication-to-computation ratio (通信 与 计算 之 比 )， 
212, 433 
concurrency (并 发 ) 212 
memory requirements 《存储 器 需求 ), 212 
naive (简单 的 ), 433 
problem size (问题 规模 ), 208 
realistic (真实 的 ), 433 
spatial locality (空间 局 部 性 ), 213 
speedup (加速 比 )，209, 213 
synchronization (同步 ), 213 
temporal locality (时 间 局 部 性 ), 213 
viability (生存 力 ),，211。 参 见 scaling; scaling models 
technology trends (技术 趋势 ), 12 ~ 14 
temporal locality (时 间 局 部 性 ), 142, 143 ~ 145 
analyzing (分 析 )，885 
Bames-Hut application 《Bames-Hut 应 用 ), 172 
Data Mining application (数据 挖掘 应 用 ) ，182 
in equation solver kemel 《方程 求解 器 内 核 ) 143 ~ 144 
exploiting 《发 据 ), 143 ~ 145, 359 
goal (BER), 359 
implications 〈 隐 含 的 意义 )，145 
Ocean application (Ocean 应 用 ) 164 
Raytrace application ( Raytrace 应 用 ) ，177 
scaling models 〈 扩 放 模 型 )，213 
techniques (4278), 145, BX locality 
Tera architecture (Tera 体系 结构 ) 906 ~ 908 
active thread support (主动 线程 支持 ), 907 
general purpose multiprocessing (通用 多 处 理 ) , 908 
minimum issue delay 〈 最 小 发 射 延迟 )，9098。 参 见 inter- 
leaved multithreading 
termination detection (2 it Keil), 128, 195 
tertiary caches 〈 三 级 高 速 缓存 )，700 ~ 701 
test&set instruction (测试 并 设置 指令 ), 339, 341, 344, 391 
implementing (XW), 391 
success determination (成 功 的 判定 )，339 
test&set locks( 测 试 并 设置 锁 ) 
with backoff ( 回 退 ), 342 
performance (PERE), 340, 341 (fig.) 
problem with 〈 问 题 )，341 
test-and-test&set locks 《测试 -测试 并 设置 锁 )，342 ~ 343 
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failure (错误 ), 344 trace-driven simulation (踪迹 驱动 的 模拟 ), 233 
latency《 时 延 )，343 trade-offs (Hr), 122, 123 
TFLOPS (one trillion floating-point operations per second ) architectural (体系 结构 上 的 )，531 
(TFLOPS (每 秒 万 亿 次 浮 点 操作 ))，502 block data transfer ( 块 数据 传输 )， 854 ~ 856, 859 
Thinking Machines. (Thinking Machines. ) 。 参 见 CM-1; CM-2; busy-waiting and blocking 〈 忙 等 待 和 阻塞 )，335 
CM-S cost-performance (价格 性 能 比 ), 2, 4, 15 
thread-level parallelism (FERJIT), 17 ~ 19 emergence of (tHE), 148 
threads (线程 ), 29, 53, 83 evaluating (Ffi), 199, 231 ~ 243 
active (E5989), 898, 907 extra work, load balance (额外 工作 ， 负 载 平衡 ) 
busy time 〈 忙 时 间 )，897 communication 《通信 )，136 
context (E FX), 897 hardware/software (硬件 /软件 )，679 ~ 747 
idle time (23 PRET TA), 898 identifying (VARI), 199 
increasing number of (数量 增加 )，899 latency (时 延 ) 784 
lightweight 〈 轻 量 级 )，136 network design 《网络 设计 ), 749 ~ 750 
multiple concurrent (多 并 发 )，19 partitioning 〈 划 分 )，135 
ready (148), 898 protocol design 《协议 设计 ), 305 ~ 334 
in RISC machines (在 RISC 机 中 ), 53 realistic applications for 《真实 的 应 用 ), 123 
shared address space (共享 地 址 空间 ) switch-to-switch layer (FF XEN KIB), 827 
programming model (程序 设计 模型 )，54 trailer (RÆ, ÆW), 754, 766 
switching arrangement (切换 安排 ) 850, 851 Transaction Processing Council (TPC) (事务 处 理 委员 会 )，10 
switching time 《切换 时 间 ), 897 data (数据 ), 10, 11 
unready 《未 就 绪 ), 909 ~ 910。 参 见 multithreading March 1996 report (1996 年 3 月 的 报告 ), 12 
3D cubes (3D 立方 体 ), 769, 770 (fig.) result reporting 《结果 报告 ) 964 
three-message miss (三 消息 的 扑 空 ) 586 TPC-A (TPC-A), 964 
three-state invalidation protocol (三 状态 的 作废 协议 ) 293 ~ TPC-B (TPC-B) 642, 643, 964 
299 TPC-C (TPC-C) 10, 964 ~ 965 
ticket locks 〈 票 号 锁 )，346 ~ 347 TPC-D (TPC-D) 642, 643, 965， 参 见 benchmarks 
acquire method 《获取 方法 ), 346 ~ 347 transient states (过 渡 状 态 ), 388 (fig. ) 
performance (YERE), 350 transistors, per processor chip 〈 每 处 理 器 芯片 的 晶体 管 数 
read traffic problem 《 读 流 量 问 题 ) ，347。 参 见 locks 目 )，16 
tiles (图 像 分 片 )，176 translation lookaside buffer (TLB) (转换 检测 缓冲 器 (TLB)), 
token-passing rings 〈 令 牌 传递 环 ) 442 ~ 443 67 - 
topologies 《拓扑 )。 参 见 network topologies ASIDs 《地址 空间 标识 (ASIDs) ), 440 
topology-oriented program design (面向 拓扑 的 程序 设计 )，153 coherence (一 致 性 ), 439 ~ 441 
torus (torus) control registers 《控制 寄存 器 ), 915 
illustrated (说 明 的 ), 770 (fig.) entries (AFL), 440, 441 
links per node〈 每 个 节点 的 链 路 )，775 flush notices (刷新 通知 ) 451 
routing chip 〈 路 由 芯片 )，810 handler (处 理 例 程 ), 429 
3D (3D), 771。 参 见 meshes hardware-loaded 〈 硬 件 装载 的 ), 440 
total store ordering (TSO) (全 序 存储 序 (TSO)), 686, 865, lazy, invalidation mechanism 〈 惰 性 的 ， 作 废 机 制 )，611 
866, 867 misses (FRÆ), 223, 429 
comparison (比较 ), 688 (fig. ) PTEs (PTEs), 439 
write atomicity (SATHE), 689 shootdown (击落 ), 440, 451, 452 (fig. ) 
write ordering preservation 《 写 次 序 保持 )，687。 参 见 sys- software-loaded (软件 装载 的 )，440 
tem specification translation mechanism (翻译 机 制 )，686，698 


TPC. 参见 Transaction Processing Council (TPC) TreadMarks SVM system (TreadMarks SVM 系统 ) 716 
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tree barriers 〈 树 栅 障 ) 
arrival (到 达 ), 543 (fg-) 


combining, with sense reversal ( 带 有 感应 逆转 的 合并 )， 


543, 544 (fig.) 
with local spinning (本 地 踏步 ), 543 ~ 545 
release (FRI), 543 
static binary (HPA — MB), 544 
traffic distribution (流量 分 布 ), 543 
trees (if), 772 ~ 774 
binary 《二叉树 ), 772, 773 (fig. ) 
bisection 《对 分 }, 774 
branch factor 《分支 因 子 ), 773 
fat (READ), 774, 776 
global (全 局 的 ), 957 
links per node (每 个 节点 的 链 路 ), 775 
locality (局 部 性 ), 668 
saturation (饱和 ), 760 
16-node (16 - 节点 ), 774 
wire problem (GEME), 773 
trends (趋势 ) 
application 《应 用 ), 6 ~ 12 
architectural (体系 结构 的 )，14 ~ 21 
microprocessor design (多 处 理 器 设计 ), 15 ~ 19 
system design (系统 设计 ), 19 ~ 21 
technology (技术 )，12 ~ 14 
VLSI technology (VLSI 技术 ), 938 


TruCluster Memory Channel software (TruCluster 存储 器 信道 软 


4), 520 
true-sharing misses 〈《 真 共享 扑 空 ) 315 
block size and (RF), 318 
reducing (减少 ), 316 
tum-model routing 〈 折 转 模型 路 由 ) ,797 ~ 799 
minimal (最 小 化 ), 798 (fig. ) 
restrictions (约束 ), 798 (fig. ) 
virtual channels (if fai), 799, 2 routing 
twins (EF), 716 
2D grids (2D Ht ), 769, 770 (fig.) 


two-level sharing hierarchy (二 级 共享 层次 结构 ), 587 ~ 589 


advantages 《优点 )，587 
locality and 《局 部 性 )，588 


U 


uniform cluster cache (UCC) card (统一 的 机 群 高 速 缓存 ) ， 


663 


uniform interconnection card (UIC) (统一 的 互连网 络 卡 


(UIC)), 663 


uniprocessors (PALHAS) 
bandwidth (HP), 939 
cache controller 《高 速 缓存 控制 器 )，381 ~ 382 
cache design in (高 速 缓存 设计 ), 314, 381 
compilers (编译 器 ), 289 
memory system (存储 器 系统 }), 275 
PC shipments (PC 装运 ), 936 
simultaneous multithreading for〈 问 步 多 线程 ) 922 
speedup over (加 速 比 ) ，204 
state diagram 《状态 图 ) 280 
supercomputer performance (超级 计算 机 性 能 ), 22 (fig.) 
write-back caches on (HSER), 292 
unloaded latency 《无 载 时 延 ), 755, 780 ~ 785 
with equal pin count (相等 的 引 脚 数 ), 785 (fig. ) 
as function of degree (作为 度 的 函数 )，781 (fig.) 
for k-ary d-cubes (k 元 d- 327718), 783 (fig. ) 
for n-byte packet 《对 于 n 个 字 节 的 数据 包 ), 756 
sealing (伸缩 ), 780 (fig. ) 
for short messages (对 于 短 消息 ), 780, BIL latency 
unnecessary prefetches (不 必要 的 预 取 ), 881 
minimizing 《最 小 化 ), 884 
reducing (减少 )，889。 参 见 prefetching 
up* -down * routing (向 上 ~ 向 下 路 由 ), 796 ~ 797, 799 
update-based protocols 《基于 更 新 的 协议 ), 278, 292 
bounding losses of 《限制 损失 ),，331 
Dragon (four-state) 《Dragon《 四 状态 ))，301 ~ 305, 374 
Firefly (Firefly), 374 
invalidation-based protocols (基于 作废 的 协议 ) 
combined with (41), 330 ~ 332 


invalidation-based protocols vs. 〈 与 基于 作废 的 协议 比较 )， 


329 ~ 330 
miss rates 《 扑 空 率 ), 332 (fig. ) 
upgrade/update rates for (升级 /更 新 率 ), 333 (fig.) 
write atomicity (Fy RF HE), 673 
write operation and CE) BRIE), 292, BAL protocols 
upgrades (升级 )，318 
user flags 《用 户 标记 ), 491 
user-level access (用 户 级 访问 ), 491 ~ 496 
case study 《案例 研究 ), 493 ~ 494 
CM-5 (CM-5), 493 ~ 494 
node-to-network interface (节点 到 网 络 的 接口 ), 491 ~ 493 
user-level handlers 《用 户 级 处 理 例 程 ), 494 ~ 496 
communication assist (通信 辅助 部 件 ), 495 (fig. ) 
message processing 《消息 处 理 ),，493 
user-level network port (用 户 级 网 络 端 !] ) ,491 
architecture (体系 结构 ), 492 (fig. ) 
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communication assist for (通信 和 辅助 部 件 ), 492 (fig. ) 
user-oriented properties (TH 向 用 户 的 特性 ), 207 
utilization metric (应 用 度量 指标 ), 230, 262 


V 


vector processors 〈 疝 量 处 理 嚣 ) ,21 ~ 22, 67 
vector time stamp (Ta) EHER), 736 
virtual channels (HE fA), 613, 795 ~ 796 
in basic switch《 在 基本 交换 开关 中 ), 795 (fig. ) 
breaking deadlock cycles with 《切断 死 锁 回路 ), 796 (fig.) 
buffering (缓冲 ), 807 ~ 808 
routing algorithm and (路 由 算法 ), 796 
support 《支持 )，807 
tum-model routing with ( 折 转 模型 路 由 ) ，799 
uses for (HAF), 795。 参 见 channels 
virtual circuits (HH), 514 
virtually indexed caches 《虚拟 索引 的 高 速 缓存 ), 437 ~ 439 . 
organization 《组 织 结构 ), 439 (fig.) 
processor and 《处 理 器 )，438 
virtual index (虚拟 索引 ) ,438 
visualization case study. 《可 杭 化 案例 研究 )， 参 见 Raytrace 
application 
VLSI (VLSI) 
CMOS devices (CMOS 设备 ) 944 
feature size (特征 尺寸 )，12 
generation ({%), 15, 63 
scaling〈 伸 缩 ， 扩 放 )，802 
switches 《交换 开关 )，768，802，804 
technology trends 〈 技 术 趋势 )，938 
von Neumann model OB . 诺 依 曼 模型 ) 189 


W 


wait-free synchronization (无 等 待 同步 )，351 
waiting algorithm (等 待 算法 )，335，336 
wall-clock time 〈 墙 钟 时 间 ) ，228 ~ 229 
WAN flow control 《广域网 流 控 ), 812 ~ 813 
weak ordering (WO) (35 FF (WO)), 686 ~ 687, 690 ~ 691, 
699, 866, 867 
motivation 《动机 ), 690 
at programmer’ s interface 〈 程 序 员 接 口 ) 699 
release consistency vs. (与 释放 同一 性 比较 )，691 (fig.) 。 
参见 system specification 
west-first algorithm 《西向 优先 算法 ), 797 ~ 798, 799 (fig.) 
wide links 〈 宽 链 路 )，764 ~ 765 
working sets (工作 集 ) 
Bames-Hut application (Bames-Hut 应 用 ) ,172 





curves 【曲线 ) ,240, 260 (fig. ) 
effect of (效果), 227 (fig. ) 
execution characteristics and 〈 执 行 特征 ) , 222 
growth rates (增长 率 ), 261 
LU benchmark curves (LU 基准 测试 程序 曲线 )，537 (fig. ) 
MC scaling (MC 伸缩 )，227 
nonlocal data (〈 非 局 部 数据 ), 239 
Ocean application (Ocean 应 用 ) 164 
PC scaling (PC 伸缩 )，227 
problem sizes based on (问题 规模 ), 224 (fig. ) 
Raytrace application (Raytrace 应 用 ) ，177 
shared address space 《共享 地 址 空间 )，186 
shared caches and (共享 高 速 缓存 ), 434 
sizes 《大 小 ),259 ~ 261 
workload case studies (工作 负载 案例 研究 ), 244 ~ 253 
LU (LU), 244 ~ 248 
Multiprog (多 道 程序 ), 244, 252 
Radiosity (Radiosity), 244, 249 ~ 252 
Radix (Radix), 244, 248 ~ 249, 267 
workload-driven evaluation (工作 负载 驱动 的 评价 )，199 ~ 267 
of architectural idea (体系 结构 概念 ), 231 ~ 243 
difficulty of (XE), 200 
of fixed-size machine (固定 规模 的 机 器 ), 221 ~ 226 
performance metrics, choosing (性 能 指标 ， 选 择 )，228 ~ 
231 
protocol trade-offs (协议 权衡 )，332 ~ 334 
for real machine 《对 于 真实 的 机 器 ), 215 ~ 231 
of trade-off (权衡 ), 231 ~ 243 
varying machine size and 《改变 机 器 规模 ), 226 ~ 228 
workload parameters (工作 负载 参数 ) 
relationships among (之 间 的 关系 ), 214 
scaling (F849, PÈ), 201, 213 ~ 214 
workloads (工作 负载 ) 
benchmark (基准 测试 程序 ), 201 
characteristics of 《特征 ), 253 ~ 261 
choosing (选择 ), 216 ~ 220, 238 
communication-to-computation ratio (通讯 与 计算 之 比 )，257 
~ 259 
concurrency (并 发 ), 220, 254 ~ 257 
coverage of behavioral properties 《行为 特性 的 覆盖 ),219 ~ 
220 
data access (数据 访问 )，254 
load balance (RFH), 254 ~ 257 
with low/high communication-to-computation ratios ( 低 的 /高 的 
通讯 与 计算 之 比 ) ,219 
multiprogrammed 《多 道 程序 的 ), 218 
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representation of application 《应 用 的 表示 ) 
domains (R), 218 ~ 219 
synchronization (同步 ),， 254 
working set sizes (工作 集 尺 寸 ), 259 ~ 261 
work metric (工作 指标 )，209 
workstations (工作 站 ) 
networks of (NOWs) 《工作 站 网 络 (NOWs)), 513 ~ 521 
performance (TERE), 71 (fig.) 
wormhole routing (AEIR EH), 759, 794, 808 
write atomicity《 写 原子 性 ), 288, 389 
appearance of (表现 ) ，593 
distributed interconnect and (分布 式 互 连 ) 592 
example 《例子 ), 289 (fig. ) 
importance (重要 性 ), 288 
in invalidation-based scheme (在 基于 作废 的 方案 中 ), 592 ~ 
593 
preservation (保持 ) 291 
SGI Origin2000 (SGI Origin2000), 607 
TSO (TSO), 689 
with update protocols 《对 于 更 新 协议 )，673 
violation in scalable system 《在 可 扩展 系统 中 的 违规 )，593 
(fig. )。 参见 sequential consistency 
write-back buffers (PEIE), 385 
write-back caches( 回 写 高 速 缓存 ), 274, 291 
buffer deadlock problem in 〈 缓 冲 区 死 锁 问 题 ) ,412 
invalidation-based protocol (基于 作废 的 协议 ) 293 ~ 299, 
391 
L, (L), 396 
on uniprocessors 〈 在 单 处 理 器 中 ) ，292 
space of protocols for (协议 空间 ) ，283 
update-based protocol (基于 更 新 的 协议 ), 301 ~ 305, BA 
caches 
write backs ( 回 写 ), 384 ~ 385 
NUMA-Q handling of (NUMA-Q 处 理 ), 630 ~ 632 
SGI Origin2000 handling of (SGI Origin2000 处 理 )，603 ~ 
604, 673 
sharing (共享 ), 600 


write buffers ( 写 缓冲 区 )，413 


bypassable (JRI), 867 
merge restriction into (合并 的 限制 )，865 
SC utilization of (SC 的 利用 ) ,865，874。 参 见 buffers 
write-fence operation ( 写 - WHERE), 741 
write memory barrier (WMB)( 写 存储 器 栅 障 WMB)), 693 
write misses (号 扑 空 ) 
hierarchy flow 〈 层 次 流 ) 666 
performance impact (性 能 影响 )，865 ~ 868 
proceeding past 〈 越 过 ) 864 ~ 868 
write-no-allocate caches 〈 写 不 分 配 的 高 速 缓存 ), 281 (fig. ) 
write notices (FJER), 711, 734 
acquirer retention of (获取 者 保持 )，735 
at every release (在 每 个 释放 点 ) ，733 
in lazy implementation 〈 在 惰性 实现 中 )，717 
propagation of 传播), 734 
in release-based protocol 《基于 释放 的 协议 ) ，737 
write propagation ( 写 传播 ) 277 
write request buffers (WRBs)( 写 请 求 缓冲 区 (WRBs)), 615 
write requests ( 写 请 求 ) 
NUMA-Q (NUMA-Q), 628 ~ 630 
SGI Origin2000 (SGI Urigin2000) , 601 ~ 603 
write serialization (Gj AR4T{L), 277, 289, 663 
extending 《扩展 ), 288 
providing 《提供 ),，389 
write sharing (JE), 359 
write-through caches (Fi RARE), 278, 279, 291 
invalidation-based protocol for (基于 作废 的 协议 )，280, 283 
(fig.) 
L (L), 396 
multiprocessor snoopy coherence (多 处 理 器 侦 听 一 致 性 )， 
281 (fig.) 
write-to-read program order (5 ~ 读 程序 次 序 )，687 ~ 689 
write-to-write program orders (5 - 写 的 程序 次 序 ), 689 
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Xbow (xbow), 612, 613, 614 
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